llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 | FileCheck %s --check-prefixes=ALL,SSE,SSE2
   3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefixes=ALL,SSE,SSE41
   4 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx | FileCheck %s --check-prefixes=ALL,AVX
   5 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefixes=ALL,AVX
   6 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw | FileCheck %s --check-prefixes=ALL,AVX512,AVX512BW
   7 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl | FileCheck %s --check-prefixes=ALL,AVX512,AVX512BW
   8 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512fp16,+avx512vl | FileCheck %s --check-prefixes=ALL,AVX512,AVX512FP16
   9
  10 ;
  11 ; vXf32
  12 ;
  13
  14 define float @test_v1f32(<1 x float> %a0) {
  15 ; ALL-LABEL: test_v1f32:
  16 ; ALL:       # %bb.0:
  17 ; ALL-NEXT:    retq
  18   %1 = call nnan float @llvm.vector.reduce.fmax.v1f32(<1 x float> %a0)
  19   ret float %1
  20 }
  21
  22 define float @test_v2f32(<2 x float> %a0) {
  23 ; SSE2-LABEL: test_v2f32:
  24 ; SSE2:       # %bb.0:
  25 ; SSE2-NEXT:    movaps %xmm0, %xmm1
  26 ; SSE2-NEXT:    shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
  27 ; SSE2-NEXT:    maxss %xmm1, %xmm0
  28 ; SSE2-NEXT:    retq
  29 ;
  30 ; SSE41-LABEL: test_v2f32:
  31 ; SSE41:       # %bb.0:
  32 ; SSE41-NEXT:    movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
  33 ; SSE41-NEXT:    maxss %xmm1, %xmm0
  34 ; SSE41-NEXT:    retq
  35 ;
  36 ; AVX-LABEL: test_v2f32:
  37 ; AVX:       # %bb.0:
  38 ; AVX-NEXT:    vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
  39 ; AVX-NEXT:    vmaxss %xmm1, %xmm0, %xmm0
  40 ; AVX-NEXT:    retq
  41 ;
  42 ; AVX512-LABEL: test_v2f32:
  43 ; AVX512:       # %bb.0:
  44 ; AVX512-NEXT:    vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
  45 ; AVX512-NEXT:    vmaxss %xmm1, %xmm0, %xmm0
  46 ; AVX512-NEXT:    retq
  47   %1 = call nnan float @llvm.vector.reduce.fmax.v2f32(<2 x float> %a0)
  48   ret float %1
  49 }
  50
  51 define float @test_v4f32(<4 x float> %a0) {
  52 ; SSE2-LABEL: test_v4f32:
  53 ; SSE2:       # %bb.0:
  54 ; SSE2-NEXT:    movaps %xmm0, %xmm1
  55 ; SSE2-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
  56 ; SSE2-NEXT:    maxps %xmm1, %xmm0
  57 ; SSE2-NEXT:    movaps %xmm0, %xmm1
  58 ; SSE2-NEXT:    shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
  59 ; SSE2-NEXT:    maxss %xmm1, %xmm0
  60 ; SSE2-NEXT:    retq
  61 ;
  62 ; SSE41-LABEL: test_v4f32:
  63 ; SSE41:       # %bb.0:
  64 ; SSE41-NEXT:    movaps %xmm0, %xmm1
  65 ; SSE41-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
  66 ; SSE41-NEXT:    maxps %xmm1, %xmm0
  67 ; SSE41-NEXT:    movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
  68 ; SSE41-NEXT:    maxss %xmm1, %xmm0
  69 ; SSE41-NEXT:    retq
  70 ;
  71 ; AVX-LABEL: test_v4f32:
  72 ; AVX:       # %bb.0:
  73 ; AVX-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
  74 ; AVX-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
  75 ; AVX-NEXT:    vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
  76 ; AVX-NEXT:    vmaxss %xmm1, %xmm0, %xmm0
  77 ; AVX-NEXT:    retq
  78 ;
  79 ; AVX512-LABEL: test_v4f32:
  80 ; AVX512:       # %bb.0:
  81 ; AVX512-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
  82 ; AVX512-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
  83 ; AVX512-NEXT:    vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
  84 ; AVX512-NEXT:    vmaxss %xmm1, %xmm0, %xmm0
  85 ; AVX512-NEXT:    retq
  86   %1 = call nnan float @llvm.vector.reduce.fmax.v4f32(<4 x float> %a0)
  87   ret float %1
  88 }
  89
  90 define float @test_v8f32(<8 x float> %a0) {
  91 ; SSE2-LABEL: test_v8f32:
  92 ; SSE2:       # %bb.0:
  93 ; SSE2-NEXT:    maxps %xmm1, %xmm0
  94 ; SSE2-NEXT:    movaps %xmm0, %xmm1
  95 ; SSE2-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
  96 ; SSE2-NEXT:    maxps %xmm1, %xmm0
  97 ; SSE2-NEXT:    movaps %xmm0, %xmm1
  98 ; SSE2-NEXT:    shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
  99 ; SSE2-NEXT:    maxss %xmm1, %xmm0
 100 ; SSE2-NEXT:    retq
 101 ;
 102 ; SSE41-LABEL: test_v8f32:
 103 ; SSE41:       # %bb.0:
 104 ; SSE41-NEXT:    maxps %xmm1, %xmm0
 105 ; SSE41-NEXT:    movaps %xmm0, %xmm1
 106 ; SSE41-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 107 ; SSE41-NEXT:    maxps %xmm1, %xmm0
 108 ; SSE41-NEXT:    movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
 109 ; SSE41-NEXT:    maxss %xmm1, %xmm0
 110 ; SSE41-NEXT:    retq
 111 ;
 112 ; AVX-LABEL: test_v8f32:
 113 ; AVX:       # %bb.0:
 114 ; AVX-NEXT:    vextractf128 $1, %ymm0, %xmm1
 115 ; AVX-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
 116 ; AVX-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 117 ; AVX-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
 118 ; AVX-NEXT:    vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
 119 ; AVX-NEXT:    vmaxss %xmm1, %xmm0, %xmm0
 120 ; AVX-NEXT:    vzeroupper
 121 ; AVX-NEXT:    retq
 122 ;
 123 ; AVX512-LABEL: test_v8f32:
 124 ; AVX512:       # %bb.0:
 125 ; AVX512-NEXT:    vextractf128 $1, %ymm0, %xmm1
 126 ; AVX512-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
 127 ; AVX512-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 128 ; AVX512-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
 129 ; AVX512-NEXT:    vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
 130 ; AVX512-NEXT:    vmaxss %xmm1, %xmm0, %xmm0
 131 ; AVX512-NEXT:    vzeroupper
 132 ; AVX512-NEXT:    retq
 133   %1 = call nnan float @llvm.vector.reduce.fmax.v8f32(<8 x float> %a0)
 134   ret float %1
 135 }
 136
 137 define float @test_v16f32(<16 x float> %a0) {
 138 ; SSE2-LABEL: test_v16f32:
 139 ; SSE2:       # %bb.0:
 140 ; SSE2-NEXT:    maxps %xmm3, %xmm1
 141 ; SSE2-NEXT:    maxps %xmm2, %xmm0
 142 ; SSE2-NEXT:    maxps %xmm1, %xmm0
 143 ; SSE2-NEXT:    movaps %xmm0, %xmm1
 144 ; SSE2-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 145 ; SSE2-NEXT:    maxps %xmm1, %xmm0
 146 ; SSE2-NEXT:    movaps %xmm0, %xmm1
 147 ; SSE2-NEXT:    shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
 148 ; SSE2-NEXT:    maxss %xmm1, %xmm0
 149 ; SSE2-NEXT:    retq
 150 ;
 151 ; SSE41-LABEL: test_v16f32:
 152 ; SSE41:       # %bb.0:
 153 ; SSE41-NEXT:    maxps %xmm3, %xmm1
 154 ; SSE41-NEXT:    maxps %xmm2, %xmm0
 155 ; SSE41-NEXT:    maxps %xmm1, %xmm0
 156 ; SSE41-NEXT:    movaps %xmm0, %xmm1
 157 ; SSE41-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 158 ; SSE41-NEXT:    maxps %xmm1, %xmm0
 159 ; SSE41-NEXT:    movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
 160 ; SSE41-NEXT:    maxss %xmm1, %xmm0
 161 ; SSE41-NEXT:    retq
 162 ;
 163 ; AVX-LABEL: test_v16f32:
 164 ; AVX:       # %bb.0:
 165 ; AVX-NEXT:    vmaxps %ymm1, %ymm0, %ymm0
 166 ; AVX-NEXT:    vextractf128 $1, %ymm0, %xmm1
 167 ; AVX-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
 168 ; AVX-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 169 ; AVX-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
 170 ; AVX-NEXT:    vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
 171 ; AVX-NEXT:    vmaxss %xmm1, %xmm0, %xmm0
 172 ; AVX-NEXT:    vzeroupper
 173 ; AVX-NEXT:    retq
 174 ;
 175 ; AVX512-LABEL: test_v16f32:
 176 ; AVX512:       # %bb.0:
 177 ; AVX512-NEXT:    vextractf64x4 $1, %zmm0, %ymm1
 178 ; AVX512-NEXT:    vmaxps %zmm1, %zmm0, %zmm0
 179 ; AVX512-NEXT:    vextractf128 $1, %ymm0, %xmm1
 180 ; AVX512-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
 181 ; AVX512-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 182 ; AVX512-NEXT:    vmaxps %xmm1, %xmm0, %xmm0
 183 ; AVX512-NEXT:    vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
 184 ; AVX512-NEXT:    vmaxss %xmm1, %xmm0, %xmm0
 185 ; AVX512-NEXT:    vzeroupper
 186 ; AVX512-NEXT:    retq
 187   %1 = call nnan float @llvm.vector.reduce.fmax.v16f32(<16 x float> %a0)
 188   ret float %1
 189 }
 190
 191 ;
 192 ; vXf64
 193 ;
 194
 195 define double @test_v2f64(<2 x double> %a0) {
 196 ; SSE-LABEL: test_v2f64:
 197 ; SSE:       # %bb.0:
 198 ; SSE-NEXT:    movapd %xmm0, %xmm1
 199 ; SSE-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 200 ; SSE-NEXT:    maxsd %xmm1, %xmm0
 201 ; SSE-NEXT:    retq
 202 ;
 203 ; AVX-LABEL: test_v2f64:
 204 ; AVX:       # %bb.0:
 205 ; AVX-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 206 ; AVX-NEXT:    vmaxsd %xmm1, %xmm0, %xmm0
 207 ; AVX-NEXT:    retq
 208 ;
 209 ; AVX512-LABEL: test_v2f64:
 210 ; AVX512:       # %bb.0:
 211 ; AVX512-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 212 ; AVX512-NEXT:    vmaxsd %xmm1, %xmm0, %xmm0
 213 ; AVX512-NEXT:    retq
 214   %1 = call nnan double @llvm.vector.reduce.fmax.v2f64(<2 x double> %a0)
 215   ret double %1
 216 }
 217
 218 define double @test_v3f64(<3 x double> %a0) {
 219 ; SSE2-LABEL: test_v3f64:
 220 ; SSE2:       # %bb.0:
 221 ; SSE2-NEXT:    unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
 222 ; SSE2-NEXT:    shufpd {{.*#+}} xmm2 = xmm2[0],mem[1]
 223 ; SSE2-NEXT:    maxpd %xmm2, %xmm0
 224 ; SSE2-NEXT:    movapd %xmm0, %xmm1
 225 ; SSE2-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 226 ; SSE2-NEXT:    maxsd %xmm1, %xmm0
 227 ; SSE2-NEXT:    retq
 228 ;
 229 ; SSE41-LABEL: test_v3f64:
 230 ; SSE41:       # %bb.0:
 231 ; SSE41-NEXT:    unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
 232 ; SSE41-NEXT:    blendpd {{.*#+}} xmm2 = xmm2[0],mem[1]
 233 ; SSE41-NEXT:    maxpd %xmm2, %xmm0
 234 ; SSE41-NEXT:    movapd %xmm0, %xmm1
 235 ; SSE41-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 236 ; SSE41-NEXT:    maxsd %xmm1, %xmm0
 237 ; SSE41-NEXT:    retq
 238 ;
 239 ; AVX-LABEL: test_v3f64:
 240 ; AVX:       # %bb.0:
 241 ; AVX-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 242 ; AVX-NEXT:    vmaxsd %xmm1, %xmm0, %xmm1
 243 ; AVX-NEXT:    vextractf128 $1, %ymm0, %xmm0
 244 ; AVX-NEXT:    vmaxsd %xmm0, %xmm1, %xmm0
 245 ; AVX-NEXT:    vzeroupper
 246 ; AVX-NEXT:    retq
 247 ;
 248 ; AVX512-LABEL: test_v3f64:
 249 ; AVX512:       # %bb.0:
 250 ; AVX512-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 251 ; AVX512-NEXT:    vmaxsd %xmm1, %xmm0, %xmm1
 252 ; AVX512-NEXT:    vextractf128 $1, %ymm0, %xmm0
 253 ; AVX512-NEXT:    vmaxsd %xmm0, %xmm1, %xmm0
 254 ; AVX512-NEXT:    vzeroupper
 255 ; AVX512-NEXT:    retq
 256   %1 = call nnan double @llvm.vector.reduce.fmax.v3f64(<3 x double> %a0)
 257   ret double %1
 258 }
 259
 260 define double @test_v4f64(<4 x double> %a0) {
 261 ; SSE-LABEL: test_v4f64:
 262 ; SSE:       # %bb.0:
 263 ; SSE-NEXT:    maxpd %xmm1, %xmm0
 264 ; SSE-NEXT:    movapd %xmm0, %xmm1
 265 ; SSE-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 266 ; SSE-NEXT:    maxsd %xmm1, %xmm0
 267 ; SSE-NEXT:    retq
 268 ;
 269 ; AVX-LABEL: test_v4f64:
 270 ; AVX:       # %bb.0:
 271 ; AVX-NEXT:    vextractf128 $1, %ymm0, %xmm1
 272 ; AVX-NEXT:    vmaxpd %xmm1, %xmm0, %xmm0
 273 ; AVX-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 274 ; AVX-NEXT:    vmaxsd %xmm1, %xmm0, %xmm0
 275 ; AVX-NEXT:    vzeroupper
 276 ; AVX-NEXT:    retq
 277 ;
 278 ; AVX512-LABEL: test_v4f64:
 279 ; AVX512:       # %bb.0:
 280 ; AVX512-NEXT:    vextractf128 $1, %ymm0, %xmm1
 281 ; AVX512-NEXT:    vmaxpd %xmm1, %xmm0, %xmm0
 282 ; AVX512-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 283 ; AVX512-NEXT:    vmaxsd %xmm1, %xmm0, %xmm0
 284 ; AVX512-NEXT:    vzeroupper
 285 ; AVX512-NEXT:    retq
 286   %1 = call nnan double @llvm.vector.reduce.fmax.v4f64(<4 x double> %a0)
 287   ret double %1
 288 }
 289
 290 define double @test_v8f64(<8 x double> %a0) {
 291 ; SSE-LABEL: test_v8f64:
 292 ; SSE:       # %bb.0:
 293 ; SSE-NEXT:    maxpd %xmm3, %xmm1
 294 ; SSE-NEXT:    maxpd %xmm2, %xmm0
 295 ; SSE-NEXT:    maxpd %xmm1, %xmm0
 296 ; SSE-NEXT:    movapd %xmm0, %xmm1
 297 ; SSE-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 298 ; SSE-NEXT:    maxsd %xmm1, %xmm0
 299 ; SSE-NEXT:    retq
 300 ;
 301 ; AVX-LABEL: test_v8f64:
 302 ; AVX:       # %bb.0:
 303 ; AVX-NEXT:    vmaxpd %ymm1, %ymm0, %ymm0
 304 ; AVX-NEXT:    vextractf128 $1, %ymm0, %xmm1
 305 ; AVX-NEXT:    vmaxpd %xmm1, %xmm0, %xmm0
 306 ; AVX-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 307 ; AVX-NEXT:    vmaxsd %xmm1, %xmm0, %xmm0
 308 ; AVX-NEXT:    vzeroupper
 309 ; AVX-NEXT:    retq
 310 ;
 311 ; AVX512-LABEL: test_v8f64:
 312 ; AVX512:       # %bb.0:
 313 ; AVX512-NEXT:    vextractf64x4 $1, %zmm0, %ymm1
 314 ; AVX512-NEXT:    vmaxpd %zmm1, %zmm0, %zmm0
 315 ; AVX512-NEXT:    vextractf128 $1, %ymm0, %xmm1
 316 ; AVX512-NEXT:    vmaxpd %xmm1, %xmm0, %xmm0
 317 ; AVX512-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 318 ; AVX512-NEXT:    vmaxsd %xmm1, %xmm0, %xmm0
 319 ; AVX512-NEXT:    vzeroupper
 320 ; AVX512-NEXT:    retq
 321   %1 = call nnan double @llvm.vector.reduce.fmax.v8f64(<8 x double> %a0)
 322   ret double %1
 323 }
 324
 325 define double @test_v16f64(<16 x double> %a0) {
 326 ; SSE-LABEL: test_v16f64:
 327 ; SSE:       # %bb.0:
 328 ; SSE-NEXT:    maxpd %xmm6, %xmm2
 329 ; SSE-NEXT:    maxpd %xmm4, %xmm0
 330 ; SSE-NEXT:    maxpd %xmm2, %xmm0
 331 ; SSE-NEXT:    maxpd %xmm7, %xmm3
 332 ; SSE-NEXT:    maxpd %xmm5, %xmm1
 333 ; SSE-NEXT:    maxpd %xmm3, %xmm1
 334 ; SSE-NEXT:    maxpd %xmm1, %xmm0
 335 ; SSE-NEXT:    movapd %xmm0, %xmm1
 336 ; SSE-NEXT:    unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
 337 ; SSE-NEXT:    maxsd %xmm1, %xmm0
 338 ; SSE-NEXT:    retq
 339 ;
 340 ; AVX-LABEL: test_v16f64:
 341 ; AVX:       # %bb.0:
 342 ; AVX-NEXT:    vmaxpd %ymm3, %ymm1, %ymm1
 343 ; AVX-NEXT:    vmaxpd %ymm2, %ymm0, %ymm0
 344 ; AVX-NEXT:    vmaxpd %ymm1, %ymm0, %ymm0
 345 ; AVX-NEXT:    vextractf128 $1, %ymm0, %xmm1
 346 ; AVX-NEXT:    vmaxpd %xmm1, %xmm0, %xmm0
 347 ; AVX-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 348 ; AVX-NEXT:    vmaxsd %xmm1, %xmm0, %xmm0
 349 ; AVX-NEXT:    vzeroupper
 350 ; AVX-NEXT:    retq
 351 ;
 352 ; AVX512-LABEL: test_v16f64:
 353 ; AVX512:       # %bb.0:
 354 ; AVX512-NEXT:    vmaxpd %zmm1, %zmm0, %zmm0
 355 ; AVX512-NEXT:    vextractf64x4 $1, %zmm0, %ymm1
 356 ; AVX512-NEXT:    vmaxpd %zmm1, %zmm0, %zmm0
 357 ; AVX512-NEXT:    vextractf128 $1, %ymm0, %xmm1
 358 ; AVX512-NEXT:    vmaxpd %xmm1, %xmm0, %xmm0
 359 ; AVX512-NEXT:    vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
 360 ; AVX512-NEXT:    vmaxsd %xmm1, %xmm0, %xmm0
 361 ; AVX512-NEXT:    vzeroupper
 362 ; AVX512-NEXT:    retq
 363   %1 = call nnan double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)
 364   ret double %1
 365 }
 366
 367 define half @test_v2f16(<2 x half> %a0) nounwind {
 368 ; SSE-LABEL: test_v2f16:
 369 ; SSE:       # %bb.0:
 370 ; SSE-NEXT:    pushq %rbp
 371 ; SSE-NEXT:    pushq %r14
 372 ; SSE-NEXT:    pushq %rbx
 373 ; SSE-NEXT:    subq $16, %rsp
 374 ; SSE-NEXT:    movl %esi, %ebx
 375 ; SSE-NEXT:    movl %edi, %r14d
 376 ; SSE-NEXT:    movzwl %bx, %ebp
 377 ; SSE-NEXT:    movl %ebp, %edi
 378 ; SSE-NEXT:    callq __gnu_h2f_ieee@PLT
 379 ; SSE-NEXT:    movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
 380 ; SSE-NEXT:    movzwl %r14w, %edi
 381 ; SSE-NEXT:    callq __gnu_h2f_ieee@PLT
 382 ; SSE-NEXT:    ucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
 383 ; SSE-NEXT:    movw %bp, {{[0-9]+}}(%rsp)
 384 ; SSE-NEXT:    cmoval %r14d, %ebx
 385 ; SSE-NEXT:    movw %bx, (%rsp)
 386 ; SSE-NEXT:    movl (%rsp), %eax
 387 ; SSE-NEXT:    # kill: def $ax killed $ax killed $eax
 388 ; SSE-NEXT:    addq $16, %rsp
 389 ; SSE-NEXT:    popq %rbx
 390 ; SSE-NEXT:    popq %r14
 391 ; SSE-NEXT:    popq %rbp
 392 ; SSE-NEXT:    retq
 393 ;
 394 ; AVX-LABEL: test_v2f16:
 395 ; AVX:       # %bb.0:
 396 ; AVX-NEXT:    pushq %rbp
 397 ; AVX-NEXT:    pushq %r14
 398 ; AVX-NEXT:    pushq %rbx
 399 ; AVX-NEXT:    subq $16, %rsp
 400 ; AVX-NEXT:    movl %esi, %ebx
 401 ; AVX-NEXT:    movl %edi, %r14d
 402 ; AVX-NEXT:    movzwl %bx, %ebp
 403 ; AVX-NEXT:    movl %ebp, %edi
 404 ; AVX-NEXT:    callq __gnu_h2f_ieee@PLT
 405 ; AVX-NEXT:    vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
 406 ; AVX-NEXT:    movzwl %r14w, %edi
 407 ; AVX-NEXT:    callq __gnu_h2f_ieee@PLT
 408 ; AVX-NEXT:    vucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
 409 ; AVX-NEXT:    movw %bp, {{[0-9]+}}(%rsp)
 410 ; AVX-NEXT:    cmoval %r14d, %ebx
 411 ; AVX-NEXT:    movw %bx, (%rsp)
 412 ; AVX-NEXT:    movl (%rsp), %eax
 413 ; AVX-NEXT:    # kill: def $ax killed $ax killed $eax
 414 ; AVX-NEXT:    addq $16, %rsp
 415 ; AVX-NEXT:    popq %rbx
 416 ; AVX-NEXT:    popq %r14
 417 ; AVX-NEXT:    popq %rbp
 418 ; AVX-NEXT:    retq
 419 ;
 420 ; AVX512BW-LABEL: test_v2f16:
 421 ; AVX512BW:       # %bb.0:
 422 ; AVX512BW-NEXT:    movzwl %si, %eax
 423 ; AVX512BW-NEXT:    vmovd %eax, %xmm0
 424 ; AVX512BW-NEXT:    vcvtph2ps %xmm0, %xmm0
 425 ; AVX512BW-NEXT:    movzwl %di, %ecx
 426 ; AVX512BW-NEXT:    vmovd %ecx, %xmm1
 427 ; AVX512BW-NEXT:    vcvtph2ps %xmm1, %xmm1
 428 ; AVX512BW-NEXT:    vucomiss %xmm0, %xmm1
 429 ; AVX512BW-NEXT:    movw %ax, -{{[0-9]+}}(%rsp)
 430 ; AVX512BW-NEXT:    cmoval %edi, %esi
 431 ; AVX512BW-NEXT:    movw %si, -{{[0-9]+}}(%rsp)
 432 ; AVX512BW-NEXT:    movl -{{[0-9]+}}(%rsp), %eax
 433 ; AVX512BW-NEXT:    # kill: def $ax killed $ax killed $eax
 434 ; AVX512BW-NEXT:    retq
 435 ;
 436 ; AVX512FP16-LABEL: test_v2f16:
 437 ; AVX512FP16:       # %bb.0:
 438 ; AVX512FP16-NEXT:    vpsrld $16, %xmm0, %xmm1
 439 ; AVX512FP16-NEXT:    vcmpltph %xmm0, %xmm1, %k1
 440 ; AVX512FP16-NEXT:    vmovsh %xmm0, %xmm0, %xmm1 {%k1}
 441 ; AVX512FP16-NEXT:    vmovaps %xmm1, %xmm0
 442 ; AVX512FP16-NEXT:    retq
 443   %1 = call nnan half @llvm.vector.reduce.fmax.v2f16(<2 x half> %a0)
 444   ret half %1
 445 }
 446 declare float @llvm.vector.reduce.fmax.v1f32(<1 x float>)
 447 declare float @llvm.vector.reduce.fmax.v2f32(<2 x float>)
 448 declare float @llvm.vector.reduce.fmax.v4f32(<4 x float>)
 449 declare float @llvm.vector.reduce.fmax.v8f32(<8 x float>)
 450 declare float @llvm.vector.reduce.fmax.v16f32(<16 x float>)
 451
 452 declare double @llvm.vector.reduce.fmax.v2f64(<2 x double>)
 453 declare double @llvm.vector.reduce.fmax.v3f64(<3 x double>)
 454 declare double @llvm.vector.reduce.fmax.v4f64(<4 x double>)
 455 declare double @llvm.vector.reduce.fmax.v8f64(<8 x double>)
 456 declare double @llvm.vector.reduce.fmax.v16f64(<16 x double>)
 457
 458 declare half @llvm.vector.reduce.fmax.v2f16(<2 x half>)