llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc -O3 -disable-peephole -mtriple=x86_64-unknown-unknown -mattr=+avx512fp16 < %s | FileCheck %s
   3
   4 target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
   5 target triple = "x86_64-unknown-unknown"
   6
   7 ; Stack reload folding tests.
   8 ;
   9 ; By including a nop call with sideeffects we can force a partial register spill of the
  10 ; relevant registers and check that the reload is correctly folded into the instruction.
  11
  12 define <32 x half> @stack_fold_addph_zmm(<32 x half> %a0, <32 x half> %a1) {
  13 ; CHECK-LABEL: stack_fold_addph_zmm:
  14 ; CHECK:       # %bb.0:
  15 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
  16 ; CHECK-NEXT:    #APP
  17 ; CHECK-NEXT:    nop
  18 ; CHECK-NEXT:    #NO_APP
  19 ; CHECK-NEXT:    vaddph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
  20 ; CHECK-NEXT:    retq
  21   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
  22   %2 = fadd <32 x half> %a0, %a1
  23   ret <32 x half> %2
  24 }
  25
  26 define <32 x half> @stack_fold_addph_zmm_k(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) {
  27 ; CHECK-LABEL: stack_fold_addph_zmm_k:
  28 ; CHECK:       # %bb.0:
  29 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
  30 ; CHECK-NEXT:    #APP
  31 ; CHECK-NEXT:    nop
  32 ; CHECK-NEXT:    #NO_APP
  33 ; CHECK-NEXT:    kmovd %edi, %k1
  34 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
  35 ; CHECK-NEXT:    vaddph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
  36 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
  37 ; CHECK-NEXT:    retq
  38   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
  39   %2 = fadd <32 x half> %a0, %a1
  40   %3 = bitcast i32 %mask to <32 x i1>
  41   %4 = load <32 x half>, ptr %passthru
  42   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
  43   ret <32 x half> %5
  44 }
  45
  46 define <32 x half> @stack_fold_addph_zmm_k_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) {
  47 ; CHECK-LABEL: stack_fold_addph_zmm_k_commuted:
  48 ; CHECK:       # %bb.0:
  49 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
  50 ; CHECK-NEXT:    #APP
  51 ; CHECK-NEXT:    nop
  52 ; CHECK-NEXT:    #NO_APP
  53 ; CHECK-NEXT:    kmovd %edi, %k1
  54 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
  55 ; CHECK-NEXT:    vaddph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
  56 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
  57 ; CHECK-NEXT:    retq
  58   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
  59   %2 = fadd <32 x half> %a1, %a0
  60   %3 = bitcast i32 %mask to <32 x i1>
  61   %4 = load <32 x half>, ptr %passthru
  62   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
  63   ret <32 x half> %5
  64 }
  65
  66 define <32 x half> @stack_fold_addph_zmm_kz(<32 x half> %a0, <32 x half> %a1, i32 %mask) {
  67 ; CHECK-LABEL: stack_fold_addph_zmm_kz:
  68 ; CHECK:       # %bb.0:
  69 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
  70 ; CHECK-NEXT:    #APP
  71 ; CHECK-NEXT:    nop
  72 ; CHECK-NEXT:    #NO_APP
  73 ; CHECK-NEXT:    kmovd %edi, %k1
  74 ; CHECK-NEXT:    vaddph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
  75 ; CHECK-NEXT:    retq
  76   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
  77   %2 = fadd <32 x half> %a1, %a0
  78   %3 = bitcast i32 %mask to <32 x i1>
  79   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
  80   ret <32 x half> %4
  81 }
  82
  83 define half @stack_fold_addsh(half %a0, half %a1) {
  84 ; CHECK-LABEL: stack_fold_addsh:
  85 ; CHECK:       # %bb.0:
  86 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
  87 ; CHECK-NEXT:    #APP
  88 ; CHECK-NEXT:    nop
  89 ; CHECK-NEXT:    #NO_APP
  90 ; CHECK-NEXT:    vaddsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
  91 ; CHECK-NEXT:    retq
  92   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
  93   %2 = fadd half %a0, %a1
  94   ret half %2
  95 }
  96
  97 define <8 x half> @stack_fold_addsh_int(<8 x half> %a0, <8 x half> %a1) {
  98 ; CHECK-LABEL: stack_fold_addsh_int:
  99 ; CHECK:       # %bb.0:
 100 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 101 ; CHECK-NEXT:    #APP
 102 ; CHECK-NEXT:    nop
 103 ; CHECK-NEXT:    #NO_APP
 104 ; CHECK-NEXT:    vaddsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
 105 ; CHECK-NEXT:    retq
 106   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 107   %2 = extractelement <8 x half> %a0, i32 0
 108   %3 = extractelement <8 x half> %a1, i32 0
 109   %4 = fadd half %2, %3
 110   %5 = insertelement <8 x half> %a0, half %4, i32 0
 111   ret <8 x half> %5
 112 }
 113
 114 define i32 @stack_fold_cmpph(<32 x half> %a0, <32 x half> %a1) {
 115 ; CHECK-LABEL: stack_fold_cmpph:
 116 ; CHECK:       # %bb.0:
 117 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 118 ; CHECK-NEXT:    #APP
 119 ; CHECK-NEXT:    nop
 120 ; CHECK-NEXT:    #NO_APP
 121 ; CHECK-NEXT:    vcmpeqph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %k0 # 64-byte Folded Reload
 122 ; CHECK-NEXT:    kmovd %k0, %eax
 123 ; CHECK-NEXT:    vzeroupper
 124 ; CHECK-NEXT:    retq
 125   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 126   %res = call <32 x i1> @llvm.x86.avx512fp16.mask.cmp.ph.512(<32 x half> %a0, <32 x half> %a1, i32 0, <32 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, i32 4)
 127   %2 = bitcast <32 x i1> %res to i32
 128   ret i32 %2
 129 }
 130 declare <32 x i1> @llvm.x86.avx512fp16.mask.cmp.ph.512(<32 x half>, <32 x half>, i32, <32 x i1>, i32)
 131
 132 define <32 x half> @stack_fold_cmpph_mask(<32 x half> %a0, <32 x half> %a1, ptr %a2, i32 %mask, <32 x half> %b0, <32 x half> %b1) {
 133 ; CHECK-LABEL: stack_fold_cmpph_mask:
 134 ; CHECK:       # %bb.0:
 135 ; CHECK-NEXT:    subq $136, %rsp
 136 ; CHECK-NEXT:    .cfi_def_cfa_offset 144
 137 ; CHECK-NEXT:    vmovups %zmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 138 ; CHECK-NEXT:    vmovups %zmm2, (%rsp) # 64-byte Spill
 139 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 140 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 141 ; CHECK-NEXT:    #APP
 142 ; CHECK-NEXT:    nop
 143 ; CHECK-NEXT:    #NO_APP
 144 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
 145 ; CHECK-NEXT:    vaddph (%rdi), %zmm0, %zmm0
 146 ; CHECK-NEXT:    vcmpeqph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %k0 # 64-byte Folded Reload
 147 ; CHECK-NEXT:    kmovd %esi, %k1
 148 ; CHECK-NEXT:    kandd %k0, %k1, %k1
 149 ; CHECK-NEXT:    vmovdqu64 {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
 150 ; CHECK-NEXT:    vmovdqu16 (%rsp), %zmm0 {%k1} # 64-byte Folded Reload
 151 ; CHECK-NEXT:    addq $136, %rsp
 152 ; CHECK-NEXT:    .cfi_def_cfa_offset 8
 153 ; CHECK-NEXT:    retq
 154   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 155   ; load and fadd are here to keep the operations below the side effecting block and to avoid folding the wrong load
 156   %2 = load <32 x half>, ptr %a2
 157   %3 = fadd <32 x half> %a1, %2
 158   %4 = bitcast i32 %mask to <32 x i1>
 159   %5 = call <32 x i1> @llvm.x86.avx512fp16.mask.cmp.ph.512(<32 x half> %3, <32 x half> %a0, i32 0, <32 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, i32 4)
 160   %6 = and <32 x i1> %4, %5
 161   %7 = select <32 x i1> %6, <32 x half> %b0, <32 x half> %b1
 162   ret <32 x half> %7
 163 }
 164
 165 define <32 x half> @stack_fold_cmpph_mask_commuted(<32 x half> %a0, <32 x half> %a1, ptr %a2, i32 %mask, <32 x half> %b0, <32 x half> %b1) {
 166 ; CHECK-LABEL: stack_fold_cmpph_mask_commuted:
 167 ; CHECK:       # %bb.0:
 168 ; CHECK-NEXT:    subq $136, %rsp
 169 ; CHECK-NEXT:    .cfi_def_cfa_offset 144
 170 ; CHECK-NEXT:    vmovups %zmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 171 ; CHECK-NEXT:    vmovups %zmm2, (%rsp) # 64-byte Spill
 172 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 173 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 174 ; CHECK-NEXT:    #APP
 175 ; CHECK-NEXT:    nop
 176 ; CHECK-NEXT:    #NO_APP
 177 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
 178 ; CHECK-NEXT:    vaddph (%rdi), %zmm0, %zmm0
 179 ; CHECK-NEXT:    vcmpeqph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %k0 # 64-byte Folded Reload
 180 ; CHECK-NEXT:    kmovd %esi, %k1
 181 ; CHECK-NEXT:    kandd %k0, %k1, %k1
 182 ; CHECK-NEXT:    vmovdqu64 {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
 183 ; CHECK-NEXT:    vmovdqu16 (%rsp), %zmm0 {%k1} # 64-byte Folded Reload
 184 ; CHECK-NEXT:    addq $136, %rsp
 185 ; CHECK-NEXT:    .cfi_def_cfa_offset 8
 186 ; CHECK-NEXT:    retq
 187   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 188   ; load and fadd are here to keep the operations below the side effecting block and to avoid folding the wrong load
 189   %2 = load <32 x half>, ptr %a2
 190   %3 = fadd <32 x half> %a1, %2
 191   %4 = bitcast i32 %mask to <32 x i1>
 192   %5 = call <32 x i1> @llvm.x86.avx512fp16.mask.cmp.ph.512(<32 x half> %a0, <32 x half> %3, i32 0, <32 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, i32 4)
 193   %6 = and <32 x i1> %4, %5
 194   %7 = select <32 x i1> %6, <32 x half> %b0, <32 x half> %b1
 195   ret <32 x half> %7
 196 }
 197
 198 define half @stack_fold_divsh(half %a0, half %a1) {
 199 ; CHECK-LABEL: stack_fold_divsh:
 200 ; CHECK:       # %bb.0:
 201 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
 202 ; CHECK-NEXT:    #APP
 203 ; CHECK-NEXT:    nop
 204 ; CHECK-NEXT:    #NO_APP
 205 ; CHECK-NEXT:    vdivsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
 206 ; CHECK-NEXT:    retq
 207   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 208   %2 = fdiv half %a0, %a1
 209   ret half %2
 210 }
 211
 212 define <8 x half> @stack_fold_divsh_int(<8 x half> %a0, <8 x half> %a1) {
 213 ; CHECK-LABEL: stack_fold_divsh_int:
 214 ; CHECK:       # %bb.0:
 215 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 216 ; CHECK-NEXT:    #APP
 217 ; CHECK-NEXT:    nop
 218 ; CHECK-NEXT:    #NO_APP
 219 ; CHECK-NEXT:    vdivsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
 220 ; CHECK-NEXT:    retq
 221   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 222   %2 = extractelement <8 x half> %a0, i32 0
 223   %3 = extractelement <8 x half> %a1, i32 0
 224   %4 = fdiv half %2, %3
 225   %5 = insertelement <8 x half> %a0, half %4, i32 0
 226   ret <8 x half> %5
 227 }
 228
 229 define i32 @stack_fold_fpclassph(<32 x half> %a0) {
 230 ; CHECK-LABEL: stack_fold_fpclassph:
 231 ; CHECK:       # %bb.0:
 232 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 233 ; CHECK-NEXT:    #APP
 234 ; CHECK-NEXT:    nop
 235 ; CHECK-NEXT:    #NO_APP
 236 ; CHECK-NEXT:    vfpclassphz $4, {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 64-byte Folded Reload
 237 ; CHECK-NEXT:    # k0 = isNegativeZero(mem)
 238 ; CHECK-NEXT:    kmovd %k0, %eax
 239 ; CHECK-NEXT:    vzeroupper
 240 ; CHECK-NEXT:    retq
 241   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 242   %2 = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512(<32 x half> %a0, i32 4)
 243   %3 = bitcast <32 x i1> %2 to i32
 244   ret i32 %3
 245 }
 246 declare <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512(<32 x half>, i32)
 247
 248 define i32 @stack_fold_fpclassph_mask(<32 x half> %a0, ptr %p) {
 249 ; CHECK-LABEL: stack_fold_fpclassph_mask:
 250 ; CHECK:       # %bb.0:
 251 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 252 ; CHECK-NEXT:    #APP
 253 ; CHECK-NEXT:    nop
 254 ; CHECK-NEXT:    #NO_APP
 255 ; CHECK-NEXT:    kmovd (%rdi), %k1
 256 ; CHECK-NEXT:    vfpclassphz $4, {{[-0-9]+}}(%r{{[sb]}}p), %k0 {%k1} # 64-byte Folded Reload
 257 ; CHECK-NEXT:    # k0 {%k1} = isNegativeZero(mem)
 258 ; CHECK-NEXT:    kmovd %k0, %eax
 259 ; CHECK-NEXT:    vzeroupper
 260 ; CHECK-NEXT:    retq
 261   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 262   %2 = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512(<32 x half> %a0, i32 4)
 263   %mask = load <32 x i1>, ptr %p
 264   %3 = and <32 x i1> %2, %mask
 265   %4 = bitcast <32 x i1> %3 to i32
 266   ret i32 %4
 267 }
 268
 269 define i8 @stack_fold_fpclasssh(<8 x half> %a0) {
 270 ; CHECK-LABEL: stack_fold_fpclasssh:
 271 ; CHECK:       # %bb.0:
 272 ; CHECK-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 273 ; CHECK-NEXT:    #APP
 274 ; CHECK-NEXT:    nop
 275 ; CHECK-NEXT:    #NO_APP
 276 ; CHECK-NEXT:    vfpclasssh $4, {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 16-byte Folded Reload
 277 ; CHECK-NEXT:    # k0 = isNegativeZero(mem)
 278 ; CHECK-NEXT:    kmovd %k0, %eax
 279 ; CHECK-NEXT:    # kill: def $al killed $al killed $eax
 280 ; CHECK-NEXT:    retq
 281   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 282   %2 = call i8 @llvm.x86.avx512fp16.mask.fpclass.sh(<8 x half> %a0, i32 4, i8 -1)
 283   ret i8 %2
 284 }
 285 declare i8 @llvm.x86.avx512fp16.mask.fpclass.sh(<8 x half>, i32, i8)
 286
 287 define i8 @stack_fold_fpclasssh_mask(<8 x half> %a0, ptr %p) {
 288 ; CHECK-LABEL: stack_fold_fpclasssh_mask:
 289 ; CHECK:       # %bb.0:
 290 ; CHECK-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 291 ; CHECK-NEXT:    #APP
 292 ; CHECK-NEXT:    nop
 293 ; CHECK-NEXT:    #NO_APP
 294 ; CHECK-NEXT:    kmovb (%rdi), %k1
 295 ; CHECK-NEXT:    vfpclasssh $4, {{[-0-9]+}}(%r{{[sb]}}p), %k0 {%k1} # 16-byte Folded Reload
 296 ; CHECK-NEXT:    # k0 {%k1} = isNegativeZero(mem)
 297 ; CHECK-NEXT:    kmovd %k0, %eax
 298 ; CHECK-NEXT:    # kill: def $al killed $al killed $eax
 299 ; CHECK-NEXT:    retq
 300   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 301   %mask = load i8, ptr %p
 302   %2 = call i8 @llvm.x86.avx512fp16.mask.fpclass.sh(<8 x half> %a0, i32 4, i8 %mask)
 303   ret i8 %2
 304 }
 305
 306 define <32 x half> @stack_fold_getexpph(<32 x half> %a0) {
 307 ; CHECK-LABEL: stack_fold_getexpph:
 308 ; CHECK:       # %bb.0:
 309 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 310 ; CHECK-NEXT:    #APP
 311 ; CHECK-NEXT:    nop
 312 ; CHECK-NEXT:    #NO_APP
 313 ; CHECK-NEXT:    vgetexpph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Folded Reload
 314 ; CHECK-NEXT:    retq
 315   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 316   %2 = call <32 x half> @llvm.x86.avx512fp16.mask.getexp.ph.512(<32 x half> %a0, <32 x half> undef, i32 -1, i32 4)
 317   ret <32 x half> %2
 318 }
 319 declare <32 x half> @llvm.x86.avx512fp16.mask.getexp.ph.512(<32 x half>, <32 x half>, i32, i32)
 320
 321 define <32 x half> @stack_fold_getexpph_mask(<32 x half> %a0, ptr %passthru, i32 %mask) {
 322 ; CHECK-LABEL: stack_fold_getexpph_mask:
 323 ; CHECK:       # %bb.0:
 324 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 325 ; CHECK-NEXT:    kmovd %esi, %k1
 326 ; CHECK-NEXT:    #APP
 327 ; CHECK-NEXT:    nop
 328 ; CHECK-NEXT:    #NO_APP
 329 ; CHECK-NEXT:    vmovaps (%rdi), %zmm1
 330 ; CHECK-NEXT:    vgetexpph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 {%k1} # 64-byte Folded Reload
 331 ; CHECK-NEXT:    vmovaps %zmm1, %zmm0
 332 ; CHECK-NEXT:    retq
 333   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 334   %2 = load <32 x half>, ptr %passthru
 335   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.getexp.ph.512(<32 x half> %a0, <32 x half> %2, i32 %mask, i32 4)
 336   ret <32 x half> %3
 337 }
 338
 339 define <32 x half> @stack_fold_getexpph_maskz(<32 x half> %a0, ptr %mask) {
 340 ; CHECK-LABEL: stack_fold_getexpph_maskz:
 341 ; CHECK:       # %bb.0:
 342 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 343 ; CHECK-NEXT:    #APP
 344 ; CHECK-NEXT:    nop
 345 ; CHECK-NEXT:    #NO_APP
 346 ; CHECK-NEXT:    kmovd (%rdi), %k1
 347 ; CHECK-NEXT:    vgetexpph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 {%k1} {z} # 64-byte Folded Reload
 348 ; CHECK-NEXT:    retq
 349   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 350   %2 = load i32, ptr %mask
 351   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.getexp.ph.512(<32 x half> %a0, <32 x half> zeroinitializer, i32 %2, i32 4)
 352   ret <32 x half> %3
 353 }
 354
 355 define <8 x half> @stack_fold_getexpsh(<8 x half> %a0, <8 x half> %a1) {
 356 ; CHECK-LABEL: stack_fold_getexpsh:
 357 ; CHECK:       # %bb.0:
 358 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 359 ; CHECK-NEXT:    #APP
 360 ; CHECK-NEXT:    nop
 361 ; CHECK-NEXT:    #NO_APP
 362 ; CHECK-NEXT:    vgetexpsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
 363 ; CHECK-NEXT:    retq
 364   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 365   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.getexp.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> undef, i8 -1, i32 4)
 366   ret <8 x half> %2
 367 }
 368 declare <8 x half> @llvm.x86.avx512fp16.mask.getexp.sh(<8 x half>, <8 x half>, <8 x half>, i8, i32)
 369
 370 define <8 x half> @stack_fold_getexpsh_mask(<8 x half> %a0, <8 x half> %a1, ptr %passthru, i8 %mask) {
 371 ; CHECK-LABEL: stack_fold_getexpsh_mask:
 372 ; CHECK:       # %bb.0:
 373 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 374 ; CHECK-NEXT:    kmovd %esi, %k1
 375 ; CHECK-NEXT:    #APP
 376 ; CHECK-NEXT:    nop
 377 ; CHECK-NEXT:    #NO_APP
 378 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
 379 ; CHECK-NEXT:    vgetexpsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
 380 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
 381 ; CHECK-NEXT:    retq
 382   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 383   %2 = load <8 x half>, ptr %passthru
 384   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.getexp.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> %2, i8 %mask, i32 4)
 385   ret <8 x half> %3
 386 }
 387
 388 define <8 x half> @stack_fold_getexpsh_maskz(<8 x half> %a0, <8 x half> %a1, ptr %mask) {
 389 ; CHECK-LABEL: stack_fold_getexpsh_maskz:
 390 ; CHECK:       # %bb.0:
 391 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 392 ; CHECK-NEXT:    #APP
 393 ; CHECK-NEXT:    nop
 394 ; CHECK-NEXT:    #NO_APP
 395 ; CHECK-NEXT:    kmovb (%rdi), %k1
 396 ; CHECK-NEXT:    vgetexpsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
 397 ; CHECK-NEXT:    retq
 398   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 399   %2 = load i8, ptr %mask
 400   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.getexp.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> zeroinitializer, i8 %2, i32 4)
 401   ret <8 x half> %3
 402 }
 403
 404 define <32 x half> @stack_fold_getmantph(<32 x half> %a0) {
 405 ; CHECK-LABEL: stack_fold_getmantph:
 406 ; CHECK:       # %bb.0:
 407 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 408 ; CHECK-NEXT:    #APP
 409 ; CHECK-NEXT:    nop
 410 ; CHECK-NEXT:    #NO_APP
 411 ; CHECK-NEXT:    vgetmantph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Folded Reload
 412 ; CHECK-NEXT:    retq
 413   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 414   %2 = call <32 x half> @llvm.x86.avx512fp16.mask.getmant.ph.512(<32 x half> %a0, i32 8, <32 x half> undef, i32 -1, i32 4)
 415   ret <32 x half> %2
 416 }
 417 declare <32 x half> @llvm.x86.avx512fp16.mask.getmant.ph.512(<32 x half>, i32, <32 x half>, i32, i32)
 418
 419 define <32 x half> @stack_fold_getmantph_mask(<32 x half> %a0, ptr %passthru, i32 %mask) {
 420 ; CHECK-LABEL: stack_fold_getmantph_mask:
 421 ; CHECK:       # %bb.0:
 422 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 423 ; CHECK-NEXT:    kmovd %esi, %k1
 424 ; CHECK-NEXT:    #APP
 425 ; CHECK-NEXT:    nop
 426 ; CHECK-NEXT:    #NO_APP
 427 ; CHECK-NEXT:    vmovaps (%rdi), %zmm1
 428 ; CHECK-NEXT:    vgetmantph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 {%k1} # 64-byte Folded Reload
 429 ; CHECK-NEXT:    vmovaps %zmm1, %zmm0
 430 ; CHECK-NEXT:    retq
 431   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 432   %2 = load <32 x half>, ptr %passthru
 433   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.getmant.ph.512(<32 x half> %a0, i32 8, <32 x half> %2, i32 %mask, i32 4)
 434   ret <32 x half> %3
 435 }
 436
 437 define <32 x half> @stack_fold_getmantph_maskz(<32 x half> %a0, ptr %mask) {
 438 ; CHECK-LABEL: stack_fold_getmantph_maskz:
 439 ; CHECK:       # %bb.0:
 440 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 441 ; CHECK-NEXT:    #APP
 442 ; CHECK-NEXT:    nop
 443 ; CHECK-NEXT:    #NO_APP
 444 ; CHECK-NEXT:    kmovd (%rdi), %k1
 445 ; CHECK-NEXT:    vgetmantph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 {%k1} {z} # 64-byte Folded Reload
 446 ; CHECK-NEXT:    retq
 447   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 448   %2 = load i32, ptr %mask
 449   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.getmant.ph.512(<32 x half> %a0, i32 8, <32 x half> zeroinitializer, i32 %2, i32 4)
 450   ret <32 x half> %3
 451 }
 452
 453 define <8 x half> @stack_fold_getmantsh(<8 x half> %a0, <8 x half> %a1) {
 454 ; CHECK-LABEL: stack_fold_getmantsh:
 455 ; CHECK:       # %bb.0:
 456 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 457 ; CHECK-NEXT:    #APP
 458 ; CHECK-NEXT:    nop
 459 ; CHECK-NEXT:    #NO_APP
 460 ; CHECK-NEXT:    vgetmantsh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
 461 ; CHECK-NEXT:    retq
 462   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 463   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.getmant.sh(<8 x half> %a0, <8 x half> %a1, i32 8, <8 x half> undef, i8 -1, i32 4)
 464   ret <8 x half> %2
 465 }
 466 declare <8 x half> @llvm.x86.avx512fp16.mask.getmant.sh(<8 x half>, <8 x half>, i32, <8 x half>, i8, i32)
 467
 468 define <8 x half> @stack_fold_getmantsh_mask(<8 x half> %a0, <8 x half> %a1, ptr %passthru, i8 %mask) {
 469 ; CHECK-LABEL: stack_fold_getmantsh_mask:
 470 ; CHECK:       # %bb.0:
 471 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 472 ; CHECK-NEXT:    kmovd %esi, %k1
 473 ; CHECK-NEXT:    #APP
 474 ; CHECK-NEXT:    nop
 475 ; CHECK-NEXT:    #NO_APP
 476 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
 477 ; CHECK-NEXT:    vgetmantsh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
 478 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
 479 ; CHECK-NEXT:    retq
 480   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 481   %2 = load <8 x half>, ptr %passthru
 482   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.getmant.sh(<8 x half> %a0, <8 x half> %a1, i32 8, <8 x half> %2, i8 %mask, i32 4)
 483   ret <8 x half> %3
 484 }
 485
 486 define <8 x half> @stack_fold_getmantsh_maskz(<8 x half> %a0, <8 x half> %a1, ptr %mask) {
 487 ; CHECK-LABEL: stack_fold_getmantsh_maskz:
 488 ; CHECK:       # %bb.0:
 489 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 490 ; CHECK-NEXT:    #APP
 491 ; CHECK-NEXT:    nop
 492 ; CHECK-NEXT:    #NO_APP
 493 ; CHECK-NEXT:    kmovb (%rdi), %k1
 494 ; CHECK-NEXT:    vgetmantsh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
 495 ; CHECK-NEXT:    retq
 496   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 497   %2 = load i8, ptr %mask
 498   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.getmant.sh(<8 x half> %a0, <8 x half> %a1, i32 8, <8 x half> zeroinitializer, i8 %2, i32 4)
 499   ret <8 x half> %3
 500 }
 501
 502 define <32 x half> @stack_fold_maxph_zmm(<32 x half> %a0, <32 x half> %a1) #0 {
 503 ; CHECK-LABEL: stack_fold_maxph_zmm:
 504 ; CHECK:       # %bb.0:
 505 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 506 ; CHECK-NEXT:    #APP
 507 ; CHECK-NEXT:    nop
 508 ; CHECK-NEXT:    #NO_APP
 509 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
 510 ; CHECK-NEXT:    retq
 511   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 512   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 513   ret <32 x half> %2
 514 }
 515 declare <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half>, <32 x half>, i32) nounwind readnone
 516
 517 define <32 x half> @stack_fold_maxph_zmm_commuted(<32 x half> %a0, <32 x half> %a1) #0 {
 518 ; CHECK-LABEL: stack_fold_maxph_zmm_commuted:
 519 ; CHECK:       # %bb.0:
 520 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 521 ; CHECK-NEXT:    #APP
 522 ; CHECK-NEXT:    nop
 523 ; CHECK-NEXT:    #NO_APP
 524 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 # 64-byte Reload
 525 ; CHECK-NEXT:    vmaxph %zmm0, %zmm1, %zmm0
 526 ; CHECK-NEXT:    retq
 527   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 528   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 529   ret <32 x half> %2
 530 }
 531
 532 define <32 x half> @stack_fold_maxph_zmm_k(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) #0 {
 533 ; CHECK-LABEL: stack_fold_maxph_zmm_k:
 534 ; CHECK:       # %bb.0:
 535 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 536 ; CHECK-NEXT:    #APP
 537 ; CHECK-NEXT:    nop
 538 ; CHECK-NEXT:    #NO_APP
 539 ; CHECK-NEXT:    kmovd %edi, %k1
 540 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
 541 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
 542 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
 543 ; CHECK-NEXT:    retq
 544   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 545   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 546   %3 = bitcast i32 %mask to <32 x i1>
 547   %4 = load <32 x half>, ptr %passthru
 548   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
 549   ret <32 x half> %5
 550 }
 551
 552 define <32 x half> @stack_fold_maxph_zmm_k_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) #0 {
 553 ; CHECK-LABEL: stack_fold_maxph_zmm_k_commuted:
 554 ; CHECK:       # %bb.0:
 555 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 556 ; CHECK-NEXT:    #APP
 557 ; CHECK-NEXT:    nop
 558 ; CHECK-NEXT:    #NO_APP
 559 ; CHECK-NEXT:    kmovd %edi, %k1
 560 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
 561 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 # 64-byte Reload
 562 ; CHECK-NEXT:    vmaxph %zmm0, %zmm1, %zmm2 {%k1}
 563 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
 564 ; CHECK-NEXT:    retq
 565   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 566   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 567   %3 = bitcast i32 %mask to <32 x i1>
 568   %4 = load <32 x half>, ptr %passthru
 569   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
 570   ret <32 x half> %5
 571 }
 572
 573 define <32 x half> @stack_fold_maxph_zmm_kz(<32 x half> %a0, <32 x half> %a1, i32 %mask) #0 {
 574 ; CHECK-LABEL: stack_fold_maxph_zmm_kz:
 575 ; CHECK:       # %bb.0:
 576 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 577 ; CHECK-NEXT:    #APP
 578 ; CHECK-NEXT:    nop
 579 ; CHECK-NEXT:    #NO_APP
 580 ; CHECK-NEXT:    kmovd %edi, %k1
 581 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
 582 ; CHECK-NEXT:    retq
 583   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 584   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 585   %3 = bitcast i32 %mask to <32 x i1>
 586   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
 587   ret <32 x half> %4
 588 }
 589
 590 define <32 x half> @stack_fold_maxph_zmm_kz_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask) #0 {
 591 ; CHECK-LABEL: stack_fold_maxph_zmm_kz_commuted:
 592 ; CHECK:       # %bb.0:
 593 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 594 ; CHECK-NEXT:    #APP
 595 ; CHECK-NEXT:    nop
 596 ; CHECK-NEXT:    #NO_APP
 597 ; CHECK-NEXT:    kmovd %edi, %k1
 598 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 # 64-byte Reload
 599 ; CHECK-NEXT:    vmaxph %zmm0, %zmm1, %zmm0 {%k1} {z}
 600 ; CHECK-NEXT:    retq
 601   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 602   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 603   %3 = bitcast i32 %mask to <32 x i1>
 604   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
 605   ret <32 x half> %4
 606 }
 607
 608 define <32 x half> @stack_fold_maxph_zmm_commutable(<32 x half> %a0, <32 x half> %a1) #1 {
 609 ; CHECK-LABEL: stack_fold_maxph_zmm_commutable:
 610 ; CHECK:       # %bb.0:
 611 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 612 ; CHECK-NEXT:    #APP
 613 ; CHECK-NEXT:    nop
 614 ; CHECK-NEXT:    #NO_APP
 615 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
 616 ; CHECK-NEXT:    retq
 617   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 618   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 619   ret <32 x half> %2
 620 }
 621
 622 define <32 x half> @stack_fold_maxph_zmm_commutable_commuted(<32 x half> %a0, <32 x half> %a1) #1 {
 623 ; CHECK-LABEL: stack_fold_maxph_zmm_commutable_commuted:
 624 ; CHECK:       # %bb.0:
 625 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 626 ; CHECK-NEXT:    #APP
 627 ; CHECK-NEXT:    nop
 628 ; CHECK-NEXT:    #NO_APP
 629 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
 630 ; CHECK-NEXT:    retq
 631   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 632   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 633   ret <32 x half> %2
 634 }
 635
 636 define <32 x half> @stack_fold_maxph_zmm_commutable_k(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) #1 {
 637 ; CHECK-LABEL: stack_fold_maxph_zmm_commutable_k:
 638 ; CHECK:       # %bb.0:
 639 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 640 ; CHECK-NEXT:    #APP
 641 ; CHECK-NEXT:    nop
 642 ; CHECK-NEXT:    #NO_APP
 643 ; CHECK-NEXT:    kmovd %edi, %k1
 644 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
 645 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
 646 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
 647 ; CHECK-NEXT:    retq
 648   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 649   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 650   %3 = bitcast i32 %mask to <32 x i1>
 651   %4 = load <32 x half>, ptr %passthru
 652   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
 653   ret <32 x half> %5
 654 }
 655
 656 define <32 x half> @stack_fold_maxph_zmm_commutable_k_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) #1 {
 657 ; CHECK-LABEL: stack_fold_maxph_zmm_commutable_k_commuted:
 658 ; CHECK:       # %bb.0:
 659 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 660 ; CHECK-NEXT:    #APP
 661 ; CHECK-NEXT:    nop
 662 ; CHECK-NEXT:    #NO_APP
 663 ; CHECK-NEXT:    kmovd %edi, %k1
 664 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
 665 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
 666 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
 667 ; CHECK-NEXT:    retq
 668   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 669   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 670   %3 = bitcast i32 %mask to <32 x i1>
 671   %4 = load <32 x half>, ptr %passthru
 672   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
 673   ret <32 x half> %5
 674 }
 675
 676 define <32 x half> @stack_fold_maxph_zmm_commutable_kz(<32 x half> %a0, <32 x half> %a1, i32 %mask) #1 {
 677 ; CHECK-LABEL: stack_fold_maxph_zmm_commutable_kz:
 678 ; CHECK:       # %bb.0:
 679 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 680 ; CHECK-NEXT:    #APP
 681 ; CHECK-NEXT:    nop
 682 ; CHECK-NEXT:    #NO_APP
 683 ; CHECK-NEXT:    kmovd %edi, %k1
 684 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
 685 ; CHECK-NEXT:    retq
 686   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 687   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 688   %3 = bitcast i32 %mask to <32 x i1>
 689   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
 690   ret <32 x half> %4
 691 }
 692
 693 define <32 x half> @stack_fold_maxph_zmm_commutable_kz_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask) #1 {
 694 ; CHECK-LABEL: stack_fold_maxph_zmm_commutable_kz_commuted:
 695 ; CHECK:       # %bb.0:
 696 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 697 ; CHECK-NEXT:    #APP
 698 ; CHECK-NEXT:    nop
 699 ; CHECK-NEXT:    #NO_APP
 700 ; CHECK-NEXT:    kmovd %edi, %k1
 701 ; CHECK-NEXT:    vmaxph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
 702 ; CHECK-NEXT:    retq
 703   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 704   %2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 705   %3 = bitcast i32 %mask to <32 x i1>
 706   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
 707   ret <32 x half> %4
 708 }
 709
 710 define half @stack_fold_maxsh(half %a0, half %a1) #0 {
 711 ; CHECK-LABEL: stack_fold_maxsh:
 712 ; CHECK:       # %bb.0:
 713 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
 714 ; CHECK-NEXT:    #APP
 715 ; CHECK-NEXT:    nop
 716 ; CHECK-NEXT:    #NO_APP
 717 ; CHECK-NEXT:    vmaxsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
 718 ; CHECK-NEXT:    retq
 719   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 720   %2 = fcmp ogt half %a0, %a1
 721   %3 = select i1 %2, half %a0, half %a1
 722   ret half %3
 723 }
 724
 725 define half @stack_fold_maxsh_commuted(half %a0, half %a1) #0 {
 726 ; CHECK-LABEL: stack_fold_maxsh_commuted:
 727 ; CHECK:       # %bb.0:
 728 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
 729 ; CHECK-NEXT:    #APP
 730 ; CHECK-NEXT:    nop
 731 ; CHECK-NEXT:    #NO_APP
 732 ; CHECK-NEXT:    vmovsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
 733 ; CHECK-NEXT:    # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero
 734 ; CHECK-NEXT:    vmaxsh %xmm0, %xmm1, %xmm0
 735 ; CHECK-NEXT:    retq
 736   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 737   %2 = fcmp ogt half %a1, %a0
 738   %3 = select i1 %2, half %a1, half %a0
 739   ret half %3
 740 }
 741
 742 define half @stack_fold_maxsh_commutable(half %a0, half %a1) #1 {
 743 ; CHECK-LABEL: stack_fold_maxsh_commutable:
 744 ; CHECK:       # %bb.0:
 745 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
 746 ; CHECK-NEXT:    #APP
 747 ; CHECK-NEXT:    nop
 748 ; CHECK-NEXT:    #NO_APP
 749 ; CHECK-NEXT:    vmaxsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
 750 ; CHECK-NEXT:    retq
 751   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 752   %2 = fcmp ogt half %a0, %a1
 753   %3 = select i1 %2, half %a0, half %a1
 754   ret half %3
 755 }
 756
 757 define half @stack_fold_maxsh_commutable_commuted(half %a0, half %a1) #1 {
 758 ; CHECK-LABEL: stack_fold_maxsh_commutable_commuted:
 759 ; CHECK:       # %bb.0:
 760 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
 761 ; CHECK-NEXT:    #APP
 762 ; CHECK-NEXT:    nop
 763 ; CHECK-NEXT:    #NO_APP
 764 ; CHECK-NEXT:    vmaxsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
 765 ; CHECK-NEXT:    retq
 766   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 767   %2 = fcmp ogt half %a1, %a0
 768   %3 = select i1 %2, half %a1, half %a0
 769   ret half %3
 770 }
 771
 772 define <8 x half> @stack_fold_maxsh_int(<8 x half> %a0, <8 x half> %a1) #0 {
 773 ; CHECK-LABEL: stack_fold_maxsh_int:
 774 ; CHECK:       # %bb.0:
 775 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 776 ; CHECK-NEXT:    #APP
 777 ; CHECK-NEXT:    nop
 778 ; CHECK-NEXT:    #NO_APP
 779 ; CHECK-NEXT:    vmaxsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
 780 ; CHECK-NEXT:    retq
 781   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 782   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.max.sh.round(<8 x half> %a0, <8 x half> %a1, <8 x half> undef, i8 -1, i32 4)
 783   ret <8 x half> %2
 784 }
 785 declare <8 x half> @llvm.x86.avx512fp16.mask.max.sh.round(<8 x half>, <8 x half>, <8 x half>, i8, i32)
 786
 787 define <8 x half> @stack_fold_maxsh_mask(<8 x half> %a0, <8 x half> %a1, i8 %mask, ptr %passthru) {
 788 ; CHECK-LABEL: stack_fold_maxsh_mask:
 789 ; CHECK:       # %bb.0:
 790 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 791 ; CHECK-NEXT:    kmovd %edi, %k1
 792 ; CHECK-NEXT:    #APP
 793 ; CHECK-NEXT:    nop
 794 ; CHECK-NEXT:    #NO_APP
 795 ; CHECK-NEXT:    vmovaps (%rsi), %xmm2
 796 ; CHECK-NEXT:    vmaxsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
 797 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
 798 ; CHECK-NEXT:    retq
 799   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 800   %2 = load <8 x half>, ptr %passthru
 801   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.max.sh.round(<8 x half> %a0, <8 x half> %a1, <8 x half> %2, i8 %mask, i32 4)
 802   ret <8 x half> %3
 803 }
 804
 805 define <8 x half> @stack_fold_maxsh_maskz(<8 x half> %a0, <8 x half> %a1, i8 %mask) {
 806 ; CHECK-LABEL: stack_fold_maxsh_maskz:
 807 ; CHECK:       # %bb.0:
 808 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
 809 ; CHECK-NEXT:    kmovd %edi, %k1
 810 ; CHECK-NEXT:    #APP
 811 ; CHECK-NEXT:    nop
 812 ; CHECK-NEXT:    #NO_APP
 813 ; CHECK-NEXT:    vmaxsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
 814 ; CHECK-NEXT:    retq
 815   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 816   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.max.sh.round(<8 x half> %a0, <8 x half> %a1, <8 x half> zeroinitializer, i8 %mask, i32 4)
 817   ret <8 x half> %2
 818 }
 819
 820 define <32 x half> @stack_fold_minph_zmm(<32 x half> %a0, <32 x half> %a1) #0 {
 821 ; CHECK-LABEL: stack_fold_minph_zmm:
 822 ; CHECK:       # %bb.0:
 823 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 824 ; CHECK-NEXT:    #APP
 825 ; CHECK-NEXT:    nop
 826 ; CHECK-NEXT:    #NO_APP
 827 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
 828 ; CHECK-NEXT:    retq
 829   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 830   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 831   ret <32 x half> %2
 832 }
 833 declare <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half>, <32 x half>, i32) nounwind readnone
 834
 835 define <32 x half> @stack_fold_minph_zmm_commuted(<32 x half> %a0, <32 x half> %a1) #0 {
 836 ; CHECK-LABEL: stack_fold_minph_zmm_commuted:
 837 ; CHECK:       # %bb.0:
 838 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 839 ; CHECK-NEXT:    #APP
 840 ; CHECK-NEXT:    nop
 841 ; CHECK-NEXT:    #NO_APP
 842 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 # 64-byte Reload
 843 ; CHECK-NEXT:    vminph %zmm0, %zmm1, %zmm0
 844 ; CHECK-NEXT:    retq
 845   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 846   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 847   ret <32 x half> %2
 848 }
 849
 850 define <32 x half> @stack_fold_minph_zmm_k(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) #0 {
 851 ; CHECK-LABEL: stack_fold_minph_zmm_k:
 852 ; CHECK:       # %bb.0:
 853 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 854 ; CHECK-NEXT:    #APP
 855 ; CHECK-NEXT:    nop
 856 ; CHECK-NEXT:    #NO_APP
 857 ; CHECK-NEXT:    kmovd %edi, %k1
 858 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
 859 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
 860 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
 861 ; CHECK-NEXT:    retq
 862   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 863   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 864   %3 = bitcast i32 %mask to <32 x i1>
 865   %4 = load <32 x half>, ptr %passthru
 866   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
 867   ret <32 x half> %5
 868 }
 869
 870 define <32 x half> @stack_fold_minph_zmm_k_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) #0 {
 871 ; CHECK-LABEL: stack_fold_minph_zmm_k_commuted:
 872 ; CHECK:       # %bb.0:
 873 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 874 ; CHECK-NEXT:    #APP
 875 ; CHECK-NEXT:    nop
 876 ; CHECK-NEXT:    #NO_APP
 877 ; CHECK-NEXT:    kmovd %edi, %k1
 878 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
 879 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 # 64-byte Reload
 880 ; CHECK-NEXT:    vminph %zmm0, %zmm1, %zmm2 {%k1}
 881 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
 882 ; CHECK-NEXT:    retq
 883   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 884   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 885   %3 = bitcast i32 %mask to <32 x i1>
 886   %4 = load <32 x half>, ptr %passthru
 887   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
 888   ret <32 x half> %5
 889 }
 890
 891 define <32 x half> @stack_fold_minph_zmm_kz(<32 x half> %a0, <32 x half> %a1, i32 %mask) #0 {
 892 ; CHECK-LABEL: stack_fold_minph_zmm_kz:
 893 ; CHECK:       # %bb.0:
 894 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 895 ; CHECK-NEXT:    #APP
 896 ; CHECK-NEXT:    nop
 897 ; CHECK-NEXT:    #NO_APP
 898 ; CHECK-NEXT:    kmovd %edi, %k1
 899 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
 900 ; CHECK-NEXT:    retq
 901   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 902   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 903   %3 = bitcast i32 %mask to <32 x i1>
 904   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
 905   ret <32 x half> %4
 906 }
 907
 908 define <32 x half> @stack_fold_minph_zmm_kz_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask) #0 {
 909 ; CHECK-LABEL: stack_fold_minph_zmm_kz_commuted:
 910 ; CHECK:       # %bb.0:
 911 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 912 ; CHECK-NEXT:    #APP
 913 ; CHECK-NEXT:    nop
 914 ; CHECK-NEXT:    #NO_APP
 915 ; CHECK-NEXT:    kmovd %edi, %k1
 916 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 # 64-byte Reload
 917 ; CHECK-NEXT:    vminph %zmm0, %zmm1, %zmm0 {%k1} {z}
 918 ; CHECK-NEXT:    retq
 919   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 920   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 921   %3 = bitcast i32 %mask to <32 x i1>
 922   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
 923   ret <32 x half> %4
 924 }
 925
 926 define <32 x half> @stack_fold_minph_zmm_commutable(<32 x half> %a0, <32 x half> %a1) #1 {
 927 ; CHECK-LABEL: stack_fold_minph_zmm_commutable:
 928 ; CHECK:       # %bb.0:
 929 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 930 ; CHECK-NEXT:    #APP
 931 ; CHECK-NEXT:    nop
 932 ; CHECK-NEXT:    #NO_APP
 933 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
 934 ; CHECK-NEXT:    retq
 935   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 936   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 937   ret <32 x half> %2
 938 }
 939
 940 define <32 x half> @stack_fold_minph_zmm_commutable_commuted(<32 x half> %a0, <32 x half> %a1) #1 {
 941 ; CHECK-LABEL: stack_fold_minph_zmm_commutable_commuted:
 942 ; CHECK:       # %bb.0:
 943 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 944 ; CHECK-NEXT:    #APP
 945 ; CHECK-NEXT:    nop
 946 ; CHECK-NEXT:    #NO_APP
 947 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
 948 ; CHECK-NEXT:    retq
 949   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 950   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 951   ret <32 x half> %2
 952 }
 953
 954 define <32 x half> @stack_fold_minph_zmm_commutable_k(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) #1 {
 955 ; CHECK-LABEL: stack_fold_minph_zmm_commutable_k:
 956 ; CHECK:       # %bb.0:
 957 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 958 ; CHECK-NEXT:    #APP
 959 ; CHECK-NEXT:    nop
 960 ; CHECK-NEXT:    #NO_APP
 961 ; CHECK-NEXT:    kmovd %edi, %k1
 962 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
 963 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
 964 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
 965 ; CHECK-NEXT:    retq
 966   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 967   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
 968   %3 = bitcast i32 %mask to <32 x i1>
 969   %4 = load <32 x half>, ptr %passthru
 970   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
 971   ret <32 x half> %5
 972 }
 973
 974 define <32 x half> @stack_fold_minph_zmm_commutable_k_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) #1 {
 975 ; CHECK-LABEL: stack_fold_minph_zmm_commutable_k_commuted:
 976 ; CHECK:       # %bb.0:
 977 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 978 ; CHECK-NEXT:    #APP
 979 ; CHECK-NEXT:    nop
 980 ; CHECK-NEXT:    #NO_APP
 981 ; CHECK-NEXT:    kmovd %edi, %k1
 982 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
 983 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
 984 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
 985 ; CHECK-NEXT:    retq
 986   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
 987   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
 988   %3 = bitcast i32 %mask to <32 x i1>
 989   %4 = load <32 x half>, ptr %passthru
 990   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
 991   ret <32 x half> %5
 992 }
 993
 994 define <32 x half> @stack_fold_minph_zmm_commutable_kz(<32 x half> %a0, <32 x half> %a1, i32 %mask) #1 {
 995 ; CHECK-LABEL: stack_fold_minph_zmm_commutable_kz:
 996 ; CHECK:       # %bb.0:
 997 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
 998 ; CHECK-NEXT:    #APP
 999 ; CHECK-NEXT:    nop
1000 ; CHECK-NEXT:    #NO_APP
1001 ; CHECK-NEXT:    kmovd %edi, %k1
1002 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
1003 ; CHECK-NEXT:    retq
1004   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1005   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a0, <32 x half> %a1, i32 4)
1006   %3 = bitcast i32 %mask to <32 x i1>
1007   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
1008   ret <32 x half> %4
1009 }
1010
1011 define <32 x half> @stack_fold_minph_zmm_commutable_kz_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask) #1 {
1012 ; CHECK-LABEL: stack_fold_minph_zmm_commutable_kz_commuted:
1013 ; CHECK:       # %bb.0:
1014 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1015 ; CHECK-NEXT:    #APP
1016 ; CHECK-NEXT:    nop
1017 ; CHECK-NEXT:    #NO_APP
1018 ; CHECK-NEXT:    kmovd %edi, %k1
1019 ; CHECK-NEXT:    vminph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
1020 ; CHECK-NEXT:    retq
1021   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1022   %2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
1023   %3 = bitcast i32 %mask to <32 x i1>
1024   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
1025   ret <32 x half> %4
1026 }
1027
1028 define half @stack_fold_minsh(half %a0, half %a1) #0 {
1029 ; CHECK-LABEL: stack_fold_minsh:
1030 ; CHECK:       # %bb.0:
1031 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
1032 ; CHECK-NEXT:    #APP
1033 ; CHECK-NEXT:    nop
1034 ; CHECK-NEXT:    #NO_APP
1035 ; CHECK-NEXT:    vminsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
1036 ; CHECK-NEXT:    retq
1037   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1038   %2 = fcmp olt half %a0, %a1
1039   %3 = select i1 %2, half %a0, half %a1
1040   ret half %3
1041 }
1042
1043 define half @stack_fold_minsh_commuted(half %a0, half %a1) #0 {
1044 ; CHECK-LABEL: stack_fold_minsh_commuted:
1045 ; CHECK:       # %bb.0:
1046 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
1047 ; CHECK-NEXT:    #APP
1048 ; CHECK-NEXT:    nop
1049 ; CHECK-NEXT:    #NO_APP
1050 ; CHECK-NEXT:    vmovsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
1051 ; CHECK-NEXT:    # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero
1052 ; CHECK-NEXT:    vminsh %xmm0, %xmm1, %xmm0
1053 ; CHECK-NEXT:    retq
1054   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1055   %2 = fcmp olt half %a1, %a0
1056   %3 = select i1 %2, half %a1, half %a0
1057   ret half %3
1058 }
1059
1060 define half @stack_fold_minsh_commutable(half %a0, half %a1) #1 {
1061 ; CHECK-LABEL: stack_fold_minsh_commutable:
1062 ; CHECK:       # %bb.0:
1063 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
1064 ; CHECK-NEXT:    #APP
1065 ; CHECK-NEXT:    nop
1066 ; CHECK-NEXT:    #NO_APP
1067 ; CHECK-NEXT:    vminsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
1068 ; CHECK-NEXT:    retq
1069   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1070   %2 = fcmp olt half %a0, %a1
1071   %3 = select i1 %2, half %a0, half %a1
1072   ret half %3
1073 }
1074
1075 define half @stack_fold_minsh_commutable_commuted(half %a0, half %a1) #1 {
1076 ; CHECK-LABEL: stack_fold_minsh_commutable_commuted:
1077 ; CHECK:       # %bb.0:
1078 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
1079 ; CHECK-NEXT:    #APP
1080 ; CHECK-NEXT:    nop
1081 ; CHECK-NEXT:    #NO_APP
1082 ; CHECK-NEXT:    vminsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
1083 ; CHECK-NEXT:    retq
1084   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1085   %2 = fcmp olt half %a1, %a0
1086   %3 = select i1 %2, half %a1, half %a0
1087   ret half %3
1088 }
1089
1090 define <8 x half> @stack_fold_minsh_int(<8 x half> %a0, <8 x half> %a1) #0 {
1091 ; CHECK-LABEL: stack_fold_minsh_int:
1092 ; CHECK:       # %bb.0:
1093 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1094 ; CHECK-NEXT:    #APP
1095 ; CHECK-NEXT:    nop
1096 ; CHECK-NEXT:    #NO_APP
1097 ; CHECK-NEXT:    vminsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
1098 ; CHECK-NEXT:    retq
1099   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1100   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.min.sh.round(<8 x half> %a0, <8 x half> %a1, <8 x half> undef, i8 -1, i32 4)
1101   ret <8 x half> %2
1102 }
1103 declare <8 x half> @llvm.x86.avx512fp16.mask.min.sh.round(<8 x half>, <8 x half>, <8 x half>, i8, i32)
1104
1105 define <8 x half> @stack_fold_minsh_mask(<8 x half> %a0, <8 x half> %a1, i8 %mask, ptr %passthru) {
1106 ; CHECK-LABEL: stack_fold_minsh_mask:
1107 ; CHECK:       # %bb.0:
1108 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1109 ; CHECK-NEXT:    kmovd %edi, %k1
1110 ; CHECK-NEXT:    #APP
1111 ; CHECK-NEXT:    nop
1112 ; CHECK-NEXT:    #NO_APP
1113 ; CHECK-NEXT:    vmovaps (%rsi), %xmm2
1114 ; CHECK-NEXT:    vminsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
1115 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
1116 ; CHECK-NEXT:    retq
1117   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1118   %2 = load <8 x half>, ptr %passthru
1119   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.min.sh.round(<8 x half> %a0, <8 x half> %a1, <8 x half> %2, i8 %mask, i32 4)
1120   ret <8 x half> %3
1121 }
1122
1123 define <8 x half> @stack_fold_minsh_maskz(<8 x half> %a0, <8 x half> %a1, i8 %mask) {
1124 ; CHECK-LABEL: stack_fold_minsh_maskz:
1125 ; CHECK:       # %bb.0:
1126 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1127 ; CHECK-NEXT:    kmovd %edi, %k1
1128 ; CHECK-NEXT:    #APP
1129 ; CHECK-NEXT:    nop
1130 ; CHECK-NEXT:    #NO_APP
1131 ; CHECK-NEXT:    vminsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
1132 ; CHECK-NEXT:    retq
1133   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1134   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.min.sh.round(<8 x half> %a0, <8 x half> %a1, <8 x half> zeroinitializer, i8 %mask, i32 4)
1135   ret <8 x half> %2
1136 }
1137
1138 define <32 x half> @stack_fold_mulph_zmm(<32 x half> %a0, <32 x half> %a1) {
1139 ; CHECK-LABEL: stack_fold_mulph_zmm:
1140 ; CHECK:       # %bb.0:
1141 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1142 ; CHECK-NEXT:    #APP
1143 ; CHECK-NEXT:    nop
1144 ; CHECK-NEXT:    #NO_APP
1145 ; CHECK-NEXT:    vmulph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
1146 ; CHECK-NEXT:    retq
1147   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1148   %2 = fmul <32 x half> %a0, %a1
1149   ret <32 x half> %2
1150 }
1151
1152 define <32 x half> @stack_fold_mulph_zmm_k(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) {
1153 ; CHECK-LABEL: stack_fold_mulph_zmm_k:
1154 ; CHECK:       # %bb.0:
1155 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1156 ; CHECK-NEXT:    #APP
1157 ; CHECK-NEXT:    nop
1158 ; CHECK-NEXT:    #NO_APP
1159 ; CHECK-NEXT:    kmovd %edi, %k1
1160 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
1161 ; CHECK-NEXT:    vmulph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
1162 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1163 ; CHECK-NEXT:    retq
1164   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1165   %2 = fmul <32 x half> %a0, %a1
1166   %3 = bitcast i32 %mask to <32 x i1>
1167   %4 = load <32 x half>, ptr %passthru
1168   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
1169   ret <32 x half> %5
1170 }
1171
1172 define <32 x half> @stack_fold_mulph_zmm_k_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask, ptr %passthru) {
1173 ; CHECK-LABEL: stack_fold_mulph_zmm_k_commuted:
1174 ; CHECK:       # %bb.0:
1175 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1176 ; CHECK-NEXT:    #APP
1177 ; CHECK-NEXT:    nop
1178 ; CHECK-NEXT:    #NO_APP
1179 ; CHECK-NEXT:    kmovd %edi, %k1
1180 ; CHECK-NEXT:    vmovaps (%rsi), %zmm2
1181 ; CHECK-NEXT:    vmulph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
1182 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1183 ; CHECK-NEXT:    retq
1184   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1185   %2 = fmul <32 x half> %a1, %a0
1186   %3 = bitcast i32 %mask to <32 x i1>
1187   %4 = load <32 x half>, ptr %passthru
1188   %5 = select <32 x i1> %3, <32 x half> %2, <32 x half> %4
1189   ret <32 x half> %5
1190 }
1191
1192 define <32 x half> @stack_fold_mulph_zmm_kz(<32 x half> %a0, <32 x half> %a1, i32 %mask) {
1193 ; CHECK-LABEL: stack_fold_mulph_zmm_kz:
1194 ; CHECK:       # %bb.0:
1195 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1196 ; CHECK-NEXT:    #APP
1197 ; CHECK-NEXT:    nop
1198 ; CHECK-NEXT:    #NO_APP
1199 ; CHECK-NEXT:    kmovd %edi, %k1
1200 ; CHECK-NEXT:    vmulph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 {%k1} {z} # 64-byte Folded Reload
1201 ; CHECK-NEXT:    retq
1202   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1203   %2 = fmul <32 x half> %a1, %a0
1204   %3 = bitcast i32 %mask to <32 x i1>
1205   %4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
1206   ret <32 x half> %4
1207 }
1208
1209 define half @stack_fold_mulsh(half %a0, half %a1) {
1210 ; CHECK-LABEL: stack_fold_mulsh:
1211 ; CHECK:       # %bb.0:
1212 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
1213 ; CHECK-NEXT:    #APP
1214 ; CHECK-NEXT:    nop
1215 ; CHECK-NEXT:    #NO_APP
1216 ; CHECK-NEXT:    vmulsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
1217 ; CHECK-NEXT:    retq
1218   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1219   %2 = fmul half %a0, %a1
1220   ret half %2
1221 }
1222
1223 define <8 x half> @stack_fold_mulsh_int(<8 x half> %a0, <8 x half> %a1) {
1224 ; CHECK-LABEL: stack_fold_mulsh_int:
1225 ; CHECK:       # %bb.0:
1226 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1227 ; CHECK-NEXT:    #APP
1228 ; CHECK-NEXT:    nop
1229 ; CHECK-NEXT:    #NO_APP
1230 ; CHECK-NEXT:    vmulsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
1231 ; CHECK-NEXT:    retq
1232   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1233   %2 = extractelement <8 x half> %a0, i32 0
1234   %3 = extractelement <8 x half> %a1, i32 0
1235   %4 = fmul half %2, %3
1236   %5 = insertelement <8 x half> %a0, half %4, i32 0
1237   ret <8 x half> %5
1238 }
1239
1240 define <32 x half> @stack_fold_rcpph(<32 x half> %a0) {
1241 ; CHECK-LABEL: stack_fold_rcpph:
1242 ; CHECK:       # %bb.0:
1243 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1244 ; CHECK-NEXT:    #APP
1245 ; CHECK-NEXT:    nop
1246 ; CHECK-NEXT:    #NO_APP
1247 ; CHECK-NEXT:    vrcpph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Folded Reload
1248 ; CHECK-NEXT:    retq
1249   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1250   %2 = call <32 x half> @llvm.x86.avx512fp16.mask.rcp.ph.512(<32 x half> %a0, <32 x half> undef, i32 -1)
1251   ret <32 x half> %2
1252 }
1253 declare <32 x half> @llvm.x86.avx512fp16.mask.rcp.ph.512(<32 x half>, <32 x half>, i32)
1254
1255 define <32 x half> @stack_fold_rcpph_mask(<32 x half> %a0, ptr %passthru, i32 %mask) {
1256 ; CHECK-LABEL: stack_fold_rcpph_mask:
1257 ; CHECK:       # %bb.0:
1258 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1259 ; CHECK-NEXT:    kmovd %esi, %k1
1260 ; CHECK-NEXT:    #APP
1261 ; CHECK-NEXT:    nop
1262 ; CHECK-NEXT:    #NO_APP
1263 ; CHECK-NEXT:    vmovaps (%rdi), %zmm1
1264 ; CHECK-NEXT:    vrcpph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 {%k1} # 64-byte Folded Reload
1265 ; CHECK-NEXT:    vmovaps %zmm1, %zmm0
1266 ; CHECK-NEXT:    retq
1267   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1268   %2 = load <32 x half>, ptr %passthru
1269   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.rcp.ph.512(<32 x half> %a0, <32 x half> %2, i32 %mask)
1270   ret <32 x half> %3
1271 }
1272
1273 define <32 x half> @stack_fold_rcpph_maskz(<32 x half> %a0, ptr %mask) {
1274 ; CHECK-LABEL: stack_fold_rcpph_maskz:
1275 ; CHECK:       # %bb.0:
1276 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1277 ; CHECK-NEXT:    #APP
1278 ; CHECK-NEXT:    nop
1279 ; CHECK-NEXT:    #NO_APP
1280 ; CHECK-NEXT:    kmovd (%rdi), %k1
1281 ; CHECK-NEXT:    vrcpph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 {%k1} {z} # 64-byte Folded Reload
1282 ; CHECK-NEXT:    retq
1283   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1284   %2 = load i32, ptr %mask
1285   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.rcp.ph.512(<32 x half> %a0, <32 x half> zeroinitializer, i32 %2)
1286   ret <32 x half> %3
1287 }
1288
1289 define <8 x half> @stack_fold_rcpsh(<8 x half> %a0, <8 x half> %a1) {
1290 ; CHECK-LABEL: stack_fold_rcpsh:
1291 ; CHECK:       # %bb.0:
1292 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1293 ; CHECK-NEXT:    #APP
1294 ; CHECK-NEXT:    nop
1295 ; CHECK-NEXT:    #NO_APP
1296 ; CHECK-NEXT:    vrcpsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
1297 ; CHECK-NEXT:    retq
1298   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1299   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.rcp.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> undef, i8 -1)
1300   ret <8 x half> %2
1301 }
1302 declare <8 x half> @llvm.x86.avx512fp16.mask.rcp.sh(<8 x half>, <8 x half>, <8 x half>, i8)
1303
1304 define <8 x half> @stack_fold_rcpsh_mask(<8 x half> %a0, <8 x half> %a1, ptr %passthru, i8 %mask) {
1305 ; CHECK-LABEL: stack_fold_rcpsh_mask:
1306 ; CHECK:       # %bb.0:
1307 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1308 ; CHECK-NEXT:    kmovd %esi, %k1
1309 ; CHECK-NEXT:    #APP
1310 ; CHECK-NEXT:    nop
1311 ; CHECK-NEXT:    #NO_APP
1312 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
1313 ; CHECK-NEXT:    vrcpsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
1314 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
1315 ; CHECK-NEXT:    retq
1316   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1317   %2 = load <8 x half>, ptr %passthru
1318   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.rcp.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> %2, i8 %mask)
1319   ret <8 x half> %3
1320 }
1321
1322 define <8 x half> @stack_fold_rcpsh_maskz(<8 x half> %a0, <8 x half> %a1, ptr %mask) {
1323 ; CHECK-LABEL: stack_fold_rcpsh_maskz:
1324 ; CHECK:       # %bb.0:
1325 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1326 ; CHECK-NEXT:    #APP
1327 ; CHECK-NEXT:    nop
1328 ; CHECK-NEXT:    #NO_APP
1329 ; CHECK-NEXT:    kmovb (%rdi), %k1
1330 ; CHECK-NEXT:    vrcpsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
1331 ; CHECK-NEXT:    retq
1332   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1333   %2 = load i8, ptr %mask
1334   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.rcp.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> zeroinitializer, i8 %2)
1335   ret <8 x half> %3
1336 }
1337
1338 define <32 x half> @stack_fold_reduceph(<32 x half> %a0) {
1339 ; CHECK-LABEL: stack_fold_reduceph:
1340 ; CHECK:       # %bb.0:
1341 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1342 ; CHECK-NEXT:    #APP
1343 ; CHECK-NEXT:    nop
1344 ; CHECK-NEXT:    #NO_APP
1345 ; CHECK-NEXT:    vreduceph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Folded Reload
1346 ; CHECK-NEXT:    retq
1347   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1348   %2 = call <32 x half> @llvm.x86.avx512fp16.mask.reduce.ph.512(<32 x half> %a0, i32 8, <32 x half> undef, i32 -1, i32 4)
1349   ret <32 x half> %2
1350 }
1351 declare <32 x half> @llvm.x86.avx512fp16.mask.reduce.ph.512(<32 x half>, i32, <32 x half>, i32, i32)
1352
1353 define <32 x half> @stack_fold_reduceph_mask(<32 x half> %a0, ptr %passthru, i32 %mask) {
1354 ; CHECK-LABEL: stack_fold_reduceph_mask:
1355 ; CHECK:       # %bb.0:
1356 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1357 ; CHECK-NEXT:    kmovd %esi, %k1
1358 ; CHECK-NEXT:    #APP
1359 ; CHECK-NEXT:    nop
1360 ; CHECK-NEXT:    #NO_APP
1361 ; CHECK-NEXT:    vmovaps (%rdi), %zmm1
1362 ; CHECK-NEXT:    vreduceph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 {%k1} # 64-byte Folded Reload
1363 ; CHECK-NEXT:    vmovaps %zmm1, %zmm0
1364 ; CHECK-NEXT:    retq
1365   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1366   %2 = load <32 x half>, ptr %passthru
1367   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.reduce.ph.512(<32 x half> %a0, i32 8, <32 x half> %2, i32 %mask, i32 4)
1368   ret <32 x half> %3
1369 }
1370
1371 define <32 x half> @stack_fold_reduceph_maskz(<32 x half> %a0, ptr %mask) {
1372 ; CHECK-LABEL: stack_fold_reduceph_maskz:
1373 ; CHECK:       # %bb.0:
1374 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1375 ; CHECK-NEXT:    #APP
1376 ; CHECK-NEXT:    nop
1377 ; CHECK-NEXT:    #NO_APP
1378 ; CHECK-NEXT:    kmovd (%rdi), %k1
1379 ; CHECK-NEXT:    vreduceph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 {%k1} {z} # 64-byte Folded Reload
1380 ; CHECK-NEXT:    retq
1381   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1382   %2 = load i32, ptr %mask
1383   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.reduce.ph.512(<32 x half> %a0, i32 8, <32 x half> zeroinitializer, i32 %2, i32 4)
1384   ret <32 x half> %3
1385 }
1386
1387 define <8 x half> @stack_fold_reducesh(<8 x half> %a0, <8 x half> %a1) {
1388 ; CHECK-LABEL: stack_fold_reducesh:
1389 ; CHECK:       # %bb.0:
1390 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1391 ; CHECK-NEXT:    #APP
1392 ; CHECK-NEXT:    nop
1393 ; CHECK-NEXT:    #NO_APP
1394 ; CHECK-NEXT:    vreducesh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
1395 ; CHECK-NEXT:    retq
1396   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1397   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.reduce.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> undef, i8 -1, i32 8, i32 4)
1398   ret <8 x half> %2
1399 }
1400 declare <8 x half> @llvm.x86.avx512fp16.mask.reduce.sh(<8 x half>, <8 x half>, <8 x half>, i8, i32, i32)
1401
1402 define <8 x half> @stack_fold_reducesh_mask(<8 x half> %a0, <8 x half> %a1, ptr %passthru, i8 %mask) {
1403 ; CHECK-LABEL: stack_fold_reducesh_mask:
1404 ; CHECK:       # %bb.0:
1405 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1406 ; CHECK-NEXT:    kmovd %esi, %k1
1407 ; CHECK-NEXT:    #APP
1408 ; CHECK-NEXT:    nop
1409 ; CHECK-NEXT:    #NO_APP
1410 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
1411 ; CHECK-NEXT:    vreducesh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
1412 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
1413 ; CHECK-NEXT:    retq
1414   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1415   %2 = load <8 x half>, ptr %passthru
1416   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.reduce.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> %2, i8 %mask, i32 8, i32 4)
1417   ret <8 x half> %3
1418 }
1419
1420 define <8 x half> @stack_fold_reducesh_maskz(<8 x half> %a0, <8 x half> %a1, ptr %mask) {
1421 ; CHECK-LABEL: stack_fold_reducesh_maskz:
1422 ; CHECK:       # %bb.0:
1423 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1424 ; CHECK-NEXT:    #APP
1425 ; CHECK-NEXT:    nop
1426 ; CHECK-NEXT:    #NO_APP
1427 ; CHECK-NEXT:    kmovb (%rdi), %k1
1428 ; CHECK-NEXT:    vreducesh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
1429 ; CHECK-NEXT:    retq
1430   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1431   %2 = load i8, ptr %mask
1432   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.reduce.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> zeroinitializer, i8 %2, i32 8, i32 4)
1433   ret <8 x half> %3
1434 }
1435
1436 define <32 x half> @stack_fold_rndscaleph(<32 x half> %a0) {
1437 ; CHECK-LABEL: stack_fold_rndscaleph:
1438 ; CHECK:       # %bb.0:
1439 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1440 ; CHECK-NEXT:    #APP
1441 ; CHECK-NEXT:    nop
1442 ; CHECK-NEXT:    #NO_APP
1443 ; CHECK-NEXT:    vrndscaleph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Folded Reload
1444 ; CHECK-NEXT:    retq
1445   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1446   %2 = call <32 x half> @llvm.x86.avx512fp16.mask.rndscale.ph.512(<32 x half> %a0, i32 8, <32 x half> undef, i32 -1, i32 4)
1447   ret <32 x half> %2
1448 }
1449 declare <32 x half> @llvm.x86.avx512fp16.mask.rndscale.ph.512(<32 x half>, i32, <32 x half>, i32, i32)
1450
1451 define <32 x half> @stack_fold_rndscaleph_mask(<32 x half> %a0, ptr %passthru, i32 %mask) {
1452 ; CHECK-LABEL: stack_fold_rndscaleph_mask:
1453 ; CHECK:       # %bb.0:
1454 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1455 ; CHECK-NEXT:    kmovd %esi, %k1
1456 ; CHECK-NEXT:    #APP
1457 ; CHECK-NEXT:    nop
1458 ; CHECK-NEXT:    #NO_APP
1459 ; CHECK-NEXT:    vmovaps (%rdi), %zmm1
1460 ; CHECK-NEXT:    vrndscaleph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 {%k1} # 64-byte Folded Reload
1461 ; CHECK-NEXT:    vmovaps %zmm1, %zmm0
1462 ; CHECK-NEXT:    retq
1463   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1464   %2 = load <32 x half>, ptr %passthru
1465   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.rndscale.ph.512(<32 x half> %a0, i32 8, <32 x half> %2, i32 %mask, i32 4)
1466   ret <32 x half> %3
1467 }
1468
1469 define <32 x half> @stack_fold_rndscaleph_maskz(<32 x half> %a0, ptr %mask) {
1470 ; CHECK-LABEL: stack_fold_rndscaleph_maskz:
1471 ; CHECK:       # %bb.0:
1472 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1473 ; CHECK-NEXT:    #APP
1474 ; CHECK-NEXT:    nop
1475 ; CHECK-NEXT:    #NO_APP
1476 ; CHECK-NEXT:    kmovd (%rdi), %k1
1477 ; CHECK-NEXT:    vrndscaleph $8, {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 {%k1} {z} # 64-byte Folded Reload
1478 ; CHECK-NEXT:    retq
1479   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1480   %2 = load i32, ptr %mask
1481   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.rndscale.ph.512(<32 x half> %a0, i32 8, <32 x half> zeroinitializer, i32 %2, i32 4)
1482   ret <32 x half> %3
1483 }
1484
1485 define <8 x half> @stack_fold_rndscalesh(<8 x half> %a0, <8 x half> %a1) {
1486 ; CHECK-LABEL: stack_fold_rndscalesh:
1487 ; CHECK:       # %bb.0:
1488 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1489 ; CHECK-NEXT:    #APP
1490 ; CHECK-NEXT:    nop
1491 ; CHECK-NEXT:    #NO_APP
1492 ; CHECK-NEXT:    vrndscalesh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
1493 ; CHECK-NEXT:    retq
1494   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1495   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.rndscale.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> undef, i8 -1, i32 8, i32 4)
1496   ret <8 x half> %2
1497 }
1498 declare <8 x half> @llvm.x86.avx512fp16.mask.rndscale.sh(<8 x half>, <8 x half>, <8 x half>, i8, i32, i32)
1499
1500 define <8 x half> @stack_fold_rndscalesh_mask(<8 x half> %a0, <8 x half> %a1, ptr %passthru, i8 %mask) {
1501 ; CHECK-LABEL: stack_fold_rndscalesh_mask:
1502 ; CHECK:       # %bb.0:
1503 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1504 ; CHECK-NEXT:    kmovd %esi, %k1
1505 ; CHECK-NEXT:    #APP
1506 ; CHECK-NEXT:    nop
1507 ; CHECK-NEXT:    #NO_APP
1508 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
1509 ; CHECK-NEXT:    vrndscalesh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
1510 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
1511 ; CHECK-NEXT:    retq
1512   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1513   %2 = load <8 x half>, ptr %passthru
1514   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.rndscale.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> %2, i8 %mask, i32 8, i32 4)
1515   ret <8 x half> %3
1516 }
1517
1518 define <8 x half> @stack_fold_rndscalesh_maskz(<8 x half> %a0, <8 x half> %a1, ptr %mask) {
1519 ; CHECK-LABEL: stack_fold_rndscalesh_maskz:
1520 ; CHECK:       # %bb.0:
1521 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1522 ; CHECK-NEXT:    #APP
1523 ; CHECK-NEXT:    nop
1524 ; CHECK-NEXT:    #NO_APP
1525 ; CHECK-NEXT:    kmovb (%rdi), %k1
1526 ; CHECK-NEXT:    vrndscalesh $8, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
1527 ; CHECK-NEXT:    retq
1528   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1529   %2 = load i8, ptr %mask
1530   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.rndscale.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> zeroinitializer, i8 %2, i32 8, i32 4)
1531   ret <8 x half> %3
1532 }
1533
1534 define <32 x half> @stack_fold_rsqrtph(<32 x half> %a0) {
1535 ; CHECK-LABEL: stack_fold_rsqrtph:
1536 ; CHECK:       # %bb.0:
1537 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1538 ; CHECK-NEXT:    #APP
1539 ; CHECK-NEXT:    nop
1540 ; CHECK-NEXT:    #NO_APP
1541 ; CHECK-NEXT:    vrsqrtph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Folded Reload
1542 ; CHECK-NEXT:    retq
1543   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1544   %2 = call <32 x half> @llvm.x86.avx512fp16.mask.rsqrt.ph.512(<32 x half> %a0, <32 x half> undef, i32 -1)
1545   ret <32 x half> %2
1546 }
1547 declare <32 x half> @llvm.x86.avx512fp16.mask.rsqrt.ph.512(<32 x half>, <32 x half>, i32)
1548
1549 define <32 x half> @stack_fold_rsqrtph_mask(<32 x half> %a0, ptr %passthru, i32 %mask) {
1550 ; CHECK-LABEL: stack_fold_rsqrtph_mask:
1551 ; CHECK:       # %bb.0:
1552 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1553 ; CHECK-NEXT:    kmovd %esi, %k1
1554 ; CHECK-NEXT:    #APP
1555 ; CHECK-NEXT:    nop
1556 ; CHECK-NEXT:    #NO_APP
1557 ; CHECK-NEXT:    vmovaps (%rdi), %zmm1
1558 ; CHECK-NEXT:    vrsqrtph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 {%k1} # 64-byte Folded Reload
1559 ; CHECK-NEXT:    vmovaps %zmm1, %zmm0
1560 ; CHECK-NEXT:    retq
1561   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1562   %2 = load <32 x half>, ptr %passthru
1563   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.rsqrt.ph.512(<32 x half> %a0, <32 x half> %2, i32 %mask)
1564   ret <32 x half> %3
1565 }
1566
1567 define <32 x half> @stack_fold_rsqrtph_maskz(<32 x half> %a0, ptr %mask) {
1568 ; CHECK-LABEL: stack_fold_rsqrtph_maskz:
1569 ; CHECK:       # %bb.0:
1570 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1571 ; CHECK-NEXT:    #APP
1572 ; CHECK-NEXT:    nop
1573 ; CHECK-NEXT:    #NO_APP
1574 ; CHECK-NEXT:    kmovd (%rdi), %k1
1575 ; CHECK-NEXT:    vrsqrtph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 {%k1} {z} # 64-byte Folded Reload
1576 ; CHECK-NEXT:    retq
1577   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1578   %2 = load i32, ptr %mask
1579   %3 = call <32 x half> @llvm.x86.avx512fp16.mask.rsqrt.ph.512(<32 x half> %a0, <32 x half> zeroinitializer, i32 %2)
1580   ret <32 x half> %3
1581 }
1582
1583 define <8 x half> @stack_fold_rsqrtsh(<8 x half> %a0, <8 x half> %a1) {
1584 ; CHECK-LABEL: stack_fold_rsqrtsh:
1585 ; CHECK:       # %bb.0:
1586 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1587 ; CHECK-NEXT:    #APP
1588 ; CHECK-NEXT:    nop
1589 ; CHECK-NEXT:    #NO_APP
1590 ; CHECK-NEXT:    vrsqrtsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
1591 ; CHECK-NEXT:    retq
1592   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1593   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.rsqrt.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> undef, i8 -1)
1594   ret <8 x half> %2
1595 }
1596 declare <8 x half> @llvm.x86.avx512fp16.mask.rsqrt.sh(<8 x half>, <8 x half>, <8 x half>, i8)
1597
1598 define <8 x half> @stack_fold_rsqrtsh_mask(<8 x half> %a0, <8 x half> %a1, ptr %passthru, i8 %mask) {
1599 ; CHECK-LABEL: stack_fold_rsqrtsh_mask:
1600 ; CHECK:       # %bb.0:
1601 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1602 ; CHECK-NEXT:    kmovd %esi, %k1
1603 ; CHECK-NEXT:    #APP
1604 ; CHECK-NEXT:    nop
1605 ; CHECK-NEXT:    #NO_APP
1606 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
1607 ; CHECK-NEXT:    vrsqrtsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
1608 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
1609 ; CHECK-NEXT:    retq
1610   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1611   %2 = load <8 x half>, ptr %passthru
1612   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.rsqrt.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> %2, i8 %mask)
1613   ret <8 x half> %3
1614 }
1615
1616 define <8 x half> @stack_fold_rsqrtsh_maskz(<8 x half> %a0, <8 x half> %a1, ptr %mask) {
1617 ; CHECK-LABEL: stack_fold_rsqrtsh_maskz:
1618 ; CHECK:       # %bb.0:
1619 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1620 ; CHECK-NEXT:    #APP
1621 ; CHECK-NEXT:    nop
1622 ; CHECK-NEXT:    #NO_APP
1623 ; CHECK-NEXT:    kmovb (%rdi), %k1
1624 ; CHECK-NEXT:    vrsqrtsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
1625 ; CHECK-NEXT:    retq
1626   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1627   %2 = load i8, ptr %mask
1628   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.rsqrt.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> zeroinitializer, i8 %2)
1629   ret <8 x half> %3
1630 }
1631
1632 define <32 x half> @stack_fold_sqrtph(<32 x half> %a0) {
1633 ; CHECK-LABEL: stack_fold_sqrtph:
1634 ; CHECK:       # %bb.0:
1635 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1636 ; CHECK-NEXT:    #APP
1637 ; CHECK-NEXT:    nop
1638 ; CHECK-NEXT:    #NO_APP
1639 ; CHECK-NEXT:    vsqrtph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Folded Reload
1640 ; CHECK-NEXT:    retq
1641   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1642   %2 = call <32 x half> @llvm.sqrt.v32f16(<32 x half> %a0)
1643   ret <32 x half> %2
1644 }
1645 declare <32 x half> @llvm.sqrt.v32f16(<32 x half>)
1646
1647 define <32 x half> @stack_fold_sqrtph_mask(<32 x half> %a0, ptr %passthru, i32 %mask) {
1648 ; CHECK-LABEL: stack_fold_sqrtph_mask:
1649 ; CHECK:       # %bb.0:
1650 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1651 ; CHECK-NEXT:    #APP
1652 ; CHECK-NEXT:    nop
1653 ; CHECK-NEXT:    #NO_APP
1654 ; CHECK-NEXT:    vmovaps (%rdi), %zmm1
1655 ; CHECK-NEXT:    kmovd %esi, %k1
1656 ; CHECK-NEXT:    vsqrtph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 {%k1} # 64-byte Folded Reload
1657 ; CHECK-NEXT:    vmovaps %zmm1, %zmm0
1658 ; CHECK-NEXT:    retq
1659   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1660   %2 = load <32 x half>, ptr %passthru
1661   %3 = call <32 x half> @llvm.sqrt.v32f16(<32 x half> %a0)
1662   %4 = bitcast i32 %mask to <32 x i1>
1663   %5 = select <32 x i1> %4, <32 x half> %3, <32 x half> %2
1664   ret <32 x half> %5
1665 }
1666
1667 define <32 x half> @stack_fold_sqrtph_maskz(<32 x half> %a0, ptr %mask) {
1668 ; CHECK-LABEL: stack_fold_sqrtph_maskz:
1669 ; CHECK:       # %bb.0:
1670 ; CHECK-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1671 ; CHECK-NEXT:    #APP
1672 ; CHECK-NEXT:    nop
1673 ; CHECK-NEXT:    #NO_APP
1674 ; CHECK-NEXT:    kmovd (%rdi), %k1
1675 ; CHECK-NEXT:    vsqrtph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 {%k1} {z} # 64-byte Folded Reload
1676 ; CHECK-NEXT:    retq
1677   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1678   %2 = load i32, ptr %mask
1679   %3 = call <32 x half> @llvm.sqrt.v32f16(<32 x half> %a0)
1680   %4 = bitcast i32 %2 to <32 x i1>
1681   %5 = select <32 x i1> %4, <32 x half> %3, <32 x half> zeroinitializer
1682   ret <32 x half> %5
1683 }
1684
1685 define <8 x half> @stack_fold_sqrtsh(<8 x half> %a0, <8 x half> %a1) {
1686 ; CHECK-LABEL: stack_fold_sqrtsh:
1687 ; CHECK:       # %bb.0:
1688 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1689 ; CHECK-NEXT:    #APP
1690 ; CHECK-NEXT:    nop
1691 ; CHECK-NEXT:    #NO_APP
1692 ; CHECK-NEXT:    vsqrtsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
1693 ; CHECK-NEXT:    retq
1694   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1695   %2 = call <8 x half> @llvm.x86.avx512fp16.mask.sqrt.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> undef, i8 -1, i32 4)
1696   ret <8 x half> %2
1697 }
1698 declare <8 x half> @llvm.x86.avx512fp16.mask.sqrt.sh(<8 x half>, <8 x half>, <8 x half>, i8, i32)
1699
1700 define <8 x half> @stack_fold_sqrtsh_mask(<8 x half> %a0, <8 x half> %a1, ptr %passthru, i8 %mask) {
1701 ; CHECK-LABEL: stack_fold_sqrtsh_mask:
1702 ; CHECK:       # %bb.0:
1703 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1704 ; CHECK-NEXT:    kmovd %esi, %k1
1705 ; CHECK-NEXT:    #APP
1706 ; CHECK-NEXT:    nop
1707 ; CHECK-NEXT:    #NO_APP
1708 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
1709 ; CHECK-NEXT:    vsqrtsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
1710 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
1711 ; CHECK-NEXT:    retq
1712   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1713   %2 = load <8 x half>, ptr %passthru
1714   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.sqrt.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> %2, i8 %mask, i32 4)
1715   ret <8 x half> %3
1716 }
1717
1718 define <8 x half> @stack_fold_sqrtsh_maskz(<8 x half> %a0, <8 x half> %a1, ptr %mask) {
1719 ; CHECK-LABEL: stack_fold_sqrtsh_maskz:
1720 ; CHECK:       # %bb.0:
1721 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1722 ; CHECK-NEXT:    #APP
1723 ; CHECK-NEXT:    nop
1724 ; CHECK-NEXT:    #NO_APP
1725 ; CHECK-NEXT:    kmovb (%rdi), %k1
1726 ; CHECK-NEXT:    vsqrtsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 {%k1} {z} # 16-byte Folded Reload
1727 ; CHECK-NEXT:    retq
1728   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1729   %2 = load i8, ptr %mask
1730   %3 = call <8 x half> @llvm.x86.avx512fp16.mask.sqrt.sh(<8 x half> %a0, <8 x half> %a1, <8 x half> zeroinitializer, i8 %2, i32 4)
1731   ret <8 x half> %3
1732 }
1733
1734 define <32 x half> @stack_fold_subph_zmm(<32 x half> %a0, <32 x half> %a1) {
1735 ; CHECK-LABEL: stack_fold_subph_zmm:
1736 ; CHECK:       # %bb.0:
1737 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1738 ; CHECK-NEXT:    #APP
1739 ; CHECK-NEXT:    nop
1740 ; CHECK-NEXT:    #NO_APP
1741 ; CHECK-NEXT:    vsubph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm0 # 64-byte Folded Reload
1742 ; CHECK-NEXT:    retq
1743   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1744   %2 = fsub <32 x half> %a0, %a1
1745   ret <32 x half> %2
1746 }
1747
1748 define half @stack_fold_subsh(half %a0, half %a1) {
1749 ; CHECK-LABEL: stack_fold_subsh:
1750 ; CHECK:       # %bb.0:
1751 ; CHECK-NEXT:    vmovsh %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
1752 ; CHECK-NEXT:    #APP
1753 ; CHECK-NEXT:    nop
1754 ; CHECK-NEXT:    #NO_APP
1755 ; CHECK-NEXT:    vsubsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
1756 ; CHECK-NEXT:    retq
1757   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1758   %2 = fsub half %a0, %a1
1759   ret half %2
1760 }
1761
1762 define <8 x half> @stack_fold_subsh_int(<8 x half> %a0, <8 x half> %a1) {
1763 ; CHECK-LABEL: stack_fold_subsh_int:
1764 ; CHECK:       # %bb.0:
1765 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
1766 ; CHECK-NEXT:    #APP
1767 ; CHECK-NEXT:    nop
1768 ; CHECK-NEXT:    #NO_APP
1769 ; CHECK-NEXT:    vsubsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
1770 ; CHECK-NEXT:    retq
1771   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1772   %2 = extractelement <8 x half> %a0, i32 0
1773   %3 = extractelement <8 x half> %a1, i32 0
1774   %4 = fsub half %2, %3
1775   %5 = insertelement <8 x half> %a0, half %4, i32 0
1776   ret <8 x half> %5
1777 }
1778
1779 define <16 x float> @stack_fold_fmulcph(<16 x float> %a0, <16 x float> %a1) {
1780 ; CHECK-LABEL: stack_fold_fmulcph:
1781 ; CHECK:       # %bb.0:
1782 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1783 ; CHECK-NEXT:    #APP
1784 ; CHECK-NEXT:    nop
1785 ; CHECK-NEXT:    #NO_APP
1786 ; CHECK-NEXT:    vfmulcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 # 64-byte Folded Reload
1787 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1788 ; CHECK-NEXT:    retq
1789   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1790   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> undef, i16 -1, i32 4)
1791   ret <16 x float> %2
1792 }
1793
1794 define <16 x float> @stack_fold_fmulcph_commute(<16 x float> %a0, <16 x float> %a1) {
1795 ; CHECK-LABEL: stack_fold_fmulcph_commute:
1796 ; CHECK:       # %bb.0:
1797 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1798 ; CHECK-NEXT:    #APP
1799 ; CHECK-NEXT:    nop
1800 ; CHECK-NEXT:    #NO_APP
1801 ; CHECK-NEXT:    vfmulcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 # 64-byte Folded Reload
1802 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1803 ; CHECK-NEXT:    retq
1804   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1805   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a1, <16 x float> %a0, <16 x float> undef, i16 -1, i32 4)
1806   ret <16 x float> %2
1807 }
1808 declare <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)
1809
1810 define <16 x float> @stack_fold_fmulcph_mask(<16 x float> %a0, <16 x float> %a1, ptr %passthru, i16 %mask) {
1811 ; CHECK-LABEL: stack_fold_fmulcph_mask:
1812 ; CHECK:       # %bb.0:
1813 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1814 ; CHECK-NEXT:    kmovd %esi, %k1
1815 ; CHECK-NEXT:    #APP
1816 ; CHECK-NEXT:    nop
1817 ; CHECK-NEXT:    #NO_APP
1818 ; CHECK-NEXT:    vmovaps (%rdi), %zmm2
1819 ; CHECK-NEXT:    vfmulcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
1820 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1821 ; CHECK-NEXT:    retq
1822   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1823   %2 = load <16 x float>, ptr %passthru
1824   %3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %2, i16 %mask, i32 4)
1825   ret <16 x float> %3
1826 }
1827
1828 define <16 x float> @stack_fold_fmulcph_maskz(<16 x float> %a0, <16 x float> %a1, ptr %mask) {
1829 ; CHECK-LABEL: stack_fold_fmulcph_maskz:
1830 ; CHECK:       # %bb.0:
1831 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1832 ; CHECK-NEXT:    #APP
1833 ; CHECK-NEXT:    nop
1834 ; CHECK-NEXT:    #NO_APP
1835 ; CHECK-NEXT:    kmovw (%rdi), %k1
1836 ; CHECK-NEXT:    vfmulcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} {z} # 64-byte Folded Reload
1837 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1838 ; CHECK-NEXT:    retq
1839   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1840   %2 = load i16, ptr %mask
1841   %3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> zeroinitializer, i16 %2, i32 4)
1842   ret <16 x float> %3
1843 }
1844
1845 define <16 x float> @stack_fold_fcmulcph(<16 x float> %a0, <16 x float> %a1) {
1846 ; CHECK-LABEL: stack_fold_fcmulcph:
1847 ; CHECK:       # %bb.0:
1848 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1849 ; CHECK-NEXT:    #APP
1850 ; CHECK-NEXT:    nop
1851 ; CHECK-NEXT:    #NO_APP
1852 ; CHECK-NEXT:    vfcmulcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 # 64-byte Folded Reload
1853 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1854 ; CHECK-NEXT:    retq
1855   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1856   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> undef, i16 -1, i32 4)
1857   ret <16 x float> %2
1858 }
1859
1860 define <16 x float> @stack_fold_fcmulcph_commute(<16 x float> %a0, <16 x float> %a1) {
1861 ; CHECK-LABEL: stack_fold_fcmulcph_commute:
1862 ; CHECK:       # %bb.0:
1863 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1864 ; CHECK-NEXT:    #APP
1865 ; CHECK-NEXT:    nop
1866 ; CHECK-NEXT:    #NO_APP
1867 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm1 # 64-byte Reload
1868 ; CHECK-NEXT:    vfcmulcph %zmm0, %zmm1, %zmm2
1869 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1870 ; CHECK-NEXT:    retq
1871   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1872   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a1, <16 x float> %a0, <16 x float> undef, i16 -1, i32 4)
1873   ret <16 x float> %2
1874 }
1875 declare <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)
1876
1877 define <16 x float> @stack_fold_fcmulcph_mask(<16 x float> %a0, <16 x float> %a1, ptr %passthru, i16 %mask) {
1878 ; CHECK-LABEL: stack_fold_fcmulcph_mask:
1879 ; CHECK:       # %bb.0:
1880 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1881 ; CHECK-NEXT:    kmovd %esi, %k1
1882 ; CHECK-NEXT:    #APP
1883 ; CHECK-NEXT:    nop
1884 ; CHECK-NEXT:    #NO_APP
1885 ; CHECK-NEXT:    vmovaps (%rdi), %zmm2
1886 ; CHECK-NEXT:    vfcmulcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
1887 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1888 ; CHECK-NEXT:    retq
1889   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1890   %2 = load <16 x float>, ptr %passthru
1891   %3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> %2, i16 %mask, i32 4)
1892   ret <16 x float> %3
1893 }
1894
1895 define <16 x float> @stack_fold_fcmulcph_maskz(<16 x float> %a0, <16 x float> %a1, ptr %mask) {
1896 ; CHECK-LABEL: stack_fold_fcmulcph_maskz:
1897 ; CHECK:       # %bb.0:
1898 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1899 ; CHECK-NEXT:    #APP
1900 ; CHECK-NEXT:    nop
1901 ; CHECK-NEXT:    #NO_APP
1902 ; CHECK-NEXT:    kmovw (%rdi), %k1
1903 ; CHECK-NEXT:    vfcmulcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} {z} # 64-byte Folded Reload
1904 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1905 ; CHECK-NEXT:    retq
1906   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1907   %2 = load i16, ptr %mask
1908   %3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmul.cph.512(<16 x float> %a0, <16 x float> %a1, <16 x float> zeroinitializer, i16 %2, i32 4)
1909   ret <16 x float> %3
1910 }
1911
1912 define <16 x float> @stack_fold_fmaddcph(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {
1913 ; CHECK-LABEL: stack_fold_fmaddcph:
1914 ; CHECK:       # %bb.0:
1915 ; CHECK-NEXT:    vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1916 ; CHECK-NEXT:    #APP
1917 ; CHECK-NEXT:    nop
1918 ; CHECK-NEXT:    #NO_APP
1919 ; CHECK-NEXT:    vfmaddcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 # 64-byte Folded Reload
1920 ; CHECK-NEXT:    retq
1921   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1922   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> %a0, i16 -1, i32 4)
1923   ret <16 x float> %2
1924 }
1925
1926 define <16 x float> @stack_fold_fmaddcph_commute(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {
1927 ; CHECK-LABEL: stack_fold_fmaddcph_commute:
1928 ; CHECK:       # %bb.0:
1929 ; CHECK-NEXT:    vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1930 ; CHECK-NEXT:    #APP
1931 ; CHECK-NEXT:    nop
1932 ; CHECK-NEXT:    #NO_APP
1933 ; CHECK-NEXT:    vfmaddcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 # 64-byte Folded Reload
1934 ; CHECK-NEXT:    retq
1935   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1936   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a2, <16 x float> %a1, <16 x float> %a0, i16 -1, i32 4)
1937   ret <16 x float> %2
1938 }
1939 declare <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)
1940
1941 define <16 x float> @stack_fold_fmaddcph_mask(ptr %p, <16 x float> %a1, <16 x float> %a2, i16 %mask) {
1942 ; CHECK-LABEL: stack_fold_fmaddcph_mask:
1943 ; CHECK:       # %bb.0:
1944 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1945 ; CHECK-NEXT:    kmovd %esi, %k1
1946 ; CHECK-NEXT:    #APP
1947 ; CHECK-NEXT:    nop
1948 ; CHECK-NEXT:    #NO_APP
1949 ; CHECK-NEXT:    vmovaps (%rdi), %zmm2
1950 ; CHECK-NEXT:    vfmaddcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
1951 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
1952 ; CHECK-NEXT:    retq
1953   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1954   %a0 = load <16 x float>, ptr %p
1955   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> %a0, i16 %mask, i32 4)
1956   ret <16 x float> %2
1957 }
1958
1959 define <16 x float> @stack_fold_fmaddcph_maskz(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, ptr %mask) {
1960 ; CHECK-LABEL: stack_fold_fmaddcph_maskz:
1961 ; CHECK:       # %bb.0:
1962 ; CHECK-NEXT:    vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1963 ; CHECK-NEXT:    #APP
1964 ; CHECK-NEXT:    nop
1965 ; CHECK-NEXT:    #NO_APP
1966 ; CHECK-NEXT:    kmovw (%rdi), %k1
1967 ; CHECK-NEXT:    vxorps %xmm0, %xmm0, %xmm0
1968 ; CHECK-NEXT:    vfmaddcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 {%k1} {z} # 64-byte Folded Reload
1969 ; CHECK-NEXT:    retq
1970   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1971   %2 = load i16, ptr %mask
1972   %3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> zeroinitializer, i16 %2, i32 4)
1973   ret <16 x float> %3
1974 }
1975 declare <16 x float> @llvm.x86.avx512fp16.maskz.vfmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)
1976
1977 define <16 x float> @stack_fold_fcmaddcph(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {
1978 ; CHECK-LABEL: stack_fold_fcmaddcph:
1979 ; CHECK:       # %bb.0:
1980 ; CHECK-NEXT:    vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1981 ; CHECK-NEXT:    #APP
1982 ; CHECK-NEXT:    nop
1983 ; CHECK-NEXT:    #NO_APP
1984 ; CHECK-NEXT:    vfcmaddcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 # 64-byte Folded Reload
1985 ; CHECK-NEXT:    retq
1986   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
1987   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> %a0, i16 -1, i32 4)
1988   ret <16 x float> %2
1989 }
1990
1991 define <16 x float> @stack_fold_fcmaddcph_commute(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2) {
1992 ; CHECK-LABEL: stack_fold_fcmaddcph_commute:
1993 ; CHECK:       # %bb.0:
1994 ; CHECK-NEXT:    vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
1995 ; CHECK-NEXT:    #APP
1996 ; CHECK-NEXT:    nop
1997 ; CHECK-NEXT:    #NO_APP
1998 ; CHECK-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm2 # 64-byte Reload
1999 ; CHECK-NEXT:    vfcmaddcph %zmm1, %zmm2, %zmm0
2000 ; CHECK-NEXT:    retq
2001   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2002   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a2, <16 x float> %a1, <16 x float> %a0, i16 -1, i32 4)
2003   ret <16 x float> %2
2004 }
2005 declare <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)
2006
2007 define <16 x float> @stack_fold_fcmaddcph_mask(ptr %p, <16 x float> %a1, <16 x float> %a2, i16 %mask) {
2008 ; CHECK-LABEL: stack_fold_fcmaddcph_mask:
2009 ; CHECK:       # %bb.0:
2010 ; CHECK-NEXT:    vmovups %zmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
2011 ; CHECK-NEXT:    kmovd %esi, %k1
2012 ; CHECK-NEXT:    #APP
2013 ; CHECK-NEXT:    nop
2014 ; CHECK-NEXT:    #NO_APP
2015 ; CHECK-NEXT:    vmovaps (%rdi), %zmm2
2016 ; CHECK-NEXT:    vfcmaddcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm0, %zmm2 {%k1} # 64-byte Folded Reload
2017 ; CHECK-NEXT:    vmovaps %zmm2, %zmm0
2018 ; CHECK-NEXT:    retq
2019   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2020   %a0 = load <16 x float>, ptr %p
2021   %2 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> %a0, i16 %mask, i32 4)
2022   ret <16 x float> %2
2023 }
2024
2025 define <16 x float> @stack_fold_fcmaddcph_maskz(<16 x float> %a0, <16 x float> %a1, <16 x float> %a2, ptr %mask) {
2026 ; CHECK-LABEL: stack_fold_fcmaddcph_maskz:
2027 ; CHECK:       # %bb.0:
2028 ; CHECK-NEXT:    vmovups %zmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
2029 ; CHECK-NEXT:    #APP
2030 ; CHECK-NEXT:    nop
2031 ; CHECK-NEXT:    #NO_APP
2032 ; CHECK-NEXT:    kmovw (%rdi), %k1
2033 ; CHECK-NEXT:    vxorps %xmm0, %xmm0, %xmm0
2034 ; CHECK-NEXT:    vfcmaddcph {{[-0-9]+}}(%r{{[sb]}}p), %zmm1, %zmm0 {%k1} {z} # 64-byte Folded Reload
2035 ; CHECK-NEXT:    retq
2036   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2037   %2 = load i16, ptr %mask
2038   %3 = call <16 x float> @llvm.x86.avx512fp16.mask.vfcmadd.cph.512(<16 x float> %a1, <16 x float> %a2, <16 x float> zeroinitializer, i16 %2, i32 4)
2039   ret <16 x float> %3
2040 }
2041 declare <16 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.cph.512(<16 x float>, <16 x float>, <16 x float>, i16, i32)
2042
2043 define <4 x float> @stack_fold_fmulcsh(<4 x float> %a0, <4 x float> %a1) {
2044 ; CHECK-LABEL: stack_fold_fmulcsh:
2045 ; CHECK:       # %bb.0:
2046 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2047 ; CHECK-NEXT:    #APP
2048 ; CHECK-NEXT:    nop
2049 ; CHECK-NEXT:    #NO_APP
2050 ; CHECK-NEXT:    vfmulcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 # 16-byte Folded Reload
2051 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2052 ; CHECK-NEXT:    retq
2053   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2054   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> undef, i8 -1, i32 4)
2055   ret <4 x float> %2
2056 }
2057
2058 define <4 x float> @stack_fold_fmulcsh_commute(<4 x float> %a0, <4 x float> %a1) {
2059 ; CHECK-LABEL: stack_fold_fmulcsh_commute:
2060 ; CHECK:       # %bb.0:
2061 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2062 ; CHECK-NEXT:    #APP
2063 ; CHECK-NEXT:    nop
2064 ; CHECK-NEXT:    #NO_APP
2065 ; CHECK-NEXT:    vfmulcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 # 16-byte Folded Reload
2066 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2067 ; CHECK-NEXT:    retq
2068   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2069   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a1, <4 x float> %a0, <4 x float> undef, i8 -1, i32 4)
2070   ret <4 x float> %2
2071 }
2072 declare <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)
2073
2074 define <4 x float> @stack_fold_fmulcsh_mask(<4 x float> %a0, <4 x float> %a1, ptr %passthru, i8 %mask) {
2075 ; CHECK-LABEL: stack_fold_fmulcsh_mask:
2076 ; CHECK:       # %bb.0:
2077 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2078 ; CHECK-NEXT:    kmovd %esi, %k1
2079 ; CHECK-NEXT:    #APP
2080 ; CHECK-NEXT:    nop
2081 ; CHECK-NEXT:    #NO_APP
2082 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
2083 ; CHECK-NEXT:    vfmulcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
2084 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2085 ; CHECK-NEXT:    retq
2086   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2087   %2 = load <4 x float>, ptr %passthru
2088   %3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %2, i8 %mask, i32 4)
2089   ret <4 x float> %3
2090 }
2091
2092 define <4 x float> @stack_fold_fmulcsh_maskz(<4 x float> %a0, <4 x float> %a1, ptr %mask) {
2093 ; CHECK-LABEL: stack_fold_fmulcsh_maskz:
2094 ; CHECK:       # %bb.0:
2095 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2096 ; CHECK-NEXT:    #APP
2097 ; CHECK-NEXT:    nop
2098 ; CHECK-NEXT:    #NO_APP
2099 ; CHECK-NEXT:    kmovb (%rdi), %k1
2100 ; CHECK-NEXT:    vfmulcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} {z} # 16-byte Folded Reload
2101 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2102 ; CHECK-NEXT:    retq
2103   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2104   %2 = load i8, ptr %mask
2105   %3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> zeroinitializer, i8 %2, i32 4)
2106   ret <4 x float> %3
2107 }
2108
2109 define <4 x float> @stack_fold_fcmulcsh(<4 x float> %a0, <4 x float> %a1) {
2110 ; CHECK-LABEL: stack_fold_fcmulcsh:
2111 ; CHECK:       # %bb.0:
2112 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2113 ; CHECK-NEXT:    #APP
2114 ; CHECK-NEXT:    nop
2115 ; CHECK-NEXT:    #NO_APP
2116 ; CHECK-NEXT:    vfcmulcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 # 16-byte Folded Reload
2117 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2118 ; CHECK-NEXT:    retq
2119   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2120   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> undef, i8 -1, i32 4)
2121   ret <4 x float> %2
2122 }
2123
2124 define <4 x float> @stack_fold_fcmulcsh_commute(<4 x float> %a0, <4 x float> %a1) {
2125 ; CHECK-LABEL: stack_fold_fcmulcsh_commute:
2126 ; CHECK:       # %bb.0:
2127 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2128 ; CHECK-NEXT:    #APP
2129 ; CHECK-NEXT:    nop
2130 ; CHECK-NEXT:    #NO_APP
2131 ; CHECK-NEXT:    vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
2132 ; CHECK-NEXT:    vfcmulcsh %xmm0, %xmm1, %xmm2
2133 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2134 ; CHECK-NEXT:    retq
2135   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2136   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a1, <4 x float> %a0, <4 x float> undef, i8 -1, i32 4)
2137   ret <4 x float> %2
2138 }
2139 declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)
2140
2141 define <4 x float> @stack_fold_fcmulcsh_mask(<4 x float> %a0, <4 x float> %a1, ptr %passthru, i8 %mask) {
2142 ; CHECK-LABEL: stack_fold_fcmulcsh_mask:
2143 ; CHECK:       # %bb.0:
2144 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2145 ; CHECK-NEXT:    kmovd %esi, %k1
2146 ; CHECK-NEXT:    #APP
2147 ; CHECK-NEXT:    nop
2148 ; CHECK-NEXT:    #NO_APP
2149 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
2150 ; CHECK-NEXT:    vfcmulcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
2151 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2152 ; CHECK-NEXT:    retq
2153   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2154   %2 = load <4 x float>, ptr %passthru
2155   %3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> %2, i8 %mask, i32 4)
2156   ret <4 x float> %3
2157 }
2158
2159 define <4 x float> @stack_fold_fcmulcsh_maskz(<4 x float> %a0, <4 x float> %a1, ptr %mask) {
2160 ; CHECK-LABEL: stack_fold_fcmulcsh_maskz:
2161 ; CHECK:       # %bb.0:
2162 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2163 ; CHECK-NEXT:    #APP
2164 ; CHECK-NEXT:    nop
2165 ; CHECK-NEXT:    #NO_APP
2166 ; CHECK-NEXT:    kmovb (%rdi), %k1
2167 ; CHECK-NEXT:    vfcmulcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} {z} # 16-byte Folded Reload
2168 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2169 ; CHECK-NEXT:    retq
2170   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2171   %2 = load i8, ptr %mask
2172   %3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmul.csh(<4 x float> %a0, <4 x float> %a1, <4 x float> zeroinitializer, i8 %2, i32 4)
2173   ret <4 x float> %3
2174 }
2175
2176 define <4 x float> @stack_fold_fmaddcsh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
2177 ; CHECK-LABEL: stack_fold_fmaddcsh:
2178 ; CHECK:       # %bb.0:
2179 ; CHECK-NEXT:    vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2180 ; CHECK-NEXT:    #APP
2181 ; CHECK-NEXT:    nop
2182 ; CHECK-NEXT:    #NO_APP
2183 ; CHECK-NEXT:    vfmaddcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 # 16-byte Folded Reload
2184 ; CHECK-NEXT:    retq
2185   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2186   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 -1, i32 4)
2187   ret <4 x float> %2
2188 }
2189
2190 define <4 x float> @stack_fold_fmaddcsh_commute(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
2191 ; CHECK-LABEL: stack_fold_fmaddcsh_commute:
2192 ; CHECK:       # %bb.0:
2193 ; CHECK-NEXT:    vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2194 ; CHECK-NEXT:    #APP
2195 ; CHECK-NEXT:    nop
2196 ; CHECK-NEXT:    #NO_APP
2197 ; CHECK-NEXT:    vfmaddcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 # 16-byte Folded Reload
2198 ; CHECK-NEXT:    retq
2199   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2200   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a2, <4 x float> %a1, <4 x float> %a0, i8 -1, i32 4)
2201   ret <4 x float> %2
2202 }
2203 declare <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)
2204
2205 define <4 x float> @stack_fold_fmaddcsh_mask(ptr %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {
2206 ; CHECK-LABEL: stack_fold_fmaddcsh_mask:
2207 ; CHECK:       # %bb.0:
2208 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2209 ; CHECK-NEXT:    kmovd %esi, %k1
2210 ; CHECK-NEXT:    #APP
2211 ; CHECK-NEXT:    nop
2212 ; CHECK-NEXT:    #NO_APP
2213 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
2214 ; CHECK-NEXT:    vfmaddcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
2215 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2216 ; CHECK-NEXT:    retq
2217   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2218   %a0 = load <4 x float>, ptr %p
2219   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 %mask, i32 4)
2220   ret <4 x float> %2
2221 }
2222
2223 define <4 x float> @stack_fold_fmaddcsh_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, ptr %mask) {
2224 ; CHECK-LABEL: stack_fold_fmaddcsh_maskz:
2225 ; CHECK:       # %bb.0:
2226 ; CHECK-NEXT:    vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2227 ; CHECK-NEXT:    #APP
2228 ; CHECK-NEXT:    nop
2229 ; CHECK-NEXT:    #NO_APP
2230 ; CHECK-NEXT:    kmovb (%rdi), %k1
2231 ; CHECK-NEXT:    vxorps %xmm0, %xmm0, %xmm0
2232 ; CHECK-NEXT:    vfmaddcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 {%k1} {z} # 16-byte Folded Reload
2233 ; CHECK-NEXT:    retq
2234   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2235   %2 = load i8, ptr %mask
2236   %3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> zeroinitializer, i8 %2, i32 4)
2237   ret <4 x float> %3
2238 }
2239 declare <4 x float> @llvm.x86.avx512fp16.maskz.vfmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)
2240
2241 define <4 x float> @stack_fold_fcmaddcsh(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
2242 ; CHECK-LABEL: stack_fold_fcmaddcsh:
2243 ; CHECK:       # %bb.0:
2244 ; CHECK-NEXT:    vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2245 ; CHECK-NEXT:    #APP
2246 ; CHECK-NEXT:    nop
2247 ; CHECK-NEXT:    #NO_APP
2248 ; CHECK-NEXT:    vfcmaddcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 # 16-byte Folded Reload
2249 ; CHECK-NEXT:    retq
2250   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2251   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 -1, i32 4)
2252   ret <4 x float> %2
2253 }
2254
2255 define <4 x float> @stack_fold_fcmaddcsh_commute(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
2256 ; CHECK-LABEL: stack_fold_fcmaddcsh_commute:
2257 ; CHECK:       # %bb.0:
2258 ; CHECK-NEXT:    vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2259 ; CHECK-NEXT:    #APP
2260 ; CHECK-NEXT:    nop
2261 ; CHECK-NEXT:    #NO_APP
2262 ; CHECK-NEXT:    vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
2263 ; CHECK-NEXT:    vfcmaddcsh %xmm1, %xmm2, %xmm0
2264 ; CHECK-NEXT:    retq
2265   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2266   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a2, <4 x float> %a1, <4 x float> %a0, i8 -1, i32 4)
2267   ret <4 x float> %2
2268 }
2269 declare <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)
2270
2271 define <4 x float> @stack_fold_fcmaddcsh_mask(ptr %p, <4 x float> %a1, <4 x float> %a2, i8 %mask) {
2272 ; CHECK-LABEL: stack_fold_fcmaddcsh_mask:
2273 ; CHECK:       # %bb.0:
2274 ; CHECK-NEXT:    vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2275 ; CHECK-NEXT:    kmovd %esi, %k1
2276 ; CHECK-NEXT:    #APP
2277 ; CHECK-NEXT:    nop
2278 ; CHECK-NEXT:    #NO_APP
2279 ; CHECK-NEXT:    vmovaps (%rdi), %xmm2
2280 ; CHECK-NEXT:    vfcmaddcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm2 {%k1} # 16-byte Folded Reload
2281 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
2282 ; CHECK-NEXT:    retq
2283   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2284   %a0 = load <4 x float>, ptr %p
2285   %2 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> %a0, i8 %mask, i32 4)
2286   ret <4 x float> %2
2287 }
2288
2289 define <4 x float> @stack_fold_fcmaddcsh_maskz(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, ptr %mask) {
2290 ; CHECK-LABEL: stack_fold_fcmaddcsh_maskz:
2291 ; CHECK:       # %bb.0:
2292 ; CHECK-NEXT:    vmovaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
2293 ; CHECK-NEXT:    #APP
2294 ; CHECK-NEXT:    nop
2295 ; CHECK-NEXT:    #NO_APP
2296 ; CHECK-NEXT:    kmovb (%rdi), %k1
2297 ; CHECK-NEXT:    vxorps %xmm0, %xmm0, %xmm0
2298 ; CHECK-NEXT:    vfcmaddcsh {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm0 {%k1} {z} # 16-byte Folded Reload
2299 ; CHECK-NEXT:    retq
2300   %1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
2301   %2 = load i8, ptr %mask
2302   %3 = call <4 x float> @llvm.x86.avx512fp16.mask.vfcmadd.csh(<4 x float> %a1, <4 x float> %a2, <4 x float> zeroinitializer, i8 %2, i32 4)
2303   ret <4 x float> %3
2304 }
2305 declare <4 x float> @llvm.x86.avx512fp16.maskz.vfcmadd.csh(<4 x float>, <4 x float>, <4 x float>, i8, i32)
2306
2307 attributes #0 = { "unsafe-fp-math"="false" }
2308 attributes #1 = { "unsafe-fp-math"="true" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" }