llvm/test/Transforms/InstCombine/X86/x86-avx512.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
   2 ; RUN: opt < %s -instcombine -mtriple=x86_64-unknown-unknown -S | FileCheck %s
   3 target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
   4
   5 declare <4 x float> @llvm.x86.avx512.mask.add.ss.round(<4 x float>, <4 x float>, <4 x float>, i8, i32)
   6
   7 define <4 x float> @test_add_ss(<4 x float> %a, <4 x float> %b) {
   8 ;
   9 ; CHECK-LABEL: @test_add_ss(
  10 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
  11 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
  12 ; CHECK-NEXT:    [[TMP3:%.*]] = fadd float [[TMP1]], [[TMP2]]
  13 ; CHECK-NEXT:    [[TMP4:%.*]] = insertelement <4 x float> [[A]], float [[TMP3]], i64 0
  14 ; CHECK-NEXT:    ret <4 x float> [[TMP4]]
  15 ;
  16   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
  17   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
  18   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
  19   %4 = tail call <4 x float> @llvm.x86.avx512.mask.add.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 4)
  20   ret <4 x float> %4
  21 }
  22
  23 define <4 x float> @test_add_ss_round(<4 x float> %a, <4 x float> %b) {
  24 ;
  25 ; CHECK-LABEL: @test_add_ss_round(
  26 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.add.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> undef, i8 -1, i32 8)
  27 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
  28 ;
  29   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
  30   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
  31   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
  32   %4 = tail call <4 x float> @llvm.x86.avx512.mask.add.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 8)
  33   ret <4 x float> %4
  34 }
  35
  36 define <4 x float> @test_add_ss_mask(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
  37 ;
  38 ; CHECK-LABEL: @test_add_ss_mask(
  39 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
  40 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
  41 ; CHECK-NEXT:    [[TMP3:%.*]] = fadd float [[TMP1]], [[TMP2]]
  42 ; CHECK-NEXT:    [[TMP4:%.*]] = and i8 [[MASK:%.*]], 1
  43 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP4]], 0
  44 ; CHECK-NEXT:    [[TMP5:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
  45 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float [[TMP5]], float [[TMP3]]
  46 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <4 x float> [[A]], float [[TMP6]], i64 0
  47 ; CHECK-NEXT:    ret <4 x float> [[TMP7]]
  48 ;
  49   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
  50   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
  51   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
  52   %4 = tail call <4 x float> @llvm.x86.avx512.mask.add.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 4)
  53   ret <4 x float> %4
  54 }
  55
  56 define <4 x float> @test_add_ss_mask_round(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
  57 ;
  58 ; CHECK-LABEL: @test_add_ss_mask_round(
  59 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.add.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> [[C:%.*]], i8 [[MASK:%.*]], i32 8)
  60 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
  61 ;
  62   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
  63   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
  64   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
  65   %4 = tail call <4 x float> @llvm.x86.avx512.mask.add.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 8)
  66   ret <4 x float> %4
  67 }
  68
  69 define float @test_add_ss_1(float %a, float %b) {
  70 ;
  71 ; CHECK-LABEL: @test_add_ss_1(
  72 ; CHECK-NEXT:    ret float 1.000000e+00
  73 ;
  74   %1 = insertelement <4 x float> undef, float %a, i32 0
  75   %2 = insertelement <4 x float> %1, float 1.000000e+00, i32 1
  76   %3 = insertelement <4 x float> %2, float 2.000000e+00, i32 2
  77   %4 = insertelement <4 x float> %3, float 3.000000e+00, i32 3
  78   %5 = insertelement <4 x float> undef, float %b, i32 0
  79   %6 = insertelement <4 x float> %5, float 4.000000e+00, i32 1
  80   %7 = insertelement <4 x float> %6, float 5.000000e+00, i32 2
  81   %8 = insertelement <4 x float> %7, float 6.000000e+00, i32 3
  82   %9 = tail call <4 x float> @llvm.x86.avx512.mask.add.ss.round(<4 x float> %4, <4 x float> %8, <4 x float> undef, i8 -1, i32 8)
  83   %10 = extractelement <4 x float> %9, i32 1
  84   ret float %10
  85 }
  86
  87 declare <2 x double> @llvm.x86.avx512.mask.add.sd.round(<2 x double>, <2 x double>, <2 x double>, i8, i32)
  88
  89 define <2 x double> @test_add_sd(<2 x double> %a, <2 x double> %b) {
  90 ;
  91 ; CHECK-LABEL: @test_add_sd(
  92 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
  93 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
  94 ; CHECK-NEXT:    [[TMP3:%.*]] = fadd double [[TMP1]], [[TMP2]]
  95 ; CHECK-NEXT:    [[TMP4:%.*]] = insertelement <2 x double> [[A]], double [[TMP3]], i64 0
  96 ; CHECK-NEXT:    ret <2 x double> [[TMP4]]
  97 ;
  98   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
  99   %2 = tail call <2 x double> @llvm.x86.avx512.mask.add.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 4)
 100   ret <2 x double> %2
 101 }
 102
 103 define <2 x double> @test_add_sd_round(<2 x double> %a, <2 x double> %b) {
 104 ;
 105 ; CHECK-LABEL: @test_add_sd_round(
 106 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.add.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> undef, i8 -1, i32 8)
 107 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 108 ;
 109   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 110   %2 = tail call <2 x double> @llvm.x86.avx512.mask.add.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 8)
 111   ret <2 x double> %2
 112 }
 113
 114 define <2 x double> @test_add_sd_mask(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 115 ;
 116 ; CHECK-LABEL: @test_add_sd_mask(
 117 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
 118 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
 119 ; CHECK-NEXT:    [[TMP3:%.*]] = fadd double [[TMP1]], [[TMP2]]
 120 ; CHECK-NEXT:    [[TMP4:%.*]] = and i8 [[MASK:%.*]], 1
 121 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP4]], 0
 122 ; CHECK-NEXT:    [[TMP5:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
 123 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double [[TMP5]], double [[TMP3]]
 124 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <2 x double> [[A]], double [[TMP6]], i64 0
 125 ; CHECK-NEXT:    ret <2 x double> [[TMP7]]
 126 ;
 127   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 128   %2 = tail call <2 x double> @llvm.x86.avx512.mask.add.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 4)
 129   ret <2 x double> %2
 130 }
 131
 132 define <2 x double> @test_add_sd_mask_round(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 133 ;
 134 ; CHECK-LABEL: @test_add_sd_mask_round(
 135 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.add.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> [[C:%.*]], i8 [[MASK:%.*]], i32 8)
 136 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 137 ;
 138   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 139   %2 = tail call <2 x double> @llvm.x86.avx512.mask.add.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 8)
 140   ret <2 x double> %2
 141 }
 142
 143 define double @test_add_sd_1(double %a, double %b) {
 144 ;
 145 ; CHECK-LABEL: @test_add_sd_1(
 146 ; CHECK-NEXT:    ret double 1.000000e+00
 147 ;
 148   %1 = insertelement <2 x double> undef, double %a, i32 0
 149   %2 = insertelement <2 x double> %1, double 1.000000e+00, i32 1
 150   %3 = insertelement <2 x double> undef, double %b, i32 0
 151   %4 = insertelement <2 x double> %3, double 2.000000e+00, i32 1
 152   %5 = tail call <2 x double> @llvm.x86.avx512.mask.add.sd.round(<2 x double> %2, <2 x double> %4, <2 x double> undef, i8 -1, i32 8)
 153   %6 = extractelement <2 x double> %5, i32 1
 154   ret double %6
 155 }
 156
 157 declare <4 x float> @llvm.x86.avx512.mask.sub.ss.round(<4 x float>, <4 x float>, <4 x float>, i8, i32)
 158
 159 define <4 x float> @test_sub_ss(<4 x float> %a, <4 x float> %b) {
 160 ;
 161 ; CHECK-LABEL: @test_sub_ss(
 162 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
 163 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
 164 ; CHECK-NEXT:    [[TMP3:%.*]] = fsub float [[TMP1]], [[TMP2]]
 165 ; CHECK-NEXT:    [[TMP4:%.*]] = insertelement <4 x float> [[A]], float [[TMP3]], i64 0
 166 ; CHECK-NEXT:    ret <4 x float> [[TMP4]]
 167 ;
 168   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 169   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 170   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 171   %4 = tail call <4 x float> @llvm.x86.avx512.mask.sub.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 4)
 172   ret <4 x float> %4
 173 }
 174
 175 define <4 x float> @test_sub_ss_round(<4 x float> %a, <4 x float> %b) {
 176 ;
 177 ; CHECK-LABEL: @test_sub_ss_round(
 178 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.sub.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> undef, i8 -1, i32 8)
 179 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 180 ;
 181   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 182   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 183   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 184   %4 = tail call <4 x float> @llvm.x86.avx512.mask.sub.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 8)
 185   ret <4 x float> %4
 186 }
 187
 188 define <4 x float> @test_sub_ss_mask(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 189 ;
 190 ; CHECK-LABEL: @test_sub_ss_mask(
 191 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
 192 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
 193 ; CHECK-NEXT:    [[TMP3:%.*]] = fsub float [[TMP1]], [[TMP2]]
 194 ; CHECK-NEXT:    [[TMP4:%.*]] = and i8 [[MASK:%.*]], 1
 195 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP4]], 0
 196 ; CHECK-NEXT:    [[TMP5:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
 197 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float [[TMP5]], float [[TMP3]]
 198 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <4 x float> [[A]], float [[TMP6]], i64 0
 199 ; CHECK-NEXT:    ret <4 x float> [[TMP7]]
 200 ;
 201   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
 202   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 203   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 204   %4 = tail call <4 x float> @llvm.x86.avx512.mask.sub.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 4)
 205   ret <4 x float> %4
 206 }
 207
 208 define <4 x float> @test_sub_ss_mask_round(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 209 ;
 210 ; CHECK-LABEL: @test_sub_ss_mask_round(
 211 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.sub.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> [[C:%.*]], i8 [[MASK:%.*]], i32 8)
 212 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 213 ;
 214   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
 215   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 216   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 217   %4 = tail call <4 x float> @llvm.x86.avx512.mask.sub.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 8)
 218   ret <4 x float> %4
 219 }
 220
 221 define float @test_sub_ss_1(float %a, float %b) {
 222 ;
 223 ; CHECK-LABEL: @test_sub_ss_1(
 224 ; CHECK-NEXT:    ret float 1.000000e+00
 225 ;
 226   %1 = insertelement <4 x float> undef, float %a, i32 0
 227   %2 = insertelement <4 x float> %1, float 1.000000e+00, i32 1
 228   %3 = insertelement <4 x float> %2, float 2.000000e+00, i32 2
 229   %4 = insertelement <4 x float> %3, float 3.000000e+00, i32 3
 230   %5 = insertelement <4 x float> undef, float %b, i32 0
 231   %6 = insertelement <4 x float> %5, float 4.000000e+00, i32 1
 232   %7 = insertelement <4 x float> %6, float 5.000000e+00, i32 2
 233   %8 = insertelement <4 x float> %7, float 6.000000e+00, i32 3
 234   %9 = tail call <4 x float> @llvm.x86.avx512.mask.sub.ss.round(<4 x float> %4, <4 x float> %8, <4 x float> undef, i8 -1, i32 8)
 235   %10 = extractelement <4 x float> %9, i32 1
 236   ret float %10
 237 }
 238
 239 declare <2 x double> @llvm.x86.avx512.mask.sub.sd.round(<2 x double>, <2 x double>, <2 x double>, i8, i32)
 240
 241 define <2 x double> @test_sub_sd(<2 x double> %a, <2 x double> %b) {
 242 ;
 243 ; CHECK-LABEL: @test_sub_sd(
 244 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
 245 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
 246 ; CHECK-NEXT:    [[TMP3:%.*]] = fsub double [[TMP1]], [[TMP2]]
 247 ; CHECK-NEXT:    [[TMP4:%.*]] = insertelement <2 x double> [[A]], double [[TMP3]], i64 0
 248 ; CHECK-NEXT:    ret <2 x double> [[TMP4]]
 249 ;
 250   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 251   %2 = tail call <2 x double> @llvm.x86.avx512.mask.sub.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 4)
 252   ret <2 x double> %2
 253 }
 254
 255 define <2 x double> @test_sub_sd_round(<2 x double> %a, <2 x double> %b) {
 256 ;
 257 ; CHECK-LABEL: @test_sub_sd_round(
 258 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.sub.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> undef, i8 -1, i32 8)
 259 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 260 ;
 261   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 262   %2 = tail call <2 x double> @llvm.x86.avx512.mask.sub.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 8)
 263   ret <2 x double> %2
 264 }
 265
 266 define <2 x double> @test_sub_sd_mask(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 267 ;
 268 ; CHECK-LABEL: @test_sub_sd_mask(
 269 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
 270 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
 271 ; CHECK-NEXT:    [[TMP3:%.*]] = fsub double [[TMP1]], [[TMP2]]
 272 ; CHECK-NEXT:    [[TMP4:%.*]] = and i8 [[MASK:%.*]], 1
 273 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP4]], 0
 274 ; CHECK-NEXT:    [[TMP5:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
 275 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double [[TMP5]], double [[TMP3]]
 276 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <2 x double> [[A]], double [[TMP6]], i64 0
 277 ; CHECK-NEXT:    ret <2 x double> [[TMP7]]
 278 ;
 279   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 280   %2 = tail call <2 x double> @llvm.x86.avx512.mask.sub.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 4)
 281   ret <2 x double> %2
 282 }
 283
 284 define <2 x double> @test_sub_sd_mask_round(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 285 ;
 286 ; CHECK-LABEL: @test_sub_sd_mask_round(
 287 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.sub.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> [[C:%.*]], i8 [[MASK:%.*]], i32 8)
 288 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 289 ;
 290   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 291   %2 = tail call <2 x double> @llvm.x86.avx512.mask.sub.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 8)
 292   ret <2 x double> %2
 293 }
 294
 295 define double @test_sub_sd_1(double %a, double %b) {
 296 ;
 297 ; CHECK-LABEL: @test_sub_sd_1(
 298 ; CHECK-NEXT:    ret double 1.000000e+00
 299 ;
 300   %1 = insertelement <2 x double> undef, double %a, i32 0
 301   %2 = insertelement <2 x double> %1, double 1.000000e+00, i32 1
 302   %3 = insertelement <2 x double> undef, double %b, i32 0
 303   %4 = insertelement <2 x double> %3, double 2.000000e+00, i32 1
 304   %5 = tail call <2 x double> @llvm.x86.avx512.mask.sub.sd.round(<2 x double> %2, <2 x double> %4, <2 x double> undef, i8 -1, i32 8)
 305   %6 = extractelement <2 x double> %5, i32 1
 306   ret double %6
 307 }
 308
 309 declare <4 x float> @llvm.x86.avx512.mask.mul.ss.round(<4 x float>, <4 x float>, <4 x float>, i8, i32)
 310
 311 define <4 x float> @test_mul_ss(<4 x float> %a, <4 x float> %b) {
 312 ;
 313 ; CHECK-LABEL: @test_mul_ss(
 314 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
 315 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
 316 ; CHECK-NEXT:    [[TMP3:%.*]] = fmul float [[TMP1]], [[TMP2]]
 317 ; CHECK-NEXT:    [[TMP4:%.*]] = insertelement <4 x float> [[A]], float [[TMP3]], i64 0
 318 ; CHECK-NEXT:    ret <4 x float> [[TMP4]]
 319 ;
 320   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 321   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 322   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 323   %4 = tail call <4 x float> @llvm.x86.avx512.mask.mul.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 4)
 324   ret <4 x float> %4
 325 }
 326
 327 define <4 x float> @test_mul_ss_round(<4 x float> %a, <4 x float> %b) {
 328 ;
 329 ; CHECK-LABEL: @test_mul_ss_round(
 330 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.mul.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> undef, i8 -1, i32 8)
 331 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 332 ;
 333   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 334   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 335   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 336   %4 = tail call <4 x float> @llvm.x86.avx512.mask.mul.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 8)
 337   ret <4 x float> %4
 338 }
 339
 340 define <4 x float> @test_mul_ss_mask(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 341 ;
 342 ; CHECK-LABEL: @test_mul_ss_mask(
 343 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
 344 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
 345 ; CHECK-NEXT:    [[TMP3:%.*]] = fmul float [[TMP1]], [[TMP2]]
 346 ; CHECK-NEXT:    [[TMP4:%.*]] = and i8 [[MASK:%.*]], 1
 347 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP4]], 0
 348 ; CHECK-NEXT:    [[TMP5:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
 349 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float [[TMP5]], float [[TMP3]]
 350 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <4 x float> [[A]], float [[TMP6]], i64 0
 351 ; CHECK-NEXT:    ret <4 x float> [[TMP7]]
 352 ;
 353   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
 354   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 355   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 356   %4 = tail call <4 x float> @llvm.x86.avx512.mask.mul.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 4)
 357   ret <4 x float> %4
 358 }
 359
 360 define <4 x float> @test_mul_ss_mask_round(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 361 ;
 362 ; CHECK-LABEL: @test_mul_ss_mask_round(
 363 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.mul.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> [[C:%.*]], i8 [[MASK:%.*]], i32 8)
 364 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 365 ;
 366   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
 367   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 368   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 369   %4 = tail call <4 x float> @llvm.x86.avx512.mask.mul.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 8)
 370   ret <4 x float> %4
 371 }
 372
 373 define float @test_mul_ss_1(float %a, float %b) {
 374 ;
 375 ; CHECK-LABEL: @test_mul_ss_1(
 376 ; CHECK-NEXT:    ret float 1.000000e+00
 377 ;
 378   %1 = insertelement <4 x float> undef, float %a, i32 0
 379   %2 = insertelement <4 x float> %1, float 1.000000e+00, i32 1
 380   %3 = insertelement <4 x float> %2, float 2.000000e+00, i32 2
 381   %4 = insertelement <4 x float> %3, float 3.000000e+00, i32 3
 382   %5 = insertelement <4 x float> undef, float %b, i32 0
 383   %6 = insertelement <4 x float> %5, float 4.000000e+00, i32 1
 384   %7 = insertelement <4 x float> %6, float 5.000000e+00, i32 2
 385   %8 = insertelement <4 x float> %7, float 6.000000e+00, i32 3
 386   %9 = tail call <4 x float> @llvm.x86.avx512.mask.mul.ss.round(<4 x float> %4, <4 x float> %8, <4 x float> undef, i8 -1, i32 8)
 387   %10 = extractelement <4 x float> %9, i32 1
 388   ret float %10
 389 }
 390
 391 declare <2 x double> @llvm.x86.avx512.mask.mul.sd.round(<2 x double>, <2 x double>, <2 x double>, i8, i32)
 392
 393 define <2 x double> @test_mul_sd(<2 x double> %a, <2 x double> %b) {
 394 ;
 395 ; CHECK-LABEL: @test_mul_sd(
 396 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
 397 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
 398 ; CHECK-NEXT:    [[TMP3:%.*]] = fmul double [[TMP1]], [[TMP2]]
 399 ; CHECK-NEXT:    [[TMP4:%.*]] = insertelement <2 x double> [[A]], double [[TMP3]], i64 0
 400 ; CHECK-NEXT:    ret <2 x double> [[TMP4]]
 401 ;
 402   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 403   %2 = tail call <2 x double> @llvm.x86.avx512.mask.mul.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 4)
 404   ret <2 x double> %2
 405 }
 406
 407 define <2 x double> @test_mul_sd_round(<2 x double> %a, <2 x double> %b) {
 408 ;
 409 ; CHECK-LABEL: @test_mul_sd_round(
 410 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.mul.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> undef, i8 -1, i32 8)
 411 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 412 ;
 413   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 414   %2 = tail call <2 x double> @llvm.x86.avx512.mask.mul.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 8)
 415   ret <2 x double> %2
 416 }
 417
 418 define <2 x double> @test_mul_sd_mask(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 419 ;
 420 ; CHECK-LABEL: @test_mul_sd_mask(
 421 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
 422 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
 423 ; CHECK-NEXT:    [[TMP3:%.*]] = fmul double [[TMP1]], [[TMP2]]
 424 ; CHECK-NEXT:    [[TMP4:%.*]] = and i8 [[MASK:%.*]], 1
 425 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP4]], 0
 426 ; CHECK-NEXT:    [[TMP5:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
 427 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double [[TMP5]], double [[TMP3]]
 428 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <2 x double> [[A]], double [[TMP6]], i64 0
 429 ; CHECK-NEXT:    ret <2 x double> [[TMP7]]
 430 ;
 431   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 432   %2 = tail call <2 x double> @llvm.x86.avx512.mask.mul.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 4)
 433   ret <2 x double> %2
 434 }
 435
 436 define <2 x double> @test_mul_sd_mask_round(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 437 ;
 438 ; CHECK-LABEL: @test_mul_sd_mask_round(
 439 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.mul.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> [[C:%.*]], i8 [[MASK:%.*]], i32 8)
 440 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 441 ;
 442   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 443   %2 = tail call <2 x double> @llvm.x86.avx512.mask.mul.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 8)
 444   ret <2 x double> %2
 445 }
 446
 447 define double @test_mul_sd_1(double %a, double %b) {
 448 ;
 449 ; CHECK-LABEL: @test_mul_sd_1(
 450 ; CHECK-NEXT:    ret double 1.000000e+00
 451 ;
 452   %1 = insertelement <2 x double> undef, double %a, i32 0
 453   %2 = insertelement <2 x double> %1, double 1.000000e+00, i32 1
 454   %3 = insertelement <2 x double> undef, double %b, i32 0
 455   %4 = insertelement <2 x double> %3, double 2.000000e+00, i32 1
 456   %5 = tail call <2 x double> @llvm.x86.avx512.mask.mul.sd.round(<2 x double> %2, <2 x double> %4, <2 x double> undef, i8 -1, i32 8)
 457   %6 = extractelement <2 x double> %5, i32 1
 458   ret double %6
 459 }
 460
 461 declare <4 x float> @llvm.x86.avx512.mask.div.ss.round(<4 x float>, <4 x float>, <4 x float>, i8, i32)
 462
 463 define <4 x float> @test_div_ss(<4 x float> %a, <4 x float> %b) {
 464 ;
 465 ; CHECK-LABEL: @test_div_ss(
 466 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
 467 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
 468 ; CHECK-NEXT:    [[TMP3:%.*]] = fdiv float [[TMP1]], [[TMP2]]
 469 ; CHECK-NEXT:    [[TMP4:%.*]] = insertelement <4 x float> [[A]], float [[TMP3]], i64 0
 470 ; CHECK-NEXT:    ret <4 x float> [[TMP4]]
 471 ;
 472   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 473   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 474   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 475   %4 = tail call <4 x float> @llvm.x86.avx512.mask.div.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 4)
 476   ret <4 x float> %4
 477 }
 478
 479 define <4 x float> @test_div_ss_round(<4 x float> %a, <4 x float> %b) {
 480 ;
 481 ; CHECK-LABEL: @test_div_ss_round(
 482 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.div.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> undef, i8 -1, i32 8)
 483 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 484 ;
 485   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 486   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 487   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 488   %4 = tail call <4 x float> @llvm.x86.avx512.mask.div.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 8)
 489   ret <4 x float> %4
 490 }
 491
 492 define <4 x float> @test_div_ss_mask(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 493 ;
 494 ; CHECK-LABEL: @test_div_ss_mask(
 495 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
 496 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
 497 ; CHECK-NEXT:    [[TMP3:%.*]] = fdiv float [[TMP1]], [[TMP2]]
 498 ; CHECK-NEXT:    [[TMP4:%.*]] = and i8 [[MASK:%.*]], 1
 499 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP4]], 0
 500 ; CHECK-NEXT:    [[TMP5:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
 501 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float [[TMP5]], float [[TMP3]]
 502 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <4 x float> [[A]], float [[TMP6]], i64 0
 503 ; CHECK-NEXT:    ret <4 x float> [[TMP7]]
 504 ;
 505   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
 506   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 507   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 508   %4 = tail call <4 x float> @llvm.x86.avx512.mask.div.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 4)
 509   ret <4 x float> %4
 510 }
 511
 512 define <4 x float> @test_div_ss_mask_round(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 513 ;
 514 ; CHECK-LABEL: @test_div_ss_mask_round(
 515 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.div.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> [[C:%.*]], i8 [[MASK:%.*]], i32 8)
 516 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 517 ;
 518   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
 519   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 520   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 521   %4 = tail call <4 x float> @llvm.x86.avx512.mask.div.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 8)
 522   ret <4 x float> %4
 523 }
 524
 525 define float @test_div_ss_1(float %a, float %b) {
 526 ;
 527 ; CHECK-LABEL: @test_div_ss_1(
 528 ; CHECK-NEXT:    ret float 1.000000e+00
 529 ;
 530   %1 = insertelement <4 x float> undef, float %a, i32 0
 531   %2 = insertelement <4 x float> %1, float 1.000000e+00, i32 1
 532   %3 = insertelement <4 x float> %2, float 2.000000e+00, i32 2
 533   %4 = insertelement <4 x float> %3, float 3.000000e+00, i32 3
 534   %5 = insertelement <4 x float> undef, float %b, i32 0
 535   %6 = insertelement <4 x float> %5, float 4.000000e+00, i32 1
 536   %7 = insertelement <4 x float> %6, float 5.000000e+00, i32 2
 537   %8 = insertelement <4 x float> %7, float 6.000000e+00, i32 3
 538   %9 = tail call <4 x float> @llvm.x86.avx512.mask.div.ss.round(<4 x float> %4, <4 x float> %8, <4 x float> undef, i8 -1, i32 8)
 539   %10 = extractelement <4 x float> %9, i32 1
 540   ret float %10
 541 }
 542
 543 declare <2 x double> @llvm.x86.avx512.mask.div.sd.round(<2 x double>, <2 x double>, <2 x double>, i8, i32)
 544
 545 define <2 x double> @test_div_sd(<2 x double> %a, <2 x double> %b) {
 546 ;
 547 ; CHECK-LABEL: @test_div_sd(
 548 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
 549 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
 550 ; CHECK-NEXT:    [[TMP3:%.*]] = fdiv double [[TMP1]], [[TMP2]]
 551 ; CHECK-NEXT:    [[TMP4:%.*]] = insertelement <2 x double> [[A]], double [[TMP3]], i64 0
 552 ; CHECK-NEXT:    ret <2 x double> [[TMP4]]
 553 ;
 554   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 555   %2 = tail call <2 x double> @llvm.x86.avx512.mask.div.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 4)
 556   ret <2 x double> %2
 557 }
 558
 559 define <2 x double> @test_div_sd_round(<2 x double> %a, <2 x double> %b) {
 560 ;
 561 ; CHECK-LABEL: @test_div_sd_round(
 562 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.div.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> undef, i8 -1, i32 8)
 563 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 564 ;
 565   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 566   %2 = tail call <2 x double> @llvm.x86.avx512.mask.div.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 8)
 567   ret <2 x double> %2
 568 }
 569
 570 define <2 x double> @test_div_sd_mask(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 571 ;
 572 ; CHECK-LABEL: @test_div_sd_mask(
 573 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
 574 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
 575 ; CHECK-NEXT:    [[TMP3:%.*]] = fdiv double [[TMP1]], [[TMP2]]
 576 ; CHECK-NEXT:    [[TMP4:%.*]] = and i8 [[MASK:%.*]], 1
 577 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP4]], 0
 578 ; CHECK-NEXT:    [[TMP5:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
 579 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double [[TMP5]], double [[TMP3]]
 580 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <2 x double> [[A]], double [[TMP6]], i64 0
 581 ; CHECK-NEXT:    ret <2 x double> [[TMP7]]
 582 ;
 583   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 584   %2 = tail call <2 x double> @llvm.x86.avx512.mask.div.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 4)
 585   ret <2 x double> %2
 586 }
 587
 588 define <2 x double> @test_div_sd_mask_round(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 589 ;
 590 ; CHECK-LABEL: @test_div_sd_mask_round(
 591 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.div.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> [[C:%.*]], i8 [[MASK:%.*]], i32 8)
 592 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 593 ;
 594   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 595   %2 = tail call <2 x double> @llvm.x86.avx512.mask.div.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 8)
 596   ret <2 x double> %2
 597 }
 598
 599 define double @test_div_sd_1(double %a, double %b) {
 600 ;
 601 ; CHECK-LABEL: @test_div_sd_1(
 602 ; CHECK-NEXT:    ret double 1.000000e+00
 603 ;
 604   %1 = insertelement <2 x double> undef, double %a, i32 0
 605   %2 = insertelement <2 x double> %1, double 1.000000e+00, i32 1
 606   %3 = insertelement <2 x double> undef, double %b, i32 0
 607   %4 = insertelement <2 x double> %3, double 2.000000e+00, i32 1
 608   %5 = tail call <2 x double> @llvm.x86.avx512.mask.div.sd.round(<2 x double> %2, <2 x double> %4, <2 x double> undef, i8 -1, i32 8)
 609   %6 = extractelement <2 x double> %5, i32 1
 610   ret double %6
 611 }
 612
 613 declare <4 x float> @llvm.x86.avx512.mask.max.ss.round(<4 x float>, <4 x float>, <4 x float>, i8, i32)
 614
 615 define <4 x float> @test_max_ss(<4 x float> %a, <4 x float> %b) {
 616 ;
 617 ; CHECK-LABEL: @test_max_ss(
 618 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.max.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> undef, i8 -1, i32 4)
 619 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 620 ;
 621   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 622   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 623   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 624   %4 = tail call <4 x float> @llvm.x86.avx512.mask.max.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 4)
 625   ret <4 x float> %4
 626 }
 627
 628 define <4 x float> @test_max_ss_mask(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 629 ;
 630 ; CHECK-LABEL: @test_max_ss_mask(
 631 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.max.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> [[C:%.*]], i8 [[MASK:%.*]], i32 4)
 632 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 633 ;
 634   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
 635   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 636   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 637   %4 = tail call <4 x float> @llvm.x86.avx512.mask.max.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 4)
 638   ret <4 x float> %4
 639 }
 640
 641 define float @test_max_ss_1(float %a, float %b) {
 642 ;
 643 ; CHECK-LABEL: @test_max_ss_1(
 644 ; CHECK-NEXT:    ret float 1.000000e+00
 645 ;
 646   %1 = insertelement <4 x float> undef, float %a, i32 0
 647   %2 = insertelement <4 x float> %1, float 1.000000e+00, i32 1
 648   %3 = insertelement <4 x float> %2, float 2.000000e+00, i32 2
 649   %4 = insertelement <4 x float> %3, float 3.000000e+00, i32 3
 650   %5 = insertelement <4 x float> undef, float %b, i32 0
 651   %6 = insertelement <4 x float> %5, float 4.000000e+00, i32 1
 652   %7 = insertelement <4 x float> %6, float 5.000000e+00, i32 2
 653   %8 = insertelement <4 x float> %7, float 6.000000e+00, i32 3
 654   %9 = tail call <4 x float> @llvm.x86.avx512.mask.max.ss.round(<4 x float> %4, <4 x float> %8, <4 x float> undef, i8 -1, i32 8)
 655   %10 = extractelement <4 x float> %9, i32 1
 656   ret float %10
 657 }
 658
 659 declare <2 x double> @llvm.x86.avx512.mask.max.sd.round(<2 x double>, <2 x double>, <2 x double>, i8, i32)
 660
 661 define <2 x double> @test_max_sd(<2 x double> %a, <2 x double> %b) {
 662 ;
 663 ; CHECK-LABEL: @test_max_sd(
 664 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.max.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> undef, i8 -1, i32 4)
 665 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 666 ;
 667   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 668   %2 = tail call <2 x double> @llvm.x86.avx512.mask.max.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 4)
 669   ret <2 x double> %2
 670 }
 671
 672 define <2 x double> @test_max_sd_mask(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 673 ;
 674 ; CHECK-LABEL: @test_max_sd_mask(
 675 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.max.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> [[C:%.*]], i8 [[MASK:%.*]], i32 4)
 676 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 677 ;
 678   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 679   %2 = tail call <2 x double> @llvm.x86.avx512.mask.max.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 4)
 680   ret <2 x double> %2
 681 }
 682
 683 define double @test_max_sd_1(double %a, double %b) {
 684 ;
 685 ; CHECK-LABEL: @test_max_sd_1(
 686 ; CHECK-NEXT:    ret double 1.000000e+00
 687 ;
 688   %1 = insertelement <2 x double> undef, double %a, i32 0
 689   %2 = insertelement <2 x double> %1, double 1.000000e+00, i32 1
 690   %3 = insertelement <2 x double> undef, double %b, i32 0
 691   %4 = insertelement <2 x double> %3, double 2.000000e+00, i32 1
 692   %5 = tail call <2 x double> @llvm.x86.avx512.mask.max.sd.round(<2 x double> %2, <2 x double> %4, <2 x double> undef, i8 -1, i32 8)
 693   %6 = extractelement <2 x double> %5, i32 1
 694   ret double %6
 695 }
 696
 697 declare <4 x float> @llvm.x86.avx512.mask.min.ss.round(<4 x float>, <4 x float>, <4 x float>, i8, i32)
 698
 699 define <4 x float> @test_min_ss(<4 x float> %a, <4 x float> %b) {
 700 ;
 701 ; CHECK-LABEL: @test_min_ss(
 702 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.min.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> undef, i8 -1, i32 4)
 703 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 704 ;
 705   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 706   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 707   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 708   %4 = tail call <4 x float> @llvm.x86.avx512.mask.min.ss.round(<4 x float> %a, <4 x float> %3, <4 x float> undef, i8 -1, i32 4)
 709   ret <4 x float> %4
 710 }
 711
 712 define <4 x float> @test_min_ss_mask(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 713 ;
 714 ; CHECK-LABEL: @test_min_ss_mask(
 715 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <4 x float> @llvm.x86.avx512.mask.min.ss.round(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], <4 x float> [[C:%.*]], i8 [[MASK:%.*]], i32 4)
 716 ; CHECK-NEXT:    ret <4 x float> [[TMP1]]
 717 ;
 718   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
 719   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 720   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 721   %4 = tail call <4 x float> @llvm.x86.avx512.mask.min.ss.round(<4 x float> %a, <4 x float> %b, <4 x float> %3, i8 %mask, i32 4)
 722   ret <4 x float> %4
 723 }
 724
 725 define float @test_min_ss_1(float %a, float %b) {
 726 ;
 727 ; CHECK-LABEL: @test_min_ss_1(
 728 ; CHECK-NEXT:    ret float 1.000000e+00
 729 ;
 730   %1 = insertelement <4 x float> undef, float %a, i32 0
 731   %2 = insertelement <4 x float> %1, float 1.000000e+00, i32 1
 732   %3 = insertelement <4 x float> %2, float 2.000000e+00, i32 2
 733   %4 = insertelement <4 x float> %3, float 3.000000e+00, i32 3
 734   %5 = insertelement <4 x float> undef, float %b, i32 0
 735   %6 = insertelement <4 x float> %5, float 4.000000e+00, i32 1
 736   %7 = insertelement <4 x float> %6, float 5.000000e+00, i32 2
 737   %8 = insertelement <4 x float> %7, float 6.000000e+00, i32 3
 738   %9 = tail call <4 x float> @llvm.x86.avx512.mask.min.ss.round(<4 x float> %4, <4 x float> %8, <4 x float> undef, i8 -1, i32 8)
 739   %10 = extractelement <4 x float> %9, i32 1
 740   ret float %10
 741 }
 742
 743 declare <2 x double> @llvm.x86.avx512.mask.min.sd.round(<2 x double>, <2 x double>, <2 x double>, i8, i32)
 744
 745 define <2 x double> @test_min_sd(<2 x double> %a, <2 x double> %b) {
 746 ;
 747 ; CHECK-LABEL: @test_min_sd(
 748 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.min.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> undef, i8 -1, i32 4)
 749 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 750 ;
 751   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
 752   %2 = tail call <2 x double> @llvm.x86.avx512.mask.min.sd.round(<2 x double> %a, <2 x double> %1, <2 x double> undef, i8 -1, i32 4)
 753   ret <2 x double> %2
 754 }
 755
 756 define <2 x double> @test_min_sd_mask(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
 757 ;
 758 ; CHECK-LABEL: @test_min_sd_mask(
 759 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call <2 x double> @llvm.x86.avx512.mask.min.sd.round(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], <2 x double> [[C:%.*]], i8 [[MASK:%.*]], i32 4)
 760 ; CHECK-NEXT:    ret <2 x double> [[TMP1]]
 761 ;
 762   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
 763   %2 = tail call <2 x double> @llvm.x86.avx512.mask.min.sd.round(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 4)
 764   ret <2 x double> %2
 765 }
 766
 767 define double @test_min_sd_1(double %a, double %b) {
 768 ;
 769 ; CHECK-LABEL: @test_min_sd_1(
 770 ; CHECK-NEXT:    ret double 1.000000e+00
 771 ;
 772   %1 = insertelement <2 x double> undef, double %a, i32 0
 773   %2 = insertelement <2 x double> %1, double 1.000000e+00, i32 1
 774   %3 = insertelement <2 x double> undef, double %b, i32 0
 775   %4 = insertelement <2 x double> %3, double 2.000000e+00, i32 1
 776   %5 = tail call <2 x double> @llvm.x86.avx512.mask.min.sd.round(<2 x double> %2, <2 x double> %4, <2 x double> undef, i8 -1, i32 8)
 777   %6 = extractelement <2 x double> %5, i32 1
 778   ret double %6
 779 }
 780
 781 declare i8 @llvm.x86.avx512.mask.cmp.ss(<4 x float>, <4 x float>, i32, i8, i32)
 782
 783 define i8 @test_cmp_ss(<4 x float> %a, <4 x float> %b, i8 %mask) {
 784 ;
 785 ; CHECK-LABEL: @test_cmp_ss(
 786 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call i8 @llvm.x86.avx512.mask.cmp.ss(<4 x float> [[A:%.*]], <4 x float> [[B:%.*]], i32 3, i8 [[MASK:%.*]], i32 4)
 787 ; CHECK-NEXT:    ret i8 [[TMP1]]
 788 ;
 789   %1 = insertelement <4 x float> %a, float 1.000000e+00, i32 1
 790   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 791   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 792   %4 = insertelement <4 x float> %b, float 4.000000e+00, i32 1
 793   %5 = insertelement <4 x float> %4, float 5.000000e+00, i32 2
 794   %6 = insertelement <4 x float> %5, float 6.000000e+00, i32 3
 795   %7 = tail call i8 @llvm.x86.avx512.mask.cmp.ss(<4 x float> %3, <4 x float> %6, i32 3, i8 %mask, i32 4)
 796   ret i8 %7
 797 }
 798
 799 declare i8 @llvm.x86.avx512.mask.cmp.sd(<2 x double>, <2 x double>, i32, i8, i32)
 800
 801 define i8 @test_cmp_sd(<2 x double> %a, <2 x double> %b, i8 %mask) {
 802 ;
 803 ; CHECK-LABEL: @test_cmp_sd(
 804 ; CHECK-NEXT:    [[TMP1:%.*]] = tail call i8 @llvm.x86.avx512.mask.cmp.sd(<2 x double> [[A:%.*]], <2 x double> [[B:%.*]], i32 3, i8 [[MASK:%.*]], i32 4)
 805 ; CHECK-NEXT:    ret i8 [[TMP1]]
 806 ;
 807   %1 = insertelement <2 x double> %a, double 1.000000e+00, i32 1
 808   %2 = insertelement <2 x double> %b, double 2.000000e+00, i32 1
 809   %3 = tail call i8 @llvm.x86.avx512.mask.cmp.sd(<2 x double> %1, <2 x double> %2, i32 3, i8 %mask, i32 4)
 810   ret i8 %3
 811 }
 812
 813 define i64 @test(float %f, double %d) {
 814 ;
 815 ; CHECK-LABEL: @test(
 816 ; CHECK-NEXT:    [[V03:%.*]] = insertelement <4 x float> poison, float [[F:%.*]], i64 0
 817 ; CHECK-NEXT:    [[T0:%.*]] = tail call i32 @llvm.x86.avx512.vcvtss2si32(<4 x float> [[V03]], i32 4)
 818 ; CHECK-NEXT:    [[V13:%.*]] = insertelement <4 x float> poison, float [[F]], i64 0
 819 ; CHECK-NEXT:    [[T1:%.*]] = tail call i64 @llvm.x86.avx512.vcvtss2si64(<4 x float> [[V13]], i32 4)
 820 ; CHECK-NEXT:    [[V23:%.*]] = insertelement <4 x float> poison, float [[F]], i64 0
 821 ; CHECK-NEXT:    [[T2:%.*]] = tail call i32 @llvm.x86.avx512.cvttss2si(<4 x float> [[V23]], i32 4)
 822 ; CHECK-NEXT:    [[V33:%.*]] = insertelement <4 x float> poison, float [[F]], i64 0
 823 ; CHECK-NEXT:    [[T3:%.*]] = tail call i64 @llvm.x86.avx512.cvttss2si64(<4 x float> [[V33]], i32 4)
 824 ; CHECK-NEXT:    [[V41:%.*]] = insertelement <2 x double> poison, double [[D:%.*]], i64 0
 825 ; CHECK-NEXT:    [[T4:%.*]] = tail call i32 @llvm.x86.avx512.vcvtsd2si32(<2 x double> [[V41]], i32 4)
 826 ; CHECK-NEXT:    [[V51:%.*]] = insertelement <2 x double> poison, double [[D]], i64 0
 827 ; CHECK-NEXT:    [[T5:%.*]] = tail call i64 @llvm.x86.avx512.vcvtsd2si64(<2 x double> [[V51]], i32 4)
 828 ; CHECK-NEXT:    [[V61:%.*]] = insertelement <2 x double> poison, double [[D]], i64 0
 829 ; CHECK-NEXT:    [[T6:%.*]] = tail call i32 @llvm.x86.avx512.cvttsd2si(<2 x double> [[V61]], i32 4)
 830 ; CHECK-NEXT:    [[V71:%.*]] = insertelement <2 x double> poison, double [[D]], i64 0
 831 ; CHECK-NEXT:    [[T7:%.*]] = tail call i64 @llvm.x86.avx512.cvttsd2si64(<2 x double> [[V71]], i32 4)
 832 ; CHECK-NEXT:    [[T8:%.*]] = add i32 [[T0]], [[T2]]
 833 ; CHECK-NEXT:    [[T9:%.*]] = add i32 [[T4]], [[T6]]
 834 ; CHECK-NEXT:    [[T10:%.*]] = add i32 [[T8]], [[T9]]
 835 ; CHECK-NEXT:    [[T11:%.*]] = sext i32 [[T10]] to i64
 836 ; CHECK-NEXT:    [[T12:%.*]] = add i64 [[T1]], [[T3]]
 837 ; CHECK-NEXT:    [[T13:%.*]] = add i64 [[T5]], [[T7]]
 838 ; CHECK-NEXT:    [[T14:%.*]] = add i64 [[T12]], [[T13]]
 839 ; CHECK-NEXT:    [[T15:%.*]] = add i64 [[T14]], [[T11]]
 840 ; CHECK-NEXT:    ret i64 [[T15]]
 841 ;
 842   %v00 = insertelement <4 x float> undef, float %f, i32 0
 843   %v01 = insertelement <4 x float> %v00, float 0.000000e+00, i32 1
 844   %v02 = insertelement <4 x float> %v01, float 0.000000e+00, i32 2
 845   %v03 = insertelement <4 x float> %v02, float 0.000000e+00, i32 3
 846   %t0 = tail call i32 @llvm.x86.avx512.vcvtss2si32(<4 x float> %v03, i32 4)
 847   %v10 = insertelement <4 x float> undef, float %f, i32 0
 848   %v11 = insertelement <4 x float> %v10, float 0.000000e+00, i32 1
 849   %v12 = insertelement <4 x float> %v11, float 0.000000e+00, i32 2
 850   %v13 = insertelement <4 x float> %v12, float 0.000000e+00, i32 3
 851   %t1 = tail call i64 @llvm.x86.avx512.vcvtss2si64(<4 x float> %v13, i32 4)
 852   %v20 = insertelement <4 x float> undef, float %f, i32 0
 853   %v21 = insertelement <4 x float> %v20, float 0.000000e+00, i32 1
 854   %v22 = insertelement <4 x float> %v21, float 0.000000e+00, i32 2
 855   %v23 = insertelement <4 x float> %v22, float 0.000000e+00, i32 3
 856   %t2 = tail call i32 @llvm.x86.avx512.cvttss2si(<4 x float> %v23, i32 4)
 857   %v30 = insertelement <4 x float> undef, float %f, i32 0
 858   %v31 = insertelement <4 x float> %v30, float 0.000000e+00, i32 1
 859   %v32 = insertelement <4 x float> %v31, float 0.000000e+00, i32 2
 860   %v33 = insertelement <4 x float> %v32, float 0.000000e+00, i32 3
 861   %t3 = tail call i64 @llvm.x86.avx512.cvttss2si64(<4 x float> %v33, i32 4)
 862   %v40 = insertelement <2 x double> undef, double %d, i32 0
 863   %v41 = insertelement <2 x double> %v40, double 0.000000e+00, i32 1
 864   %t4 = tail call i32 @llvm.x86.avx512.vcvtsd2si32(<2 x double> %v41, i32 4)
 865   %v50 = insertelement <2 x double> undef, double %d, i32 0
 866   %v51 = insertelement <2 x double> %v50, double 0.000000e+00, i32 1
 867   %t5 = tail call i64 @llvm.x86.avx512.vcvtsd2si64(<2 x double> %v51, i32 4)
 868   %v60 = insertelement <2 x double> undef, double %d, i32 0
 869   %v61 = insertelement <2 x double> %v60, double 0.000000e+00, i32 1
 870   %t6 = tail call i32 @llvm.x86.avx512.cvttsd2si(<2 x double> %v61, i32 4)
 871   %v70 = insertelement <2 x double> undef, double %d, i32 0
 872   %v71 = insertelement <2 x double> %v70, double 0.000000e+00, i32 1
 873   %t7 = tail call i64 @llvm.x86.avx512.cvttsd2si64(<2 x double> %v71, i32 4)
 874   %t8 = add i32 %t0, %t2
 875   %t9 = add i32 %t4, %t6
 876   %t10 = add i32 %t8, %t9
 877   %t11 = sext i32 %t10 to i64
 878   %t12 = add i64 %t1, %t3
 879   %t13 = add i64 %t5, %t7
 880   %t14 = add i64 %t12, %t13
 881   %t15 = add i64 %t11, %t14
 882   ret i64 %t15
 883 }
 884
 885 declare i32 @llvm.x86.avx512.vcvtss2si32(<4 x float>, i32)
 886 declare i64 @llvm.x86.avx512.vcvtss2si64(<4 x float>, i32)
 887 declare i32 @llvm.x86.avx512.cvttss2si(<4 x float>, i32)
 888 declare i64 @llvm.x86.avx512.cvttss2si64(<4 x float>, i32)
 889 declare i32 @llvm.x86.avx512.vcvtsd2si32(<2 x double>, i32)
 890 declare i64 @llvm.x86.avx512.vcvtsd2si64(<2 x double>, i32)
 891 declare i32 @llvm.x86.avx512.cvttsd2si(<2 x double>, i32)
 892 declare i64 @llvm.x86.avx512.cvttsd2si64(<2 x double>, i32)
 893
 894 define i64 @test2(float %f, double %d) {
 895 ;
 896 ; CHECK-LABEL: @test2(
 897 ; CHECK-NEXT:    [[V03:%.*]] = insertelement <4 x float> poison, float [[F:%.*]], i64 0
 898 ; CHECK-NEXT:    [[T0:%.*]] = tail call i32 @llvm.x86.avx512.vcvtss2usi32(<4 x float> [[V03]], i32 4)
 899 ; CHECK-NEXT:    [[V13:%.*]] = insertelement <4 x float> poison, float [[F]], i64 0
 900 ; CHECK-NEXT:    [[T1:%.*]] = tail call i64 @llvm.x86.avx512.vcvtss2usi64(<4 x float> [[V13]], i32 4)
 901 ; CHECK-NEXT:    [[V23:%.*]] = insertelement <4 x float> poison, float [[F]], i64 0
 902 ; CHECK-NEXT:    [[T2:%.*]] = tail call i32 @llvm.x86.avx512.cvttss2usi(<4 x float> [[V23]], i32 4)
 903 ; CHECK-NEXT:    [[V33:%.*]] = insertelement <4 x float> poison, float [[F]], i64 0
 904 ; CHECK-NEXT:    [[T3:%.*]] = tail call i64 @llvm.x86.avx512.cvttss2usi64(<4 x float> [[V33]], i32 4)
 905 ; CHECK-NEXT:    [[V41:%.*]] = insertelement <2 x double> poison, double [[D:%.*]], i64 0
 906 ; CHECK-NEXT:    [[T4:%.*]] = tail call i32 @llvm.x86.avx512.vcvtsd2usi32(<2 x double> [[V41]], i32 4)
 907 ; CHECK-NEXT:    [[V51:%.*]] = insertelement <2 x double> poison, double [[D]], i64 0
 908 ; CHECK-NEXT:    [[T5:%.*]] = tail call i64 @llvm.x86.avx512.vcvtsd2usi64(<2 x double> [[V51]], i32 4)
 909 ; CHECK-NEXT:    [[V61:%.*]] = insertelement <2 x double> poison, double [[D]], i64 0
 910 ; CHECK-NEXT:    [[T6:%.*]] = tail call i32 @llvm.x86.avx512.cvttsd2usi(<2 x double> [[V61]], i32 4)
 911 ; CHECK-NEXT:    [[V71:%.*]] = insertelement <2 x double> poison, double [[D]], i64 0
 912 ; CHECK-NEXT:    [[T7:%.*]] = tail call i64 @llvm.x86.avx512.cvttsd2usi64(<2 x double> [[V71]], i32 4)
 913 ; CHECK-NEXT:    [[T8:%.*]] = add i32 [[T0]], [[T2]]
 914 ; CHECK-NEXT:    [[T9:%.*]] = add i32 [[T4]], [[T6]]
 915 ; CHECK-NEXT:    [[T10:%.*]] = add i32 [[T8]], [[T9]]
 916 ; CHECK-NEXT:    [[T11:%.*]] = sext i32 [[T10]] to i64
 917 ; CHECK-NEXT:    [[T12:%.*]] = add i64 [[T1]], [[T3]]
 918 ; CHECK-NEXT:    [[T13:%.*]] = add i64 [[T5]], [[T7]]
 919 ; CHECK-NEXT:    [[T14:%.*]] = add i64 [[T12]], [[T13]]
 920 ; CHECK-NEXT:    [[T15:%.*]] = add i64 [[T14]], [[T11]]
 921 ; CHECK-NEXT:    ret i64 [[T15]]
 922 ;
 923   %v00 = insertelement <4 x float> undef, float %f, i32 0
 924   %v01 = insertelement <4 x float> %v00, float 0.000000e+00, i32 1
 925   %v02 = insertelement <4 x float> %v01, float 0.000000e+00, i32 2
 926   %v03 = insertelement <4 x float> %v02, float 0.000000e+00, i32 3
 927   %t0 = tail call i32 @llvm.x86.avx512.vcvtss2usi32(<4 x float> %v03, i32 4)
 928   %v10 = insertelement <4 x float> undef, float %f, i32 0
 929   %v11 = insertelement <4 x float> %v10, float 0.000000e+00, i32 1
 930   %v12 = insertelement <4 x float> %v11, float 0.000000e+00, i32 2
 931   %v13 = insertelement <4 x float> %v12, float 0.000000e+00, i32 3
 932   %t1 = tail call i64 @llvm.x86.avx512.vcvtss2usi64(<4 x float> %v13, i32 4)
 933   %v20 = insertelement <4 x float> undef, float %f, i32 0
 934   %v21 = insertelement <4 x float> %v20, float 0.000000e+00, i32 1
 935   %v22 = insertelement <4 x float> %v21, float 0.000000e+00, i32 2
 936   %v23 = insertelement <4 x float> %v22, float 0.000000e+00, i32 3
 937   %t2 = tail call i32 @llvm.x86.avx512.cvttss2usi(<4 x float> %v23, i32 4)
 938   %v30 = insertelement <4 x float> undef, float %f, i32 0
 939   %v31 = insertelement <4 x float> %v30, float 0.000000e+00, i32 1
 940   %v32 = insertelement <4 x float> %v31, float 0.000000e+00, i32 2
 941   %v33 = insertelement <4 x float> %v32, float 0.000000e+00, i32 3
 942   %t3 = tail call i64 @llvm.x86.avx512.cvttss2usi64(<4 x float> %v33, i32 4)
 943   %v40 = insertelement <2 x double> undef, double %d, i32 0
 944   %v41 = insertelement <2 x double> %v40, double 0.000000e+00, i32 1
 945   %t4 = tail call i32 @llvm.x86.avx512.vcvtsd2usi32(<2 x double> %v41, i32 4)
 946   %v50 = insertelement <2 x double> undef, double %d, i32 0
 947   %v51 = insertelement <2 x double> %v50, double 0.000000e+00, i32 1
 948   %t5 = tail call i64 @llvm.x86.avx512.vcvtsd2usi64(<2 x double> %v51, i32 4)
 949   %v60 = insertelement <2 x double> undef, double %d, i32 0
 950   %v61 = insertelement <2 x double> %v60, double 0.000000e+00, i32 1
 951   %t6 = tail call i32 @llvm.x86.avx512.cvttsd2usi(<2 x double> %v61, i32 4)
 952   %v70 = insertelement <2 x double> undef, double %d, i32 0
 953   %v71 = insertelement <2 x double> %v70, double 0.000000e+00, i32 1
 954   %t7 = tail call i64 @llvm.x86.avx512.cvttsd2usi64(<2 x double> %v71, i32 4)
 955   %t8 = add i32 %t0, %t2
 956   %t9 = add i32 %t4, %t6
 957   %t10 = add i32 %t8, %t9
 958   %t11 = sext i32 %t10 to i64
 959   %t12 = add i64 %t1, %t3
 960   %t13 = add i64 %t5, %t7
 961   %t14 = add i64 %t12, %t13
 962   %t15 = add i64 %t11, %t14
 963   ret i64 %t15
 964 }
 965
 966 declare i32 @llvm.x86.avx512.vcvtss2usi32(<4 x float>, i32)
 967 declare i64 @llvm.x86.avx512.vcvtss2usi64(<4 x float>, i32)
 968 declare i32 @llvm.x86.avx512.cvttss2usi(<4 x float>, i32)
 969 declare i64 @llvm.x86.avx512.cvttss2usi64(<4 x float>, i32)
 970 declare i32 @llvm.x86.avx512.vcvtsd2usi32(<2 x double>, i32)
 971 declare i64 @llvm.x86.avx512.vcvtsd2usi64(<2 x double>, i32)
 972 declare i32 @llvm.x86.avx512.cvttsd2usi(<2 x double>, i32)
 973 declare i64 @llvm.x86.avx512.cvttsd2usi64(<2 x double>, i32)
 974
 975 declare float @llvm.fma.f32(float, float, float) #1
 976
 977 define <4 x float> @test_mask_vfmadd_ss(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
 978 ;
 979 ; CHECK-LABEL: @test_mask_vfmadd_ss(
 980 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
 981 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
 982 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
 983 ; CHECK-NEXT:    [[TMP4:%.*]] = call float @llvm.fma.f32(float [[TMP1]], float [[TMP2]], float [[TMP3]])
 984 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
 985 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
 986 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float [[TMP1]], float [[TMP4]]
 987 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <4 x float> [[A]], float [[TMP6]], i64 0
 988 ; CHECK-NEXT:    ret <4 x float> [[TMP7]]
 989 ;
 990   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
 991   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
 992   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
 993   %4 = insertelement <4 x float> %c, float 4.000000e+00, i32 1
 994   %5 = insertelement <4 x float> %4, float 5.000000e+00, i32 2
 995   %6 = insertelement <4 x float> %5, float 6.000000e+00, i32 3
 996   %7 = extractelement <4 x float> %a, i64 0
 997   %8 = extractelement <4 x float> %3, i64 0
 998   %9 = extractelement <4 x float> %6, i64 0
 999   %10 = call float @llvm.fma.f32(float %7, float %8, float %9)
1000   %11 = bitcast i8 %mask to <8 x i1>
1001   %12 = extractelement <8 x i1> %11, i64 0
1002   %13 = select i1 %12, float %10, float %7
1003   %14 = insertelement <4 x float> %a, float %13, i64 0
1004   ret <4 x float> %14
1005 }
1006
1007 define float @test_mask_vfmadd_ss_0(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1008 ;
1009 ; CHECK-LABEL: @test_mask_vfmadd_ss_0(
1010 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1011 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1012 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1013 ; CHECK-NEXT:    [[TMP4:%.*]] = call float @llvm.fma.f32(float [[TMP1]], float [[TMP2]], float [[TMP3]])
1014 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1015 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1016 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float [[TMP1]], float [[TMP4]]
1017 ; CHECK-NEXT:    ret float [[TMP6]]
1018 ;
1019   %1 = insertelement <4 x float> %a, float 1.000000e+00, i32 1
1020   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1021   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1022   %4 = extractelement <4 x float> %3, i64 0
1023   %5 = extractelement <4 x float> %b, i64 0
1024   %6 = extractelement <4 x float> %c, i64 0
1025   %7 = call float @llvm.fma.f32(float %4, float %5, float %6)
1026   %8 = bitcast i8 %mask to <8 x i1>
1027   %9 = extractelement <8 x i1> %8, i64 0
1028   %10 = select i1 %9, float %7, float %4
1029   %11 = insertelement <4 x float> %3, float %10, i64 0
1030   %12 = extractelement <4 x float> %11, i32 0
1031   ret float %12
1032 }
1033
1034 define float @test_mask_vfmadd_ss_1(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1035 ;
1036 ; CHECK-LABEL: @test_mask_vfmadd_ss_1(
1037 ; CHECK-NEXT:    ret float 1.000000e+00
1038 ;
1039   %1 = insertelement <4 x float> %a, float 1.000000e+00, i32 1
1040   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1041   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1042   %4 = extractelement <4 x float> %3, i64 0
1043   %5 = extractelement <4 x float> %b, i64 0
1044   %6 = extractelement <4 x float> %c, i64 0
1045   %7 = call float @llvm.fma.f32(float %4, float %5, float %6)
1046   %8 = bitcast i8 %mask to <8 x i1>
1047   %9 = extractelement <8 x i1> %8, i64 0
1048   %10 = select i1 %9, float %7, float %4
1049   %11 = insertelement <4 x float> %3, float %10, i64 0
1050   %12 = extractelement <4 x float> %11, i32 1
1051   ret float %12
1052 }
1053
1054 declare double @llvm.fma.f64(double, double, double) #1
1055
1056 define <2 x double> @test_mask_vfmadd_sd(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1057 ;
1058 ; CHECK-LABEL: @test_mask_vfmadd_sd(
1059 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1060 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1061 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1062 ; CHECK-NEXT:    [[TMP4:%.*]] = call double @llvm.fma.f64(double [[TMP1]], double [[TMP2]], double [[TMP3]])
1063 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1064 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1065 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double [[TMP1]], double [[TMP4]]
1066 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <2 x double> [[A]], double [[TMP6]], i64 0
1067 ; CHECK-NEXT:    ret <2 x double> [[TMP7]]
1068 ;
1069   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
1070   %2 = insertelement <2 x double> %c, double 2.000000e+00, i32 1
1071   %3 = extractelement <2 x double> %a, i64 0
1072   %4 = extractelement <2 x double> %1, i64 0
1073   %5 = extractelement <2 x double> %2, i64 0
1074   %6 = call double @llvm.fma.f64(double %3, double %4, double %5)
1075   %7 = bitcast i8 %mask to <8 x i1>
1076   %8 = extractelement <8 x i1> %7, i64 0
1077   %9 = select i1 %8, double %6, double %3
1078   %10 = insertelement <2 x double> %a, double %9, i64 0
1079   ret <2 x double> %10
1080 }
1081
1082 define double @test_mask_vfmadd_sd_0(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1083 ;
1084 ; CHECK-LABEL: @test_mask_vfmadd_sd_0(
1085 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1086 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1087 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1088 ; CHECK-NEXT:    [[TMP4:%.*]] = call double @llvm.fma.f64(double [[TMP1]], double [[TMP2]], double [[TMP3]])
1089 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1090 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1091 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double [[TMP1]], double [[TMP4]]
1092 ; CHECK-NEXT:    ret double [[TMP6]]
1093 ;
1094   %1 = insertelement <2 x double> %a, double 1.000000e+00, i32 1
1095   %2 = extractelement <2 x double> %1, i64 0
1096   %3 = extractelement <2 x double> %b, i64 0
1097   %4 = extractelement <2 x double> %c, i64 0
1098   %5 = call double @llvm.fma.f64(double %2, double %3, double %4)
1099   %6 = bitcast i8 %mask to <8 x i1>
1100   %7 = extractelement <8 x i1> %6, i64 0
1101   %8 = select i1 %7, double %5, double %2
1102   %9 = insertelement <2 x double> %1, double %8, i64 0
1103   %10 = extractelement <2 x double> %9, i32 0
1104   ret double %10
1105 }
1106
1107 define double @test_mask_vfmadd_sd_1(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1108 ;
1109 ; CHECK-LABEL: @test_mask_vfmadd_sd_1(
1110 ; CHECK-NEXT:    ret double 1.000000e+00
1111 ;
1112   %1 = insertelement <2 x double> %a, double 1.000000e+00, i32 1
1113   %2 = extractelement <2 x double> %1, i64 0
1114   %3 = extractelement <2 x double> %b, i64 0
1115   %4 = extractelement <2 x double> %c, i64 0
1116   %5 = call double @llvm.fma.f64(double %2, double %3, double %4)
1117   %6 = bitcast i8 %mask to <8 x i1>
1118   %7 = extractelement <8 x i1> %6, i64 0
1119   %8 = select i1 %7, double %5, double %2
1120   %9 = insertelement <2 x double> %1, double %8, i64 0
1121   %10 = extractelement <2 x double> %9, i32 1
1122   ret double %10
1123 }
1124
1125 define <4 x float> @test_maskz_vfmadd_ss(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1126 ;
1127 ; CHECK-LABEL: @test_maskz_vfmadd_ss(
1128 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1129 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1130 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1131 ; CHECK-NEXT:    [[TMP4:%.*]] = call float @llvm.fma.f32(float [[TMP1]], float [[TMP2]], float [[TMP3]])
1132 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1133 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1134 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float 0.000000e+00, float [[TMP4]]
1135 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <4 x float> [[A]], float [[TMP6]], i64 0
1136 ; CHECK-NEXT:    ret <4 x float> [[TMP7]]
1137 ;
1138   %1 = insertelement <4 x float> %b, float 1.000000e+00, i32 1
1139   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1140   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1141   %4 = insertelement <4 x float> %c, float 4.000000e+00, i32 1
1142   %5 = insertelement <4 x float> %4, float 5.000000e+00, i32 2
1143   %6 = insertelement <4 x float> %5, float 6.000000e+00, i32 3
1144   %7 = extractelement <4 x float> %a, i64 0
1145   %8 = extractelement <4 x float> %3, i64 0
1146   %9 = extractelement <4 x float> %6, i64 0
1147   %10 = call float @llvm.fma.f32(float %7, float %8, float %9)
1148   %11 = bitcast i8 %mask to <8 x i1>
1149   %12 = extractelement <8 x i1> %11, i64 0
1150   %13 = select i1 %12, float %10, float 0.000000e+00
1151   %14 = insertelement <4 x float> %a, float %13, i64 0
1152   ret <4 x float> %14
1153 }
1154
1155 define float @test_maskz_vfmadd_ss_0(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1156 ;
1157 ; CHECK-LABEL: @test_maskz_vfmadd_ss_0(
1158 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1159 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1160 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1161 ; CHECK-NEXT:    [[TMP4:%.*]] = call float @llvm.fma.f32(float [[TMP1]], float [[TMP2]], float [[TMP3]])
1162 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1163 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1164 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float 0.000000e+00, float [[TMP4]]
1165 ; CHECK-NEXT:    ret float [[TMP6]]
1166 ;
1167   %1 = insertelement <4 x float> %a, float 1.000000e+00, i32 1
1168   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1169   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1170   %4 = extractelement <4 x float> %3, i64 0
1171   %5 = extractelement <4 x float> %b, i64 0
1172   %6 = extractelement <4 x float> %c, i64 0
1173   %7 = call float @llvm.fma.f32(float %4, float %5, float %6)
1174   %8 = bitcast i8 %mask to <8 x i1>
1175   %9 = extractelement <8 x i1> %8, i64 0
1176   %10 = select i1 %9, float %7, float 0.000000e+00
1177   %11 = insertelement <4 x float> %3, float %10, i64 0
1178   %12 = extractelement <4 x float> %11, i32 0
1179   ret float %12
1180 }
1181
1182 define float @test_maskz_vfmadd_ss_1(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1183 ;
1184 ; CHECK-LABEL: @test_maskz_vfmadd_ss_1(
1185 ; CHECK-NEXT:    ret float 1.000000e+00
1186 ;
1187   %1 = insertelement <4 x float> %a, float 1.000000e+00, i32 1
1188   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1189   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1190   %4 = extractelement <4 x float> %3, i64 0
1191   %5 = extractelement <4 x float> %b, i64 0
1192   %6 = extractelement <4 x float> %c, i64 0
1193   %7 = call float @llvm.fma.f32(float %4, float %5, float %6)
1194   %8 = bitcast i8 %mask to <8 x i1>
1195   %9 = extractelement <8 x i1> %8, i64 0
1196   %10 = select i1 %9, float %7, float 0.000000e+00
1197   %11 = insertelement <4 x float> %3, float %10, i64 0
1198   %12 = extractelement <4 x float> %11, i32 1
1199   ret float %12
1200 }
1201
1202 define <2 x double> @test_maskz_vfmadd_sd(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1203 ;
1204 ; CHECK-LABEL: @test_maskz_vfmadd_sd(
1205 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1206 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1207 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1208 ; CHECK-NEXT:    [[TMP4:%.*]] = call double @llvm.fma.f64(double [[TMP1]], double [[TMP2]], double [[TMP3]])
1209 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1210 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1211 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double 0.000000e+00, double [[TMP4]]
1212 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <2 x double> [[A]], double [[TMP6]], i64 0
1213 ; CHECK-NEXT:    ret <2 x double> [[TMP7]]
1214 ;
1215   %1 = insertelement <2 x double> %b, double 1.000000e+00, i32 1
1216   %2 = insertelement <2 x double> %c, double 2.000000e+00, i32 1
1217   %3 = extractelement <2 x double> %a, i64 0
1218   %4 = extractelement <2 x double> %1, i64 0
1219   %5 = extractelement <2 x double> %2, i64 0
1220   %6 = call double @llvm.fma.f64(double %3, double %4, double %5)
1221   %7 = bitcast i8 %mask to <8 x i1>
1222   %8 = extractelement <8 x i1> %7, i64 0
1223   %9 = select i1 %8, double %6, double 0.000000e+00
1224   %10 = insertelement <2 x double> %a, double %9, i64 0
1225   ret <2 x double> %10
1226 }
1227
1228 define double @test_maskz_vfmadd_sd_0(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1229 ;
1230 ; CHECK-LABEL: @test_maskz_vfmadd_sd_0(
1231 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1232 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1233 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1234 ; CHECK-NEXT:    [[TMP4:%.*]] = call double @llvm.fma.f64(double [[TMP1]], double [[TMP2]], double [[TMP3]])
1235 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1236 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1237 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double 0.000000e+00, double [[TMP4]]
1238 ; CHECK-NEXT:    ret double [[TMP6]]
1239 ;
1240   %1 = insertelement <2 x double> %a, double 1.000000e+00, i32 1
1241   %2 = extractelement <2 x double> %1, i64 0
1242   %3 = extractelement <2 x double> %b, i64 0
1243   %4 = extractelement <2 x double> %c, i64 0
1244   %5 = call double @llvm.fma.f64(double %2, double %3, double %4)
1245   %6 = bitcast i8 %mask to <8 x i1>
1246   %7 = extractelement <8 x i1> %6, i64 0
1247   %8 = select i1 %7, double %5, double 0.000000e+00
1248   %9 = insertelement <2 x double> %1, double %8, i64 0
1249   %10 = extractelement <2 x double> %9, i32 0
1250   ret double %10
1251 }
1252
1253 define double @test_maskz_vfmadd_sd_1(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1254 ;
1255 ; CHECK-LABEL: @test_maskz_vfmadd_sd_1(
1256 ; CHECK-NEXT:    ret double 1.000000e+00
1257 ;
1258   %1 = insertelement <2 x double> %a, double 1.000000e+00, i32 1
1259   %2 = extractelement <2 x double> %1, i64 0
1260   %3 = extractelement <2 x double> %b, i64 0
1261   %4 = extractelement <2 x double> %c, i64 0
1262   %5 = call double @llvm.fma.f64(double %2, double %3, double %4)
1263   %6 = bitcast i8 %mask to <8 x i1>
1264   %7 = extractelement <8 x i1> %6, i64 0
1265   %8 = select i1 %7, double %5, double 0.000000e+00
1266   %9 = insertelement <2 x double> %1, double %8, i64 0
1267   %10 = extractelement <2 x double> %9, i32 1
1268   ret double %10
1269 }
1270
1271 define <4 x float> @test_mask3_vfmadd_ss(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1272 ;
1273 ; CHECK-LABEL: @test_mask3_vfmadd_ss(
1274 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1275 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1276 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1277 ; CHECK-NEXT:    [[TMP4:%.*]] = call float @llvm.fma.f32(float [[TMP1]], float [[TMP2]], float [[TMP3]])
1278 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1279 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1280 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float [[TMP3]], float [[TMP4]]
1281 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <4 x float> [[C]], float [[TMP6]], i64 0
1282 ; CHECK-NEXT:    ret <4 x float> [[TMP7]]
1283 ;
1284   %1 = insertelement <4 x float> %a, float 1.000000e+00, i32 1
1285   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1286   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1287   %4 = insertelement <4 x float> %b, float 4.000000e+00, i32 1
1288   %5 = insertelement <4 x float> %4, float 5.000000e+00, i32 2
1289   %6 = insertelement <4 x float> %5, float 6.000000e+00, i32 3
1290   %7 = extractelement <4 x float> %3, i64 0
1291   %8 = extractelement <4 x float> %6, i64 0
1292   %9 = extractelement <4 x float> %c, i64 0
1293   %10 = call float @llvm.fma.f32(float %7, float %8, float %9)
1294   %11 = bitcast i8 %mask to <8 x i1>
1295   %12 = extractelement <8 x i1> %11, i64 0
1296   %13 = select i1 %12, float %10, float %9
1297   %14 = insertelement <4 x float> %c, float %13, i64 0
1298   ret <4 x float> %14
1299 }
1300
1301 define float @test_mask3_vfmadd_ss_0(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1302 ;
1303 ; CHECK-LABEL: @test_mask3_vfmadd_ss_0(
1304 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1305 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1306 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1307 ; CHECK-NEXT:    [[TMP4:%.*]] = call float @llvm.fma.f32(float [[TMP1]], float [[TMP2]], float [[TMP3]])
1308 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1309 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1310 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], float [[TMP3]], float [[TMP4]]
1311 ; CHECK-NEXT:    ret float [[TMP6]]
1312 ;
1313   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
1314   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1315   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1316   %4 = extractelement <4 x float> %a, i64 0
1317   %5 = extractelement <4 x float> %b, i64 0
1318   %6 = extractelement <4 x float> %3, i64 0
1319   %7 = call float @llvm.fma.f32(float %4, float %5, float %6)
1320   %8 = bitcast i8 %mask to <8 x i1>
1321   %9 = extractelement <8 x i1> %8, i64 0
1322   %10 = select i1 %9, float %7, float %6
1323   %11 = insertelement <4 x float> %3, float %10, i64 0
1324   %12 = extractelement <4 x float> %11, i32 0
1325   ret float %12
1326 }
1327
1328 define float @test_mask3_vfmadd_ss_1(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1329 ;
1330 ; CHECK-LABEL: @test_mask3_vfmadd_ss_1(
1331 ; CHECK-NEXT:    ret float 1.000000e+00
1332 ;
1333   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
1334   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1335   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1336   %4 = extractelement <4 x float> %a, i64 0
1337   %5 = extractelement <4 x float> %b, i64 0
1338   %6 = extractelement <4 x float> %3, i64 0
1339   %7 = call float @llvm.fma.f32(float %4, float %5, float %6)
1340   %8 = bitcast i8 %mask to <8 x i1>
1341   %9 = extractelement <8 x i1> %8, i64 0
1342   %10 = select i1 %9, float %7, float %6
1343   %11 = insertelement <4 x float> %3, float %10, i64 0
1344   %12 = extractelement <4 x float> %11, i32 1
1345   ret float %12
1346 }
1347
1348 define <2 x double> @test_mask3_vfmadd_sd(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1349 ;
1350 ; CHECK-LABEL: @test_mask3_vfmadd_sd(
1351 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1352 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1353 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1354 ; CHECK-NEXT:    [[TMP4:%.*]] = call double @llvm.fma.f64(double [[TMP1]], double [[TMP2]], double [[TMP3]])
1355 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1356 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1357 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double [[TMP3]], double [[TMP4]]
1358 ; CHECK-NEXT:    [[TMP7:%.*]] = insertelement <2 x double> [[C]], double [[TMP6]], i64 0
1359 ; CHECK-NEXT:    ret <2 x double> [[TMP7]]
1360 ;
1361   %1 = insertelement <2 x double> %a, double 1.000000e+00, i32 1
1362   %2 = insertelement <2 x double> %b, double 2.000000e+00, i32 1
1363   %3 = extractelement <2 x double> %1, i64 0
1364   %4 = extractelement <2 x double> %2, i64 0
1365   %5 = extractelement <2 x double> %c, i64 0
1366   %6 = call double @llvm.fma.f64(double %3, double %4, double %5)
1367   %7 = bitcast i8 %mask to <8 x i1>
1368   %8 = extractelement <8 x i1> %7, i64 0
1369   %9 = select i1 %8, double %6, double %5
1370   %10 = insertelement <2 x double> %c, double %9, i64 0
1371   ret <2 x double> %10
1372 }
1373
1374 define double @test_mask3_vfmadd_sd_0(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1375 ;
1376 ; CHECK-LABEL: @test_mask3_vfmadd_sd_0(
1377 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1378 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1379 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1380 ; CHECK-NEXT:    [[TMP4:%.*]] = call double @llvm.fma.f64(double [[TMP1]], double [[TMP2]], double [[TMP3]])
1381 ; CHECK-NEXT:    [[TMP5:%.*]] = and i8 [[MASK:%.*]], 1
1382 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP5]], 0
1383 ; CHECK-NEXT:    [[TMP6:%.*]] = select i1 [[DOTNOT]], double [[TMP3]], double [[TMP4]]
1384 ; CHECK-NEXT:    ret double [[TMP6]]
1385 ;
1386   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
1387   %2 = extractelement <2 x double> %a, i64 0
1388   %3 = extractelement <2 x double> %b, i64 0
1389   %4 = extractelement <2 x double> %1, i64 0
1390   %5 = call double @llvm.fma.f64(double %2, double %3, double %4)
1391   %6 = bitcast i8 %mask to <8 x i1>
1392   %7 = extractelement <8 x i1> %6, i64 0
1393   %8 = select i1 %7, double %5, double %4
1394   %9 = insertelement <2 x double> %1, double %8, i64 0
1395   %10 = extractelement <2 x double> %9, i32 0
1396   ret double %10
1397 }
1398
1399 define double @test_mask3_vfmadd_sd_1(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1400 ;
1401 ; CHECK-LABEL: @test_mask3_vfmadd_sd_1(
1402 ; CHECK-NEXT:    ret double 1.000000e+00
1403 ;
1404   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
1405   %2 = extractelement <2 x double> %a, i64 0
1406   %3 = extractelement <2 x double> %b, i64 0
1407   %4 = extractelement <2 x double> %1, i64 0
1408   %5 = call double @llvm.fma.f64(double %2, double %3, double %4)
1409   %6 = bitcast i8 %mask to <8 x i1>
1410   %7 = extractelement <8 x i1> %6, i64 0
1411   %8 = select i1 %7, double %5, double %4
1412   %9 = insertelement <2 x double> %1, double %8, i64 0
1413   %10 = extractelement <2 x double> %9, i32 1
1414   ret double %10
1415 }
1416
1417 define <4 x float> @test_mask3_vfmsub_ss(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1418 ;
1419 ; CHECK-LABEL: @test_mask3_vfmsub_ss(
1420 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1421 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1422 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1423 ; CHECK-NEXT:    [[TMP4:%.*]] = fneg float [[TMP3]]
1424 ; CHECK-NEXT:    [[TMP5:%.*]] = call float @llvm.fma.f32(float [[TMP1]], float [[TMP2]], float [[TMP4]])
1425 ; CHECK-NEXT:    [[TMP6:%.*]] = extractelement <4 x float> [[C]], i64 0
1426 ; CHECK-NEXT:    [[TMP7:%.*]] = and i8 [[MASK:%.*]], 1
1427 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP7]], 0
1428 ; CHECK-NEXT:    [[TMP8:%.*]] = select i1 [[DOTNOT]], float [[TMP6]], float [[TMP5]]
1429 ; CHECK-NEXT:    [[TMP9:%.*]] = insertelement <4 x float> [[C]], float [[TMP8]], i64 0
1430 ; CHECK-NEXT:    ret <4 x float> [[TMP9]]
1431 ;
1432   %1 = insertelement <4 x float> %a, float 1.000000e+00, i32 1
1433   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1434   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1435   %4 = insertelement <4 x float> %b, float 4.000000e+00, i32 1
1436   %5 = insertelement <4 x float> %4, float 5.000000e+00, i32 2
1437   %6 = insertelement <4 x float> %5, float 6.000000e+00, i32 3
1438   %7 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %c
1439   %8 = extractelement <4 x float> %3, i64 0
1440   %9 = extractelement <4 x float> %6, i64 0
1441   %10 = extractelement <4 x float> %7, i64 0
1442   %11 = call float @llvm.fma.f32(float %8, float %9, float %10)
1443   %12 = extractelement <4 x float> %c, i64 0
1444   %13 = bitcast i8 %mask to <8 x i1>
1445   %14 = extractelement <8 x i1> %13, i64 0
1446   %15 = select i1 %14, float %11, float %12
1447   %16 = insertelement <4 x float> %c, float %15, i64 0
1448   ret <4 x float> %16
1449 }
1450
1451 define float @test_mask3_vfmsub_ss_0(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1452 ;
1453 ; CHECK-LABEL: @test_mask3_vfmsub_ss_0(
1454 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1455 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1456 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1457 ; CHECK-NEXT:    [[TMP4:%.*]] = fneg float [[TMP3]]
1458 ; CHECK-NEXT:    [[TMP5:%.*]] = call float @llvm.fma.f32(float [[TMP1]], float [[TMP2]], float [[TMP4]])
1459 ; CHECK-NEXT:    [[TMP6:%.*]] = extractelement <4 x float> [[C]], i64 0
1460 ; CHECK-NEXT:    [[TMP7:%.*]] = and i8 [[MASK:%.*]], 1
1461 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP7]], 0
1462 ; CHECK-NEXT:    [[TMP8:%.*]] = select i1 [[DOTNOT]], float [[TMP6]], float [[TMP5]]
1463 ; CHECK-NEXT:    ret float [[TMP8]]
1464 ;
1465   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
1466   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1467   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1468   %4 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %3
1469   %5 = extractelement <4 x float> %a, i64 0
1470   %6 = extractelement <4 x float> %b, i64 0
1471   %7 = extractelement <4 x float> %4, i64 0
1472   %8 = call float @llvm.fma.f32(float %5, float %6, float %7)
1473   %9 = extractelement <4 x float> %3, i64 0
1474   %10 = bitcast i8 %mask to <8 x i1>
1475   %11 = extractelement <8 x i1> %10, i64 0
1476   %12 = select i1 %11, float %8, float %9
1477   %13 = insertelement <4 x float> %3, float %12, i64 0
1478   %14 = extractelement <4 x float> %13, i32 0
1479   ret float %14
1480 }
1481
1482 define float @test_mask3_vfmsub_ss_1(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1483 ;
1484 ; CHECK-LABEL: @test_mask3_vfmsub_ss_1(
1485 ; CHECK-NEXT:    ret float 1.000000e+00
1486 ;
1487   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
1488   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1489   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1490   %4 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %3
1491   %5 = extractelement <4 x float> %a, i64 0
1492   %6 = extractelement <4 x float> %b, i64 0
1493   %7 = extractelement <4 x float> %4, i64 0
1494   %8 = call float @llvm.fma.f32(float %5, float %6, float %7)
1495   %9 = extractelement <4 x float> %3, i64 0
1496   %10 = bitcast i8 %mask to <8 x i1>
1497   %11 = extractelement <8 x i1> %10, i64 0
1498   %12 = select i1 %11, float %8, float %9
1499   %13 = insertelement <4 x float> %3, float %12, i64 0
1500   %14 = extractelement <4 x float> %13, i32 1
1501   ret float %14
1502 }
1503
1504 define float @test_mask3_vfmsub_ss_1_unary_fneg(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1505 ;
1506 ; CHECK-LABEL: @test_mask3_vfmsub_ss_1_unary_fneg(
1507 ; CHECK-NEXT:    ret float 1.000000e+00
1508 ;
1509   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
1510   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1511   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1512   %4 = fneg <4 x float> %3
1513   %5 = extractelement <4 x float> %a, i64 0
1514   %6 = extractelement <4 x float> %b, i64 0
1515   %7 = extractelement <4 x float> %4, i64 0
1516   %8 = call float @llvm.fma.f32(float %5, float %6, float %7)
1517   %9 = extractelement <4 x float> %3, i64 0
1518   %10 = bitcast i8 %mask to <8 x i1>
1519   %11 = extractelement <8 x i1> %10, i64 0
1520   %12 = select i1 %11, float %8, float %9
1521   %13 = insertelement <4 x float> %3, float %12, i64 0
1522   %14 = extractelement <4 x float> %13, i32 1
1523   ret float %14
1524 }
1525
1526 define <2 x double> @test_mask3_vfmsub_sd(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1527 ;
1528 ; CHECK-LABEL: @test_mask3_vfmsub_sd(
1529 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1530 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1531 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1532 ; CHECK-NEXT:    [[TMP4:%.*]] = fneg double [[TMP3]]
1533 ; CHECK-NEXT:    [[TMP5:%.*]] = call double @llvm.fma.f64(double [[TMP1]], double [[TMP2]], double [[TMP4]])
1534 ; CHECK-NEXT:    [[TMP6:%.*]] = extractelement <2 x double> [[C]], i64 0
1535 ; CHECK-NEXT:    [[TMP7:%.*]] = and i8 [[MASK:%.*]], 1
1536 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP7]], 0
1537 ; CHECK-NEXT:    [[TMP8:%.*]] = select i1 [[DOTNOT]], double [[TMP6]], double [[TMP5]]
1538 ; CHECK-NEXT:    [[TMP9:%.*]] = insertelement <2 x double> [[C]], double [[TMP8]], i64 0
1539 ; CHECK-NEXT:    ret <2 x double> [[TMP9]]
1540 ;
1541   %1 = insertelement <2 x double> %a, double 1.000000e+00, i32 1
1542   %2 = insertelement <2 x double> %b, double 2.000000e+00, i32 1
1543   %3 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %c
1544   %4 = extractelement <2 x double> %1, i64 0
1545   %5 = extractelement <2 x double> %2, i64 0
1546   %6 = extractelement <2 x double> %3, i64 0
1547   %7 = call double @llvm.fma.f64(double %4, double %5, double %6)
1548   %8 = extractelement <2 x double> %c, i64 0
1549   %9 = bitcast i8 %mask to <8 x i1>
1550   %10 = extractelement <8 x i1> %9, i64 0
1551   %11 = select i1 %10, double %7, double %8
1552   %12 = insertelement <2 x double> %c, double %11, i64 0
1553   ret <2 x double> %12
1554 }
1555
1556 define double @test_mask3_vfmsub_sd_0(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1557 ;
1558 ; CHECK-LABEL: @test_mask3_vfmsub_sd_0(
1559 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1560 ; CHECK-NEXT:    [[TMP2:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1561 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1562 ; CHECK-NEXT:    [[TMP4:%.*]] = fneg double [[TMP3]]
1563 ; CHECK-NEXT:    [[TMP5:%.*]] = call double @llvm.fma.f64(double [[TMP1]], double [[TMP2]], double [[TMP4]])
1564 ; CHECK-NEXT:    [[TMP6:%.*]] = extractelement <2 x double> [[C]], i64 0
1565 ; CHECK-NEXT:    [[TMP7:%.*]] = and i8 [[MASK:%.*]], 1
1566 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP7]], 0
1567 ; CHECK-NEXT:    [[TMP8:%.*]] = select i1 [[DOTNOT]], double [[TMP6]], double [[TMP5]]
1568 ; CHECK-NEXT:    ret double [[TMP8]]
1569 ;
1570   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
1571   %2 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %1
1572   %3 = extractelement <2 x double> %a, i64 0
1573   %4 = extractelement <2 x double> %b, i64 0
1574   %5 = extractelement <2 x double> %2, i64 0
1575   %6 = call double @llvm.fma.f64(double %3, double %4, double %5)
1576   %7 = extractelement <2 x double> %1, i64 0
1577   %8 = bitcast i8 %mask to <8 x i1>
1578   %9 = extractelement <8 x i1> %8, i64 0
1579   %10 = select i1 %9, double %6, double %7
1580   %11 = insertelement <2 x double> %1, double %10, i64 0
1581   %12 = extractelement <2 x double> %11, i32 0
1582   ret double %12
1583 }
1584
1585 define double @test_mask3_vfmsub_sd_1(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1586 ;
1587 ; CHECK-LABEL: @test_mask3_vfmsub_sd_1(
1588 ; CHECK-NEXT:    ret double 1.000000e+00
1589 ;
1590   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
1591   %2 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %1
1592   %3 = extractelement <2 x double> %a, i64 0
1593   %4 = extractelement <2 x double> %b, i64 0
1594   %5 = extractelement <2 x double> %2, i64 0
1595   %6 = call double @llvm.fma.f64(double %3, double %4, double %5)
1596   %7 = extractelement <2 x double> %1, i64 0
1597   %8 = bitcast i8 %mask to <8 x i1>
1598   %9 = extractelement <8 x i1> %8, i64 0
1599   %10 = select i1 %9, double %6, double %7
1600   %11 = insertelement <2 x double> %1, double %10, i64 0
1601   %12 = extractelement <2 x double> %11, i32 1
1602   ret double %12
1603 }
1604
1605 define double @test_mask3_vfmsub_sd_1_unary_fneg(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1606 ;
1607 ; CHECK-LABEL: @test_mask3_vfmsub_sd_1_unary_fneg(
1608 ; CHECK-NEXT:    ret double 1.000000e+00
1609 ;
1610   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
1611   %2 = fneg <2 x double> %1
1612   %3 = extractelement <2 x double> %a, i64 0
1613   %4 = extractelement <2 x double> %b, i64 0
1614   %5 = extractelement <2 x double> %2, i64 0
1615   %6 = call double @llvm.fma.f64(double %3, double %4, double %5)
1616   %7 = extractelement <2 x double> %1, i64 0
1617   %8 = bitcast i8 %mask to <8 x i1>
1618   %9 = extractelement <8 x i1> %8, i64 0
1619   %10 = select i1 %9, double %6, double %7
1620   %11 = insertelement <2 x double> %1, double %10, i64 0
1621   %12 = extractelement <2 x double> %11, i32 1
1622   ret double %12
1623 }
1624
1625 define <4 x float> @test_mask3_vfnmsub_ss(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1626 ;
1627 ; CHECK-LABEL: @test_mask3_vfnmsub_ss(
1628 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1629 ; CHECK-NEXT:    [[TMP2:%.*]] = fneg float [[TMP1]]
1630 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1631 ; CHECK-NEXT:    [[TMP4:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1632 ; CHECK-NEXT:    [[TMP5:%.*]] = fneg float [[TMP4]]
1633 ; CHECK-NEXT:    [[TMP6:%.*]] = call float @llvm.fma.f32(float [[TMP2]], float [[TMP3]], float [[TMP5]])
1634 ; CHECK-NEXT:    [[TMP7:%.*]] = extractelement <4 x float> [[C]], i64 0
1635 ; CHECK-NEXT:    [[TMP8:%.*]] = and i8 [[MASK:%.*]], 1
1636 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP8]], 0
1637 ; CHECK-NEXT:    [[TMP9:%.*]] = select i1 [[DOTNOT]], float [[TMP7]], float [[TMP6]]
1638 ; CHECK-NEXT:    [[TMP10:%.*]] = insertelement <4 x float> [[C]], float [[TMP9]], i64 0
1639 ; CHECK-NEXT:    ret <4 x float> [[TMP10]]
1640 ;
1641   %1 = insertelement <4 x float> %a, float 1.000000e+00, i32 1
1642   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1643   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1644   %4 = insertelement <4 x float> %b, float 4.000000e+00, i32 1
1645   %5 = insertelement <4 x float> %4, float 5.000000e+00, i32 2
1646   %6 = insertelement <4 x float> %5, float 6.000000e+00, i32 3
1647   %7 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %3
1648   %8 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %c
1649   %9 = extractelement <4 x float> %7, i64 0
1650   %10 = extractelement <4 x float> %6, i64 0
1651   %11 = extractelement <4 x float> %8, i64 0
1652   %12 = call float @llvm.fma.f32(float %9, float %10, float %11)
1653   %13 = extractelement <4 x float> %c, i64 0
1654   %14 = bitcast i8 %mask to <8 x i1>
1655   %15 = extractelement <8 x i1> %14, i64 0
1656   %16 = select i1 %15, float %12, float %13
1657   %17 = insertelement <4 x float> %c, float %16, i64 0
1658   ret <4 x float> %17
1659 }
1660
1661 define float @test_mask3_vfnmsub_ss_0(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1662 ;
1663 ; CHECK-LABEL: @test_mask3_vfnmsub_ss_0(
1664 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <4 x float> [[A:%.*]], i64 0
1665 ; CHECK-NEXT:    [[TMP2:%.*]] = fneg float [[TMP1]]
1666 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <4 x float> [[B:%.*]], i64 0
1667 ; CHECK-NEXT:    [[TMP4:%.*]] = extractelement <4 x float> [[C:%.*]], i64 0
1668 ; CHECK-NEXT:    [[TMP5:%.*]] = fneg float [[TMP4]]
1669 ; CHECK-NEXT:    [[TMP6:%.*]] = call float @llvm.fma.f32(float [[TMP2]], float [[TMP3]], float [[TMP5]])
1670 ; CHECK-NEXT:    [[TMP7:%.*]] = extractelement <4 x float> [[C]], i64 0
1671 ; CHECK-NEXT:    [[TMP8:%.*]] = and i8 [[MASK:%.*]], 1
1672 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP8]], 0
1673 ; CHECK-NEXT:    [[TMP9:%.*]] = select i1 [[DOTNOT]], float [[TMP7]], float [[TMP6]]
1674 ; CHECK-NEXT:    ret float [[TMP9]]
1675 ;
1676   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
1677   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1678   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1679   %4 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %a
1680   %5 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %3
1681   %6 = extractelement <4 x float> %4, i64 0
1682   %7 = extractelement <4 x float> %b, i64 0
1683   %8 = extractelement <4 x float> %5, i64 0
1684   %9 = call float @llvm.fma.f32(float %6, float %7, float %8)
1685   %10 = extractelement <4 x float> %3, i64 0
1686   %11 = bitcast i8 %mask to <8 x i1>
1687   %12 = extractelement <8 x i1> %11, i64 0
1688   %13 = select i1 %12, float %9, float %10
1689   %14 = insertelement <4 x float> %3, float %13, i64 0
1690   %15 = extractelement <4 x float> %14, i32 0
1691   ret float %15
1692 }
1693
1694 define float @test_mask3_vfnmsub_ss_1(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1695 ;
1696 ; CHECK-LABEL: @test_mask3_vfnmsub_ss_1(
1697 ; CHECK-NEXT:    ret float 1.000000e+00
1698 ;
1699   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
1700   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1701   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1702   %4 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %a
1703   %5 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %3
1704   %6 = extractelement <4 x float> %4, i64 0
1705   %7 = extractelement <4 x float> %b, i64 0
1706   %8 = extractelement <4 x float> %5, i64 0
1707   %9 = call float @llvm.fma.f32(float %6, float %7, float %8)
1708   %10 = extractelement <4 x float> %3, i64 0
1709   %11 = bitcast i8 %mask to <8 x i1>
1710   %12 = extractelement <8 x i1> %11, i64 0
1711   %13 = select i1 %12, float %9, float %10
1712   %14 = insertelement <4 x float> %3, float %13, i64 0
1713   %15 = extractelement <4 x float> %14, i32 1
1714   ret float %15
1715 }
1716
1717 define float @test_mask3_vfnmsub_ss_1_unary_fneg(<4 x float> %a, <4 x float> %b, <4 x float> %c, i8 %mask) {
1718 ;
1719 ; CHECK-LABEL: @test_mask3_vfnmsub_ss_1_unary_fneg(
1720 ; CHECK-NEXT:    ret float 1.000000e+00
1721 ;
1722   %1 = insertelement <4 x float> %c, float 1.000000e+00, i32 1
1723   %2 = insertelement <4 x float> %1, float 2.000000e+00, i32 2
1724   %3 = insertelement <4 x float> %2, float 3.000000e+00, i32 3
1725   %4 = fneg <4 x float> %a
1726   %5 = fneg <4 x float> %3
1727   %6 = extractelement <4 x float> %4, i64 0
1728   %7 = extractelement <4 x float> %b, i64 0
1729   %8 = extractelement <4 x float> %5, i64 0
1730   %9 = call float @llvm.fma.f32(float %6, float %7, float %8)
1731   %10 = extractelement <4 x float> %3, i64 0
1732   %11 = bitcast i8 %mask to <8 x i1>
1733   %12 = extractelement <8 x i1> %11, i64 0
1734   %13 = select i1 %12, float %9, float %10
1735   %14 = insertelement <4 x float> %3, float %13, i64 0
1736   %15 = extractelement <4 x float> %14, i32 1
1737   ret float %15
1738 }
1739
1740 define <2 x double> @test_mask3_vfnmsub_sd(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1741 ;
1742 ; CHECK-LABEL: @test_mask3_vfnmsub_sd(
1743 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1744 ; CHECK-NEXT:    [[TMP2:%.*]] = fneg double [[TMP1]]
1745 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1746 ; CHECK-NEXT:    [[TMP4:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1747 ; CHECK-NEXT:    [[TMP5:%.*]] = fneg double [[TMP4]]
1748 ; CHECK-NEXT:    [[TMP6:%.*]] = call double @llvm.fma.f64(double [[TMP2]], double [[TMP3]], double [[TMP5]])
1749 ; CHECK-NEXT:    [[TMP7:%.*]] = extractelement <2 x double> [[C]], i64 0
1750 ; CHECK-NEXT:    [[TMP8:%.*]] = and i8 [[MASK:%.*]], 1
1751 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP8]], 0
1752 ; CHECK-NEXT:    [[TMP9:%.*]] = select i1 [[DOTNOT]], double [[TMP7]], double [[TMP6]]
1753 ; CHECK-NEXT:    [[TMP10:%.*]] = insertelement <2 x double> [[C]], double [[TMP9]], i64 0
1754 ; CHECK-NEXT:    ret <2 x double> [[TMP10]]
1755 ;
1756   %1 = insertelement <2 x double> %a, double 1.000000e+00, i32 1
1757   %2 = insertelement <2 x double> %b, double 2.000000e+00, i32 1
1758   %3 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %1
1759   %4 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %c
1760   %5 = extractelement <2 x double> %3, i64 0
1761   %6 = extractelement <2 x double> %2, i64 0
1762   %7 = extractelement <2 x double> %4, i64 0
1763   %8 = call double @llvm.fma.f64(double %5, double %6, double %7)
1764   %9 = extractelement <2 x double> %c, i64 0
1765   %10 = bitcast i8 %mask to <8 x i1>
1766   %11 = extractelement <8 x i1> %10, i64 0
1767   %12 = select i1 %11, double %8, double %9
1768   %13 = insertelement <2 x double> %c, double %12, i64 0
1769   ret <2 x double> %13
1770 }
1771
1772 define double @test_mask3_vfnmsub_sd_0(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1773 ;
1774 ; CHECK-LABEL: @test_mask3_vfnmsub_sd_0(
1775 ; CHECK-NEXT:    [[TMP1:%.*]] = extractelement <2 x double> [[A:%.*]], i64 0
1776 ; CHECK-NEXT:    [[TMP2:%.*]] = fneg double [[TMP1]]
1777 ; CHECK-NEXT:    [[TMP3:%.*]] = extractelement <2 x double> [[B:%.*]], i64 0
1778 ; CHECK-NEXT:    [[TMP4:%.*]] = extractelement <2 x double> [[C:%.*]], i64 0
1779 ; CHECK-NEXT:    [[TMP5:%.*]] = fneg double [[TMP4]]
1780 ; CHECK-NEXT:    [[TMP6:%.*]] = call double @llvm.fma.f64(double [[TMP2]], double [[TMP3]], double [[TMP5]])
1781 ; CHECK-NEXT:    [[TMP7:%.*]] = extractelement <2 x double> [[C]], i64 0
1782 ; CHECK-NEXT:    [[TMP8:%.*]] = and i8 [[MASK:%.*]], 1
1783 ; CHECK-NEXT:    [[DOTNOT:%.*]] = icmp eq i8 [[TMP8]], 0
1784 ; CHECK-NEXT:    [[TMP9:%.*]] = select i1 [[DOTNOT]], double [[TMP7]], double [[TMP6]]
1785 ; CHECK-NEXT:    ret double [[TMP9]]
1786 ;
1787   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
1788   %2 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %a
1789   %3 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %1
1790   %4 = extractelement <2 x double> %2, i64 0
1791   %5 = extractelement <2 x double> %b, i64 0
1792   %6 = extractelement <2 x double> %3, i64 0
1793   %7 = call double @llvm.fma.f64(double %4, double %5, double %6)
1794   %8 = extractelement <2 x double> %1, i64 0
1795   %9 = bitcast i8 %mask to <8 x i1>
1796   %10 = extractelement <8 x i1> %9, i64 0
1797   %11 = select i1 %10, double %7, double %8
1798   %12 = insertelement <2 x double> %1, double %11, i64 0
1799   %13 = extractelement <2 x double> %12, i32 0
1800   ret double %13
1801 }
1802
1803 define double @test_mask3_vfnmsub_sd_1(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1804 ;
1805 ; CHECK-LABEL: @test_mask3_vfnmsub_sd_1(
1806 ; CHECK-NEXT:    ret double 1.000000e+00
1807 ;
1808   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
1809   %2 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %a
1810   %3 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %1
1811   %4 = extractelement <2 x double> %2, i64 0
1812   %5 = extractelement <2 x double> %b, i64 0
1813   %6 = extractelement <2 x double> %3, i64 0
1814   %7 = call double @llvm.fma.f64(double %4, double %5, double %6)
1815   %8 = extractelement <2 x double> %1, i64 0
1816   %9 = bitcast i8 %mask to <8 x i1>
1817   %10 = extractelement <8 x i1> %9, i64 0
1818   %11 = select i1 %10, double %7, double %8
1819   %12 = insertelement <2 x double> %1, double %11, i64 0
1820   %13 = extractelement <2 x double> %12, i32 1
1821   ret double %13
1822 }
1823
1824 define double @test_mask3_vfnmsub_sd_1_unary_fneg(<2 x double> %a, <2 x double> %b, <2 x double> %c, i8 %mask) {
1825 ;
1826 ; CHECK-LABEL: @test_mask3_vfnmsub_sd_1_unary_fneg(
1827 ; CHECK-NEXT:    ret double 1.000000e+00
1828 ;
1829   %1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
1830   %2 = fneg <2 x double> %a
1831   %3 = fneg <2 x double> %1
1832   %4 = extractelement <2 x double> %2, i64 0
1833   %5 = extractelement <2 x double> %b, i64 0
1834   %6 = extractelement <2 x double> %3, i64 0
1835   %7 = call double @llvm.fma.f64(double %4, double %5, double %6)
1836   %8 = extractelement <2 x double> %1, i64 0
1837   %9 = bitcast i8 %mask to <8 x i1>
1838   %10 = extractelement <8 x i1> %9, i64 0
1839   %11 = select i1 %10, double %7, double %8
1840   %12 = insertelement <2 x double> %1, double %11, i64 0
1841   %13 = extractelement <2 x double> %12, i32 1
1842   ret double %13
1843 }
1844
1845 declare <8 x i32> @llvm.x86.avx2.permd(<8 x i32>, <8 x i32>)
1846
1847 define <8 x i32> @identity_test_permvar_si_256(<8 x i32> %a0) {
1848 ;
1849 ; CHECK-LABEL: @identity_test_permvar_si_256(
1850 ; CHECK-NEXT:    ret <8 x i32> [[A0:%.*]]
1851 ;
1852   %1 = call <8 x i32> @llvm.x86.avx2.permd(<8 x i32> %a0, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>)
1853   ret <8 x i32> %1
1854 }
1855
1856 define <8 x i32> @identity_test_permvar_si_256_mask(<8 x i32> %a0, <8 x i32> %passthru, i8 %mask) {
1857 ;
1858 ; CHECK-LABEL: @identity_test_permvar_si_256_mask(
1859 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
1860 ; CHECK-NEXT:    [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x i32> [[A0:%.*]], <8 x i32> [[PASSTHRU:%.*]]
1861 ; CHECK-NEXT:    ret <8 x i32> [[TMP2]]
1862 ;
1863   %1 = call <8 x i32> @llvm.x86.avx2.permd(<8 x i32> %a0, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>)
1864   %2 = bitcast i8 %mask to <8 x i1>
1865   %3 = select <8 x i1> %2, <8 x i32> %1, <8 x i32> %passthru
1866   ret <8 x i32> %3
1867 }
1868
1869 define <8 x i32> @zero_test_permvar_si_256(<8 x i32> %a0) {
1870 ;
1871 ; CHECK-LABEL: @zero_test_permvar_si_256(
1872 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i32> [[A0:%.*]], <8 x i32> poison, <8 x i32> zeroinitializer
1873 ; CHECK-NEXT:    ret <8 x i32> [[TMP1]]
1874 ;
1875   %1 = call <8 x i32> @llvm.x86.avx2.permd(<8 x i32> %a0, <8 x i32> zeroinitializer)
1876   ret <8 x i32> %1
1877 }
1878
1879 define <8 x i32> @zero_test_permvar_si_256_mask(<8 x i32> %a0, <8 x i32> %passthru, i8 %mask) {
1880 ;
1881 ; CHECK-LABEL: @zero_test_permvar_si_256_mask(
1882 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i32> [[A0:%.*]], <8 x i32> poison, <8 x i32> zeroinitializer
1883 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
1884 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i32> [[TMP1]], <8 x i32> [[PASSTHRU:%.*]]
1885 ; CHECK-NEXT:    ret <8 x i32> [[TMP3]]
1886 ;
1887   %1 = call <8 x i32> @llvm.x86.avx2.permd(<8 x i32> %a0, <8 x i32> zeroinitializer)
1888   %2 = bitcast i8 %mask to <8 x i1>
1889   %3 = select <8 x i1> %2, <8 x i32> %1, <8 x i32> %passthru
1890   ret <8 x i32> %3
1891 }
1892
1893 define <8 x i32> @shuffle_test_permvar_si_256(<8 x i32> %a0) {
1894 ;
1895 ; CHECK-LABEL: @shuffle_test_permvar_si_256(
1896 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i32> [[A0:%.*]], <8 x i32> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
1897 ; CHECK-NEXT:    ret <8 x i32> [[TMP1]]
1898 ;
1899   %1 = call <8 x i32> @llvm.x86.avx2.permd(<8 x i32> %a0, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
1900   ret <8 x i32> %1
1901 }
1902
1903 define <8 x i32> @shuffle_test_permvar_si_256_mask(<8 x i32> %a0, <8 x i32> %passthru, i8 %mask) {
1904 ;
1905 ; CHECK-LABEL: @shuffle_test_permvar_si_256_mask(
1906 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i32> [[A0:%.*]], <8 x i32> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
1907 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
1908 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i32> [[TMP1]], <8 x i32> [[PASSTHRU:%.*]]
1909 ; CHECK-NEXT:    ret <8 x i32> [[TMP3]]
1910 ;
1911   %1 = call <8 x i32> @llvm.x86.avx2.permd(<8 x i32> %a0, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
1912   %2 = bitcast i8 %mask to <8 x i1>
1913   %3 = select <8 x i1> %2, <8 x i32> %1, <8 x i32> %passthru
1914   ret <8 x i32> %3
1915 }
1916
1917 define <8 x i32> @undef_test_permvar_si_256(<8 x i32> %a0) {
1918 ;
1919 ; CHECK-LABEL: @undef_test_permvar_si_256(
1920 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i32> [[A0:%.*]], <8 x i32> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
1921 ; CHECK-NEXT:    ret <8 x i32> [[TMP1]]
1922 ;
1923   %1 = call <8 x i32> @llvm.x86.avx2.permd(<8 x i32> %a0, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
1924   ret <8 x i32> %1
1925 }
1926
1927 define <8 x i32> @undef_test_permvar_si_256_mask(<8 x i32> %a0, <8 x i32> %passthru, i8 %mask) {
1928 ;
1929 ; CHECK-LABEL: @undef_test_permvar_si_256_mask(
1930 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i32> [[A0:%.*]], <8 x i32> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
1931 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
1932 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i32> [[TMP1]], <8 x i32> [[PASSTHRU:%.*]]
1933 ; CHECK-NEXT:    ret <8 x i32> [[TMP3]]
1934 ;
1935   %1 = call <8 x i32> @llvm.x86.avx2.permd(<8 x i32> %a0, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
1936   %2 = bitcast i8 %mask to <8 x i1>
1937   %3 = select <8 x i1> %2, <8 x i32> %1, <8 x i32> %passthru
1938   ret <8 x i32> %3
1939 }
1940
1941 declare <8 x float> @llvm.x86.avx2.permps(<8 x float>, <8 x i32>)
1942
1943 define <8 x float> @identity_test_permvar_sf_256(<8 x float> %a0) {
1944 ;
1945 ; CHECK-LABEL: @identity_test_permvar_sf_256(
1946 ; CHECK-NEXT:    ret <8 x float> [[A0:%.*]]
1947 ;
1948   %1 = call <8 x float> @llvm.x86.avx2.permps(<8 x float> %a0, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>)
1949   ret <8 x float> %1
1950 }
1951
1952 define <8 x float> @identity_test_permvar_sf_256_mask(<8 x float> %a0, <8 x float> %passthru, i8 %mask) {
1953 ;
1954 ; CHECK-LABEL: @identity_test_permvar_sf_256_mask(
1955 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
1956 ; CHECK-NEXT:    [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x float> [[A0:%.*]], <8 x float> [[PASSTHRU:%.*]]
1957 ; CHECK-NEXT:    ret <8 x float> [[TMP2]]
1958 ;
1959   %1 = call <8 x float> @llvm.x86.avx2.permps(<8 x float> %a0, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>)
1960   %2 = bitcast i8 %mask to <8 x i1>
1961   %3 = select <8 x i1> %2, <8 x float> %1, <8 x float> %passthru
1962   ret <8 x float> %3
1963 }
1964
1965 define <8 x float> @zero_test_permvar_sf_256(<8 x float> %a0) {
1966 ;
1967 ; CHECK-LABEL: @zero_test_permvar_sf_256(
1968 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x float> [[A0:%.*]], <8 x float> poison, <8 x i32> zeroinitializer
1969 ; CHECK-NEXT:    ret <8 x float> [[TMP1]]
1970 ;
1971   %1 = call <8 x float> @llvm.x86.avx2.permps(<8 x float> %a0, <8 x i32> zeroinitializer)
1972   ret <8 x float> %1
1973 }
1974
1975 define <8 x float> @zero_test_permvar_sf_256_mask(<8 x float> %a0, <8 x float> %passthru, i8 %mask) {
1976 ;
1977 ; CHECK-LABEL: @zero_test_permvar_sf_256_mask(
1978 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x float> [[A0:%.*]], <8 x float> poison, <8 x i32> zeroinitializer
1979 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
1980 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x float> [[TMP1]], <8 x float> [[PASSTHRU:%.*]]
1981 ; CHECK-NEXT:    ret <8 x float> [[TMP3]]
1982 ;
1983   %1 = call <8 x float> @llvm.x86.avx2.permps(<8 x float> %a0, <8 x i32> zeroinitializer)
1984   %2 = bitcast i8 %mask to <8 x i1>
1985   %3 = select <8 x i1> %2, <8 x float> %1, <8 x float> %passthru
1986   ret <8 x float> %3
1987 }
1988
1989 define <8 x float> @shuffle_test_permvar_sf_256(<8 x float> %a0) {
1990 ;
1991 ; CHECK-LABEL: @shuffle_test_permvar_sf_256(
1992 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x float> [[A0:%.*]], <8 x float> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
1993 ; CHECK-NEXT:    ret <8 x float> [[TMP1]]
1994 ;
1995   %1 = call <8 x float> @llvm.x86.avx2.permps(<8 x float> %a0, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
1996   ret <8 x float> %1
1997 }
1998
1999 define <8 x float> @shuffle_test_permvar_sf_256_mask(<8 x float> %a0, <8 x float> %passthru, i8 %mask) {
2000 ;
2001 ; CHECK-LABEL: @shuffle_test_permvar_sf_256_mask(
2002 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x float> [[A0:%.*]], <8 x float> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2003 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2004 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x float> [[TMP1]], <8 x float> [[PASSTHRU:%.*]]
2005 ; CHECK-NEXT:    ret <8 x float> [[TMP3]]
2006 ;
2007   %1 = call <8 x float> @llvm.x86.avx2.permps(<8 x float> %a0, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2008   %2 = bitcast i8 %mask to <8 x i1>
2009   %3 = select <8 x i1> %2, <8 x float> %1, <8 x float> %passthru
2010   ret <8 x float> %3
2011 }
2012
2013 define <8 x float> @undef_test_permvar_sf_256(<8 x float> %a0) {
2014 ;
2015 ; CHECK-LABEL: @undef_test_permvar_sf_256(
2016 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x float> [[A0:%.*]], <8 x float> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2017 ; CHECK-NEXT:    ret <8 x float> [[TMP1]]
2018 ;
2019   %1 = call <8 x float> @llvm.x86.avx2.permps(<8 x float> %a0, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2020   ret <8 x float> %1
2021 }
2022
2023 define <8 x float> @undef_test_permvar_sf_256_mask(<8 x float> %a0, <8 x float> %passthru, i8 %mask) {
2024 ;
2025 ; CHECK-LABEL: @undef_test_permvar_sf_256_mask(
2026 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x float> [[A0:%.*]], <8 x float> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2027 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2028 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x float> [[TMP1]], <8 x float> [[PASSTHRU:%.*]]
2029 ; CHECK-NEXT:    ret <8 x float> [[TMP3]]
2030 ;
2031   %1 = call <8 x float> @llvm.x86.avx2.permps(<8 x float> %a0, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2032   %2 = bitcast i8 %mask to <8 x i1>
2033   %3 = select <8 x i1> %2, <8 x float> %1, <8 x float> %passthru
2034   ret <8 x float> %3
2035 }
2036
2037 declare <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64>, <4 x i64>)
2038
2039 define <4 x i64> @identity_test_permvar_di_256(<4 x i64> %a0) {
2040 ;
2041 ; CHECK-LABEL: @identity_test_permvar_di_256(
2042 ; CHECK-NEXT:    ret <4 x i64> [[A0:%.*]]
2043 ;
2044   %1 = call <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 0, i64 1, i64 2, i64 3>)
2045   ret <4 x i64> %1
2046 }
2047
2048 define <4 x i64> @identity_test_permvar_di_256_mask(<4 x i64> %a0, <4 x i64> %passthru, i8 %mask) {
2049 ;
2050 ; CHECK-LABEL: @identity_test_permvar_di_256_mask(
2051 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2052 ; CHECK-NEXT:    [[EXTRACT:%.*]] = shufflevector <8 x i1> [[TMP1]], <8 x i1> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2053 ; CHECK-NEXT:    [[TMP2:%.*]] = select <4 x i1> [[EXTRACT]], <4 x i64> [[A0:%.*]], <4 x i64> [[PASSTHRU:%.*]]
2054 ; CHECK-NEXT:    ret <4 x i64> [[TMP2]]
2055 ;
2056   %1 = call <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 0, i64 1, i64 2, i64 3>)
2057   %2 = bitcast i8 %mask to <8 x i1>
2058   %extract = shufflevector <8 x i1> %2, <8 x i1> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2059   %3 = select <4 x i1> %extract, <4 x i64> %1, <4 x i64> %passthru
2060   ret <4 x i64> %3
2061 }
2062
2063 define <4 x i64> @zero_test_permvar_di_256(<4 x i64> %a0) {
2064 ;
2065 ; CHECK-LABEL: @zero_test_permvar_di_256(
2066 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x i64> [[A0:%.*]], <4 x i64> poison, <4 x i32> zeroinitializer
2067 ; CHECK-NEXT:    ret <4 x i64> [[TMP1]]
2068 ;
2069   %1 = call <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64> %a0, <4 x i64> zeroinitializer)
2070   ret <4 x i64> %1
2071 }
2072
2073 define <4 x i64> @zero_test_permvar_di_256_mask(<4 x i64> %a0, <4 x i64> %passthru, i8 %mask) {
2074 ;
2075 ; CHECK-LABEL: @zero_test_permvar_di_256_mask(
2076 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x i64> [[A0:%.*]], <4 x i64> poison, <4 x i32> zeroinitializer
2077 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2078 ; CHECK-NEXT:    [[EXTRACT:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2079 ; CHECK-NEXT:    [[TMP3:%.*]] = select <4 x i1> [[EXTRACT]], <4 x i64> [[TMP1]], <4 x i64> [[PASSTHRU:%.*]]
2080 ; CHECK-NEXT:    ret <4 x i64> [[TMP3]]
2081 ;
2082   %1 = call <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64> %a0, <4 x i64> zeroinitializer)
2083   %2 = bitcast i8 %mask to <8 x i1>
2084   %extract = shufflevector <8 x i1> %2, <8 x i1> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2085   %3 = select <4 x i1> %extract, <4 x i64> %1, <4 x i64> %passthru
2086   ret <4 x i64> %3
2087 }
2088
2089 define <4 x i64> @shuffle_test_permvar_di_256(<4 x i64> %a0) {
2090 ;
2091 ; CHECK-LABEL: @shuffle_test_permvar_di_256(
2092 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x i64> [[A0:%.*]], <4 x i64> poison, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
2093 ; CHECK-NEXT:    ret <4 x i64> [[TMP1]]
2094 ;
2095   %1 = call <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 3, i64 2, i64 1, i64 0>)
2096   ret <4 x i64> %1
2097 }
2098
2099 define <4 x i64> @shuffle_test_permvar_di_256_mask(<4 x i64> %a0, <4 x i64> %passthru, i8 %mask) {
2100 ;
2101 ; CHECK-LABEL: @shuffle_test_permvar_di_256_mask(
2102 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x i64> [[A0:%.*]], <4 x i64> poison, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
2103 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2104 ; CHECK-NEXT:    [[EXTRACT:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2105 ; CHECK-NEXT:    [[TMP3:%.*]] = select <4 x i1> [[EXTRACT]], <4 x i64> [[TMP1]], <4 x i64> [[PASSTHRU:%.*]]
2106 ; CHECK-NEXT:    ret <4 x i64> [[TMP3]]
2107 ;
2108   %1 = call <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 3, i64 2, i64 1, i64 0>)
2109   %2 = bitcast i8 %mask to <8 x i1>
2110   %extract = shufflevector <8 x i1> %2, <8 x i1> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2111   %3 = select <4 x i1> %extract, <4 x i64> %1, <4 x i64> %passthru
2112   ret <4 x i64> %3
2113 }
2114
2115 define <4 x i64> @undef_test_permvar_di_256(<4 x i64> %a0) {
2116 ;
2117 ; CHECK-LABEL: @undef_test_permvar_di_256(
2118 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x i64> [[A0:%.*]], <4 x i64> poison, <4 x i32> <i32 undef, i32 2, i32 1, i32 0>
2119 ; CHECK-NEXT:    ret <4 x i64> [[TMP1]]
2120 ;
2121   %1 = call <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 undef, i64 2, i64 1, i64 0>)
2122   ret <4 x i64> %1
2123 }
2124
2125 define <4 x i64> @undef_test_permvar_di_256_mask(<4 x i64> %a0, <4 x i64> %passthru, i8 %mask) {
2126 ;
2127 ; CHECK-LABEL: @undef_test_permvar_di_256_mask(
2128 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x i64> [[A0:%.*]], <4 x i64> poison, <4 x i32> <i32 undef, i32 2, i32 1, i32 0>
2129 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2130 ; CHECK-NEXT:    [[EXTRACT:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2131 ; CHECK-NEXT:    [[TMP3:%.*]] = select <4 x i1> [[EXTRACT]], <4 x i64> [[TMP1]], <4 x i64> [[PASSTHRU:%.*]]
2132 ; CHECK-NEXT:    ret <4 x i64> [[TMP3]]
2133 ;
2134   %1 = call <4 x i64> @llvm.x86.avx512.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 undef, i64 2, i64 1, i64 0>)
2135   %2 = bitcast i8 %mask to <8 x i1>
2136   %extract = shufflevector <8 x i1> %2, <8 x i1> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2137   %3 = select <4 x i1> %extract, <4 x i64> %1, <4 x i64> %passthru
2138   ret <4 x i64> %3
2139 }
2140
2141 declare <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double>, <4 x i64>)
2142
2143 define <4 x double> @identity_test_permvar_df_256(<4 x double> %a0) {
2144 ;
2145 ; CHECK-LABEL: @identity_test_permvar_df_256(
2146 ; CHECK-NEXT:    ret <4 x double> [[A0:%.*]]
2147 ;
2148   %1 = call <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 0, i64 1, i64 2, i64 3>)
2149   ret <4 x double> %1
2150 }
2151
2152 define <4 x double> @identity_test_permvar_df_256_mask(<4 x double> %a0, <4 x double> %passthru, i8 %mask) {
2153 ;
2154 ; CHECK-LABEL: @identity_test_permvar_df_256_mask(
2155 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2156 ; CHECK-NEXT:    [[EXTRACT:%.*]] = shufflevector <8 x i1> [[TMP1]], <8 x i1> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2157 ; CHECK-NEXT:    [[TMP2:%.*]] = select <4 x i1> [[EXTRACT]], <4 x double> [[A0:%.*]], <4 x double> [[PASSTHRU:%.*]]
2158 ; CHECK-NEXT:    ret <4 x double> [[TMP2]]
2159 ;
2160   %1 = call <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 0, i64 1, i64 2, i64 3>)
2161   %2 = bitcast i8 %mask to <8 x i1>
2162   %extract = shufflevector <8 x i1> %2, <8 x i1> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2163   %3 = select <4 x i1> %extract, <4 x double> %1, <4 x double> %passthru
2164   ret <4 x double> %3
2165 }
2166
2167 define <4 x double> @zero_test_permvar_df_256(<4 x double> %a0) {
2168 ;
2169 ; CHECK-LABEL: @zero_test_permvar_df_256(
2170 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x double> [[A0:%.*]], <4 x double> poison, <4 x i32> zeroinitializer
2171 ; CHECK-NEXT:    ret <4 x double> [[TMP1]]
2172 ;
2173   %1 = call <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double> %a0, <4 x i64> zeroinitializer)
2174   ret <4 x double> %1
2175 }
2176
2177 define <4 x double> @zero_test_permvar_df_256_mask(<4 x double> %a0, <4 x double> %passthru, i8 %mask) {
2178 ;
2179 ; CHECK-LABEL: @zero_test_permvar_df_256_mask(
2180 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x double> [[A0:%.*]], <4 x double> poison, <4 x i32> zeroinitializer
2181 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2182 ; CHECK-NEXT:    [[EXTRACT:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2183 ; CHECK-NEXT:    [[TMP3:%.*]] = select <4 x i1> [[EXTRACT]], <4 x double> [[TMP1]], <4 x double> [[PASSTHRU:%.*]]
2184 ; CHECK-NEXT:    ret <4 x double> [[TMP3]]
2185 ;
2186   %1 = call <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double> %a0, <4 x i64> zeroinitializer)
2187   %2 = bitcast i8 %mask to <8 x i1>
2188   %extract = shufflevector <8 x i1> %2, <8 x i1> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2189   %3 = select <4 x i1> %extract, <4 x double> %1, <4 x double> %passthru
2190   ret <4 x double> %3
2191 }
2192
2193 define <4 x double> @shuffle_test_permvar_df_256(<4 x double> %a0) {
2194 ;
2195 ; CHECK-LABEL: @shuffle_test_permvar_df_256(
2196 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x double> [[A0:%.*]], <4 x double> poison, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
2197 ; CHECK-NEXT:    ret <4 x double> [[TMP1]]
2198 ;
2199   %1 = call <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 3, i64 2, i64 1, i64 0>)
2200   ret <4 x double> %1
2201 }
2202
2203 define <4 x double> @shuffle_test_permvar_df_256_mask(<4 x double> %a0, <4 x double> %passthru, i8 %mask) {
2204 ;
2205 ; CHECK-LABEL: @shuffle_test_permvar_df_256_mask(
2206 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x double> [[A0:%.*]], <4 x double> poison, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
2207 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2208 ; CHECK-NEXT:    [[EXTRACT:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2209 ; CHECK-NEXT:    [[TMP3:%.*]] = select <4 x i1> [[EXTRACT]], <4 x double> [[TMP1]], <4 x double> [[PASSTHRU:%.*]]
2210 ; CHECK-NEXT:    ret <4 x double> [[TMP3]]
2211 ;
2212   %1 = call <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 3, i64 2, i64 1, i64 0>)
2213   %2 = bitcast i8 %mask to <8 x i1>
2214   %extract = shufflevector <8 x i1> %2, <8 x i1> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2215   %3 = select <4 x i1> %extract, <4 x double> %1, <4 x double> %passthru
2216   ret <4 x double> %3
2217 }
2218
2219 define <4 x double> @undef_test_permvar_df_256(<4 x double> %a0) {
2220 ;
2221 ; CHECK-LABEL: @undef_test_permvar_df_256(
2222 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x double> [[A0:%.*]], <4 x double> poison, <4 x i32> <i32 undef, i32 2, i32 1, i32 0>
2223 ; CHECK-NEXT:    ret <4 x double> [[TMP1]]
2224 ;
2225   %1 = call <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 undef, i64 2, i64 1, i64 0>)
2226   ret <4 x double> %1
2227 }
2228
2229 define <4 x double> @undef_test_permvar_df_256_mask(<4 x double> %a0, <4 x double> %passthru, i8 %mask) {
2230 ;
2231 ; CHECK-LABEL: @undef_test_permvar_df_256_mask(
2232 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <4 x double> [[A0:%.*]], <4 x double> poison, <4 x i32> <i32 undef, i32 2, i32 1, i32 0>
2233 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2234 ; CHECK-NEXT:    [[EXTRACT:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> poison, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2235 ; CHECK-NEXT:    [[TMP3:%.*]] = select <4 x i1> [[EXTRACT]], <4 x double> [[TMP1]], <4 x double> [[PASSTHRU:%.*]]
2236 ; CHECK-NEXT:    ret <4 x double> [[TMP3]]
2237 ;
2238   %1 = call <4 x double> @llvm.x86.avx512.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 undef, i64 2, i64 1, i64 0>)
2239   %2 = bitcast i8 %mask to <8 x i1>
2240   %extract = shufflevector <8 x i1> %2, <8 x i1> %2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
2241   %3 = select <4 x i1> %extract, <4 x double> %1, <4 x double> %passthru
2242   ret <4 x double> %3
2243 }
2244
2245 declare <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32>, <16 x i32>)
2246
2247 define <16 x i32> @identity_test_permvar_si_512(<16 x i32> %a0) {
2248 ;
2249 ; CHECK-LABEL: @identity_test_permvar_si_512(
2250 ; CHECK-NEXT:    ret <16 x i32> [[A0:%.*]]
2251 ;
2252   %1 = call <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>)
2253   ret <16 x i32> %1
2254 }
2255
2256 define <16 x i32> @identity_test_permvar_si_512_mask(<16 x i32> %a0, <16 x i32> %passthru, i16 %mask) {
2257 ;
2258 ; CHECK-LABEL: @identity_test_permvar_si_512_mask(
2259 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2260 ; CHECK-NEXT:    [[TMP2:%.*]] = select <16 x i1> [[TMP1]], <16 x i32> [[A0:%.*]], <16 x i32> [[PASSTHRU:%.*]]
2261 ; CHECK-NEXT:    ret <16 x i32> [[TMP2]]
2262 ;
2263   %1 = call <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>)
2264   %2 = bitcast i16 %mask to <16 x i1>
2265   %3 = select <16 x i1> %2, <16 x i32> %1, <16 x i32> %passthru
2266   ret <16 x i32> %3
2267 }
2268
2269 define <16 x i32> @zero_test_permvar_si_512(<16 x i32> %a0) {
2270 ;
2271 ; CHECK-LABEL: @zero_test_permvar_si_512(
2272 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i32> [[A0:%.*]], <16 x i32> poison, <16 x i32> zeroinitializer
2273 ; CHECK-NEXT:    ret <16 x i32> [[TMP1]]
2274 ;
2275   %1 = call <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32> %a0, <16 x i32> zeroinitializer)
2276   ret <16 x i32> %1
2277 }
2278
2279 define <16 x i32> @zero_test_permvar_si_512_mask(<16 x i32> %a0, <16 x i32> %passthru, i16 %mask) {
2280 ;
2281 ; CHECK-LABEL: @zero_test_permvar_si_512_mask(
2282 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i32> [[A0:%.*]], <16 x i32> poison, <16 x i32> zeroinitializer
2283 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2284 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i32> [[TMP1]], <16 x i32> [[PASSTHRU:%.*]]
2285 ; CHECK-NEXT:    ret <16 x i32> [[TMP3]]
2286 ;
2287   %1 = call <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32> %a0, <16 x i32> zeroinitializer)
2288   %2 = bitcast i16 %mask to <16 x i1>
2289   %3 = select <16 x i1> %2, <16 x i32> %1, <16 x i32> %passthru
2290   ret <16 x i32> %3
2291 }
2292
2293 define <16 x i32> @shuffle_test_permvar_si_512(<16 x i32> %a0) {
2294 ;
2295 ; CHECK-LABEL: @shuffle_test_permvar_si_512(
2296 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i32> [[A0:%.*]], <16 x i32> poison, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2297 ; CHECK-NEXT:    ret <16 x i32> [[TMP1]]
2298 ;
2299   %1 = call <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2300   ret <16 x i32> %1
2301 }
2302
2303 define <16 x i32> @shuffle_test_permvar_si_512_mask(<16 x i32> %a0, <16 x i32> %passthru, i16 %mask) {
2304 ;
2305 ; CHECK-LABEL: @shuffle_test_permvar_si_512_mask(
2306 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i32> [[A0:%.*]], <16 x i32> poison, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2307 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2308 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i32> [[TMP1]], <16 x i32> [[PASSTHRU:%.*]]
2309 ; CHECK-NEXT:    ret <16 x i32> [[TMP3]]
2310 ;
2311   %1 = call <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2312   %2 = bitcast i16 %mask to <16 x i1>
2313   %3 = select <16 x i1> %2, <16 x i32> %1, <16 x i32> %passthru
2314   ret <16 x i32> %3
2315 }
2316
2317 define <16 x i32> @undef_test_permvar_si_512(<16 x i32> %a0) {
2318 ;
2319 ; CHECK-LABEL: @undef_test_permvar_si_512(
2320 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i32> [[A0:%.*]], <16 x i32> poison, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2321 ; CHECK-NEXT:    ret <16 x i32> [[TMP1]]
2322 ;
2323   %1 = call <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2324   ret <16 x i32> %1
2325 }
2326
2327 define <16 x i32> @undef_test_permvar_si_512_mask(<16 x i32> %a0, <16 x i32> %passthru, i16 %mask) {
2328 ;
2329 ; CHECK-LABEL: @undef_test_permvar_si_512_mask(
2330 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i32> [[A0:%.*]], <16 x i32> poison, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2331 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2332 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i32> [[TMP1]], <16 x i32> [[PASSTHRU:%.*]]
2333 ; CHECK-NEXT:    ret <16 x i32> [[TMP3]]
2334 ;
2335   %1 = call <16 x i32> @llvm.x86.avx512.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2336   %2 = bitcast i16 %mask to <16 x i1>
2337   %3 = select <16 x i1> %2, <16 x i32> %1, <16 x i32> %passthru
2338   ret <16 x i32> %3
2339 }
2340
2341 declare <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float>, <16 x i32>)
2342
2343 define <16 x float> @identity_test_permvar_sf_512(<16 x float> %a0) {
2344 ;
2345 ; CHECK-LABEL: @identity_test_permvar_sf_512(
2346 ; CHECK-NEXT:    ret <16 x float> [[A0:%.*]]
2347 ;
2348   %1 = call <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>)
2349   ret <16 x float> %1
2350 }
2351
2352 define <16 x float> @identity_test_permvar_sf_512_mask(<16 x float> %a0, <16 x float> %passthru, i16 %mask) {
2353 ;
2354 ; CHECK-LABEL: @identity_test_permvar_sf_512_mask(
2355 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2356 ; CHECK-NEXT:    [[TMP2:%.*]] = select <16 x i1> [[TMP1]], <16 x float> [[A0:%.*]], <16 x float> [[PASSTHRU:%.*]]
2357 ; CHECK-NEXT:    ret <16 x float> [[TMP2]]
2358 ;
2359   %1 = call <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>)
2360   %2 = bitcast i16 %mask to <16 x i1>
2361   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %passthru
2362   ret <16 x float> %3
2363 }
2364
2365 define <16 x float> @zero_test_permvar_sf_512(<16 x float> %a0) {
2366 ;
2367 ; CHECK-LABEL: @zero_test_permvar_sf_512(
2368 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x float> [[A0:%.*]], <16 x float> poison, <16 x i32> zeroinitializer
2369 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
2370 ;
2371   %1 = call <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float> %a0, <16 x i32> zeroinitializer)
2372   ret <16 x float> %1
2373 }
2374
2375 define <16 x float> @zero_test_permvar_sf_512_mask(<16 x float> %a0, <16 x float> %passthru, i16 %mask) {
2376 ;
2377 ; CHECK-LABEL: @zero_test_permvar_sf_512_mask(
2378 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x float> [[A0:%.*]], <16 x float> poison, <16 x i32> zeroinitializer
2379 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2380 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[PASSTHRU:%.*]]
2381 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
2382 ;
2383   %1 = call <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float> %a0, <16 x i32> zeroinitializer)
2384   %2 = bitcast i16 %mask to <16 x i1>
2385   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %passthru
2386   ret <16 x float> %3
2387 }
2388
2389 define <16 x float> @shuffle_test_permvar_sf_512(<16 x float> %a0) {
2390 ;
2391 ; CHECK-LABEL: @shuffle_test_permvar_sf_512(
2392 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x float> [[A0:%.*]], <16 x float> poison, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2393 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
2394 ;
2395   %1 = call <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2396   ret <16 x float> %1
2397 }
2398
2399 define <16 x float> @shuffle_test_permvar_sf_512_mask(<16 x float> %a0, <16 x float> %passthru, i16 %mask) {
2400 ;
2401 ; CHECK-LABEL: @shuffle_test_permvar_sf_512_mask(
2402 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x float> [[A0:%.*]], <16 x float> poison, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2403 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2404 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[PASSTHRU:%.*]]
2405 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
2406 ;
2407   %1 = call <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2408   %2 = bitcast i16 %mask to <16 x i1>
2409   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %passthru
2410   ret <16 x float> %3
2411 }
2412
2413 define <16 x float> @undef_test_permvar_sf_512(<16 x float> %a0) {
2414 ;
2415 ; CHECK-LABEL: @undef_test_permvar_sf_512(
2416 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x float> [[A0:%.*]], <16 x float> poison, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2417 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
2418 ;
2419   %1 = call <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2420   ret <16 x float> %1
2421 }
2422
2423 define <16 x float> @undef_test_permvar_sf_512_mask(<16 x float> %a0, <16 x float> %passthru, i16 %mask) {
2424 ;
2425 ; CHECK-LABEL: @undef_test_permvar_sf_512_mask(
2426 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x float> [[A0:%.*]], <16 x float> poison, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2427 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2428 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[PASSTHRU:%.*]]
2429 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
2430 ;
2431   %1 = call <16 x float> @llvm.x86.avx512.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>)
2432   %2 = bitcast i16 %mask to <16 x i1>
2433   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %passthru
2434   ret <16 x float> %3
2435 }
2436
2437 declare <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64>, <8 x i64>)
2438
2439 define <8 x i64> @identity_test_permvar_di_512(<8 x i64> %a0) {
2440 ;
2441 ; CHECK-LABEL: @identity_test_permvar_di_512(
2442 ; CHECK-NEXT:    ret <8 x i64> [[A0:%.*]]
2443 ;
2444   %1 = call <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>)
2445   ret <8 x i64> %1
2446 }
2447
2448 define <8 x i64> @identity_test_permvar_di_512_mask(<8 x i64> %a0, <8 x i64> %passthru, i8 %mask) {
2449 ;
2450 ; CHECK-LABEL: @identity_test_permvar_di_512_mask(
2451 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2452 ; CHECK-NEXT:    [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x i64> [[A0:%.*]], <8 x i64> [[PASSTHRU:%.*]]
2453 ; CHECK-NEXT:    ret <8 x i64> [[TMP2]]
2454 ;
2455   %1 = call <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>)
2456   %2 = bitcast i8 %mask to <8 x i1>
2457   %3 = select <8 x i1> %2, <8 x i64> %1, <8 x i64> %passthru
2458   ret <8 x i64> %3
2459 }
2460
2461 define <8 x i64> @zero_test_permvar_di_512(<8 x i64> %a0) {
2462 ;
2463 ; CHECK-LABEL: @zero_test_permvar_di_512(
2464 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i64> [[A0:%.*]], <8 x i64> poison, <8 x i32> zeroinitializer
2465 ; CHECK-NEXT:    ret <8 x i64> [[TMP1]]
2466 ;
2467   %1 = call <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64> %a0, <8 x i64> zeroinitializer)
2468   ret <8 x i64> %1
2469 }
2470
2471 define <8 x i64> @zero_test_permvar_di_512_mask(<8 x i64> %a0, <8 x i64> %passthru, i8 %mask) {
2472 ;
2473 ; CHECK-LABEL: @zero_test_permvar_di_512_mask(
2474 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i64> [[A0:%.*]], <8 x i64> poison, <8 x i32> zeroinitializer
2475 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2476 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> [[TMP1]], <8 x i64> [[PASSTHRU:%.*]]
2477 ; CHECK-NEXT:    ret <8 x i64> [[TMP3]]
2478 ;
2479   %1 = call <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64> %a0, <8 x i64> zeroinitializer)
2480   %2 = bitcast i8 %mask to <8 x i1>
2481   %3 = select <8 x i1> %2, <8 x i64> %1, <8 x i64> %passthru
2482   ret <8 x i64> %3
2483 }
2484
2485 define <8 x i64> @shuffle_test_permvar_di_512(<8 x i64> %a0) {
2486 ;
2487 ; CHECK-LABEL: @shuffle_test_permvar_di_512(
2488 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i64> [[A0:%.*]], <8 x i64> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2489 ; CHECK-NEXT:    ret <8 x i64> [[TMP1]]
2490 ;
2491   %1 = call <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>)
2492   ret <8 x i64> %1
2493 }
2494
2495 define <8 x i64> @shuffle_test_permvar_di_512_mask(<8 x i64> %a0, <8 x i64> %passthru, i8 %mask) {
2496 ;
2497 ; CHECK-LABEL: @shuffle_test_permvar_di_512_mask(
2498 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i64> [[A0:%.*]], <8 x i64> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2499 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2500 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> [[TMP1]], <8 x i64> [[PASSTHRU:%.*]]
2501 ; CHECK-NEXT:    ret <8 x i64> [[TMP3]]
2502 ;
2503   %1 = call <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>)
2504   %2 = bitcast i8 %mask to <8 x i1>
2505   %3 = select <8 x i1> %2, <8 x i64> %1, <8 x i64> %passthru
2506   ret <8 x i64> %3
2507 }
2508
2509 define <8 x i64> @undef_test_permvar_di_512(<8 x i64> %a0) {
2510 ;
2511 ; CHECK-LABEL: @undef_test_permvar_di_512(
2512 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i64> [[A0:%.*]], <8 x i64> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2513 ; CHECK-NEXT:    ret <8 x i64> [[TMP1]]
2514 ;
2515   %1 = call <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>)
2516   ret <8 x i64> %1
2517 }
2518
2519 define <8 x i64> @undef_test_permvar_di_512_mask(<8 x i64> %a0, <8 x i64> %passthru, i8 %mask) {
2520 ;
2521 ; CHECK-LABEL: @undef_test_permvar_di_512_mask(
2522 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i64> [[A0:%.*]], <8 x i64> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2523 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2524 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> [[TMP1]], <8 x i64> [[PASSTHRU:%.*]]
2525 ; CHECK-NEXT:    ret <8 x i64> [[TMP3]]
2526 ;
2527   %1 = call <8 x i64> @llvm.x86.avx512.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>)
2528   %2 = bitcast i8 %mask to <8 x i1>
2529   %3 = select <8 x i1> %2, <8 x i64> %1, <8 x i64> %passthru
2530   ret <8 x i64> %3
2531 }
2532
2533 declare <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double>, <8 x i64>)
2534
2535 define <8 x double> @identity_test_permvar_df_512(<8 x double> %a0) {
2536 ;
2537 ; CHECK-LABEL: @identity_test_permvar_df_512(
2538 ; CHECK-NEXT:    ret <8 x double> [[A0:%.*]]
2539 ;
2540   %1 = call <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>)
2541   ret <8 x double> %1
2542 }
2543
2544 define <8 x double> @identity_test_permvar_df_512_mask(<8 x double> %a0, <8 x double> %passthru, i8 %mask) {
2545 ;
2546 ; CHECK-LABEL: @identity_test_permvar_df_512_mask(
2547 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2548 ; CHECK-NEXT:    [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x double> [[A0:%.*]], <8 x double> [[PASSTHRU:%.*]]
2549 ; CHECK-NEXT:    ret <8 x double> [[TMP2]]
2550 ;
2551   %1 = call <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>)
2552   %2 = bitcast i8 %mask to <8 x i1>
2553   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %passthru
2554   ret <8 x double> %3
2555 }
2556
2557 define <8 x double> @zero_test_permvar_df_512(<8 x double> %a0) {
2558 ;
2559 ; CHECK-LABEL: @zero_test_permvar_df_512(
2560 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x double> [[A0:%.*]], <8 x double> poison, <8 x i32> zeroinitializer
2561 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
2562 ;
2563   %1 = call <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double> %a0, <8 x i64> zeroinitializer)
2564   ret <8 x double> %1
2565 }
2566
2567 define <8 x double> @zero_test_permvar_df_512_mask(<8 x double> %a0, <8 x double> %passthru, i8 %mask) {
2568 ;
2569 ; CHECK-LABEL: @zero_test_permvar_df_512_mask(
2570 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x double> [[A0:%.*]], <8 x double> poison, <8 x i32> zeroinitializer
2571 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2572 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[PASSTHRU:%.*]]
2573 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
2574 ;
2575   %1 = call <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double> %a0, <8 x i64> zeroinitializer)
2576   %2 = bitcast i8 %mask to <8 x i1>
2577   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %passthru
2578   ret <8 x double> %3
2579 }
2580
2581 define <8 x double> @shuffle_test_permvar_df_512(<8 x double> %a0) {
2582 ;
2583 ; CHECK-LABEL: @shuffle_test_permvar_df_512(
2584 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x double> [[A0:%.*]], <8 x double> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2585 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
2586 ;
2587   %1 = call <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>)
2588   ret <8 x double> %1
2589 }
2590
2591 define <8 x double> @shuffle_test_permvar_df_512_mask(<8 x double> %a0, <8 x double> %passthru, i8 %mask) {
2592 ;
2593 ; CHECK-LABEL: @shuffle_test_permvar_df_512_mask(
2594 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x double> [[A0:%.*]], <8 x double> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2595 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2596 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[PASSTHRU:%.*]]
2597 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
2598 ;
2599   %1 = call <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>)
2600   %2 = bitcast i8 %mask to <8 x i1>
2601   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %passthru
2602   ret <8 x double> %3
2603 }
2604
2605 define <8 x double> @undef_test_permvar_df_512(<8 x double> %a0) {
2606 ;
2607 ; CHECK-LABEL: @undef_test_permvar_df_512(
2608 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x double> [[A0:%.*]], <8 x double> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2609 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
2610 ;
2611   %1 = call <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>)
2612   ret <8 x double> %1
2613 }
2614
2615 define <8 x double> @undef_test_permvar_df_512_mask(<8 x double> %a0, <8 x double> %passthru, i8 %mask) {
2616 ;
2617 ; CHECK-LABEL: @undef_test_permvar_df_512_mask(
2618 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x double> [[A0:%.*]], <8 x double> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2619 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2620 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[PASSTHRU:%.*]]
2621 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
2622 ;
2623   %1 = call <8 x double> @llvm.x86.avx512.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>)
2624   %2 = bitcast i8 %mask to <8 x i1>
2625   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %passthru
2626   ret <8 x double> %3
2627 }
2628
2629 declare <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16>, <8 x i16>)
2630
2631 define <8 x i16> @identity_test_permvar_hi_128(<8 x i16> %a0) {
2632 ;
2633 ; CHECK-LABEL: @identity_test_permvar_hi_128(
2634 ; CHECK-NEXT:    ret <8 x i16> [[A0:%.*]]
2635 ;
2636   %1 = call <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>)
2637   ret <8 x i16> %1
2638 }
2639
2640 define <8 x i16> @identity_test_permvar_hi_128_mask(<8 x i16> %a0, <8 x i16> %passthru, i8 %mask) {
2641 ;
2642 ; CHECK-LABEL: @identity_test_permvar_hi_128_mask(
2643 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2644 ; CHECK-NEXT:    [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x i16> [[A0:%.*]], <8 x i16> [[PASSTHRU:%.*]]
2645 ; CHECK-NEXT:    ret <8 x i16> [[TMP2]]
2646 ;
2647   %1 = call <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>)
2648   %2 = bitcast i8 %mask to <8 x i1>
2649   %3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passthru
2650   ret <8 x i16> %3
2651 }
2652
2653 define <8 x i16> @zero_test_permvar_hi_128(<8 x i16> %a0) {
2654 ;
2655 ; CHECK-LABEL: @zero_test_permvar_hi_128(
2656 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i16> [[A0:%.*]], <8 x i16> poison, <8 x i32> zeroinitializer
2657 ; CHECK-NEXT:    ret <8 x i16> [[TMP1]]
2658 ;
2659   %1 = call <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16> %a0, <8 x i16> zeroinitializer)
2660   ret <8 x i16> %1
2661 }
2662
2663 define <8 x i16> @zero_test_permvar_hi_128_mask(<8 x i16> %a0, <8 x i16> %passthru, i8 %mask) {
2664 ;
2665 ; CHECK-LABEL: @zero_test_permvar_hi_128_mask(
2666 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i16> [[A0:%.*]], <8 x i16> poison, <8 x i32> zeroinitializer
2667 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2668 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i16> [[TMP1]], <8 x i16> [[PASSTHRU:%.*]]
2669 ; CHECK-NEXT:    ret <8 x i16> [[TMP3]]
2670 ;
2671   %1 = call <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16> %a0, <8 x i16> zeroinitializer)
2672   %2 = bitcast i8 %mask to <8 x i1>
2673   %3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passthru
2674   ret <8 x i16> %3
2675 }
2676
2677 define <8 x i16> @shuffle_test_permvar_hi_128(<8 x i16> %a0) {
2678 ;
2679 ; CHECK-LABEL: @shuffle_test_permvar_hi_128(
2680 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i16> [[A0:%.*]], <8 x i16> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2681 ; CHECK-NEXT:    ret <8 x i16> [[TMP1]]
2682 ;
2683   %1 = call <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2684   ret <8 x i16> %1
2685 }
2686
2687 define <8 x i16> @shuffle_test_permvar_hi_128_mask(<8 x i16> %a0, <8 x i16> %passthru, i8 %mask) {
2688 ;
2689 ; CHECK-LABEL: @shuffle_test_permvar_hi_128_mask(
2690 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i16> [[A0:%.*]], <8 x i16> poison, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2691 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2692 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i16> [[TMP1]], <8 x i16> [[PASSTHRU:%.*]]
2693 ; CHECK-NEXT:    ret <8 x i16> [[TMP3]]
2694 ;
2695   %1 = call <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2696   %2 = bitcast i8 %mask to <8 x i1>
2697   %3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passthru
2698   ret <8 x i16> %3
2699 }
2700
2701 define <8 x i16> @undef_test_permvar_hi_128(<8 x i16> %a0) {
2702 ;
2703 ; CHECK-LABEL: @undef_test_permvar_hi_128(
2704 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i16> [[A0:%.*]], <8 x i16> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2705 ; CHECK-NEXT:    ret <8 x i16> [[TMP1]]
2706 ;
2707   %1 = call <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 undef, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2708   ret <8 x i16> %1
2709 }
2710
2711 define <8 x i16> @undef_test_permvar_hi_128_mask(<8 x i16> %a0, <8 x i16> %passthru, i8 %mask) {
2712 ;
2713 ; CHECK-LABEL: @undef_test_permvar_hi_128_mask(
2714 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <8 x i16> [[A0:%.*]], <8 x i16> poison, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2715 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
2716 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i16> [[TMP1]], <8 x i16> [[PASSTHRU:%.*]]
2717 ; CHECK-NEXT:    ret <8 x i16> [[TMP3]]
2718 ;
2719   %1 = call <8 x i16> @llvm.x86.avx512.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 undef, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2720   %2 = bitcast i8 %mask to <8 x i1>
2721   %3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passthru
2722   ret <8 x i16> %3
2723 }
2724
2725 declare <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16>, <16 x i16>)
2726
2727 define <16 x i16> @identity_test_permvar_hi_256(<16 x i16> %a0) {
2728 ;
2729 ; CHECK-LABEL: @identity_test_permvar_hi_256(
2730 ; CHECK-NEXT:    ret <16 x i16> [[A0:%.*]]
2731 ;
2732   %1 = call <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>)
2733   ret <16 x i16> %1
2734 }
2735
2736 define <16 x i16> @identity_test_permvar_hi_256_mask(<16 x i16> %a0, <16 x i16> %passthru, i16 %mask) {
2737 ;
2738 ; CHECK-LABEL: @identity_test_permvar_hi_256_mask(
2739 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2740 ; CHECK-NEXT:    [[TMP2:%.*]] = select <16 x i1> [[TMP1]], <16 x i16> [[A0:%.*]], <16 x i16> [[PASSTHRU:%.*]]
2741 ; CHECK-NEXT:    ret <16 x i16> [[TMP2]]
2742 ;
2743   %1 = call <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>)
2744   %2 = bitcast i16 %mask to <16 x i1>
2745   %3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passthru
2746   ret <16 x i16> %3
2747 }
2748
2749 define <16 x i16> @zero_test_permvar_hi_256(<16 x i16> %a0) {
2750 ;
2751 ; CHECK-LABEL: @zero_test_permvar_hi_256(
2752 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i16> [[A0:%.*]], <16 x i16> poison, <16 x i32> zeroinitializer
2753 ; CHECK-NEXT:    ret <16 x i16> [[TMP1]]
2754 ;
2755   %1 = call <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16> %a0, <16 x i16> zeroinitializer)
2756   ret <16 x i16> %1
2757 }
2758
2759 define <16 x i16> @zero_test_permvar_hi_256_mask(<16 x i16> %a0, <16 x i16> %passthru, i16 %mask) {
2760 ;
2761 ; CHECK-LABEL: @zero_test_permvar_hi_256_mask(
2762 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i16> [[A0:%.*]], <16 x i16> poison, <16 x i32> zeroinitializer
2763 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2764 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i16> [[TMP1]], <16 x i16> [[PASSTHRU:%.*]]
2765 ; CHECK-NEXT:    ret <16 x i16> [[TMP3]]
2766 ;
2767   %1 = call <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16> %a0, <16 x i16> zeroinitializer)
2768   %2 = bitcast i16 %mask to <16 x i1>
2769   %3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passthru
2770   ret <16 x i16> %3
2771 }
2772
2773 define <16 x i16> @shuffle_test_permvar_hi_256(<16 x i16> %a0) {
2774 ;
2775 ; CHECK-LABEL: @shuffle_test_permvar_hi_256(
2776 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i16> [[A0:%.*]], <16 x i16> poison, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2777 ; CHECK-NEXT:    ret <16 x i16> [[TMP1]]
2778 ;
2779   %1 = call <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2780   ret <16 x i16> %1
2781 }
2782
2783 define <16 x i16> @shuffle_test_permvar_hi_256_mask(<16 x i16> %a0, <16 x i16> %passthru, i16 %mask) {
2784 ;
2785 ; CHECK-LABEL: @shuffle_test_permvar_hi_256_mask(
2786 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i16> [[A0:%.*]], <16 x i16> poison, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2787 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2788 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i16> [[TMP1]], <16 x i16> [[PASSTHRU:%.*]]
2789 ; CHECK-NEXT:    ret <16 x i16> [[TMP3]]
2790 ;
2791   %1 = call <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2792   %2 = bitcast i16 %mask to <16 x i1>
2793   %3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passthru
2794   ret <16 x i16> %3
2795 }
2796
2797 define <16 x i16> @undef_test_permvar_hi_256(<16 x i16> %a0) {
2798 ;
2799 ; CHECK-LABEL: @undef_test_permvar_hi_256(
2800 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i16> [[A0:%.*]], <16 x i16> poison, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2801 ; CHECK-NEXT:    ret <16 x i16> [[TMP1]]
2802 ;
2803   %1 = call <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 undef, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2804   ret <16 x i16> %1
2805 }
2806
2807 define <16 x i16> @undef_test_permvar_hi_256_mask(<16 x i16> %a0, <16 x i16> %passthru, i16 %mask) {
2808 ;
2809 ; CHECK-LABEL: @undef_test_permvar_hi_256_mask(
2810 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i16> [[A0:%.*]], <16 x i16> poison, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2811 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2812 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i16> [[TMP1]], <16 x i16> [[PASSTHRU:%.*]]
2813 ; CHECK-NEXT:    ret <16 x i16> [[TMP3]]
2814 ;
2815   %1 = call <16 x i16> @llvm.x86.avx512.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 undef, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2816   %2 = bitcast i16 %mask to <16 x i1>
2817   %3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passthru
2818   ret <16 x i16> %3
2819 }
2820
2821 declare <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16>, <32 x i16>)
2822
2823 define <32 x i16> @identity_test_permvar_hi_512(<32 x i16> %a0) {
2824 ;
2825 ; CHECK-LABEL: @identity_test_permvar_hi_512(
2826 ; CHECK-NEXT:    ret <32 x i16> [[A0:%.*]]
2827 ;
2828   %1 = call <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15, i16 16, i16 17, i16 18, i16 19, i16 20, i16 21, i16 22, i16 23, i16 24, i16 25, i16 26, i16 27, i16 28, i16 29, i16 30, i16 31>)
2829   ret <32 x i16> %1
2830 }
2831
2832 define <32 x i16> @identity_test_permvar_hi_512_mask(<32 x i16> %a0, <32 x i16> %passthru, i32 %mask) {
2833 ;
2834 ; CHECK-LABEL: @identity_test_permvar_hi_512_mask(
2835 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i32 [[MASK:%.*]] to <32 x i1>
2836 ; CHECK-NEXT:    [[TMP2:%.*]] = select <32 x i1> [[TMP1]], <32 x i16> [[A0:%.*]], <32 x i16> [[PASSTHRU:%.*]]
2837 ; CHECK-NEXT:    ret <32 x i16> [[TMP2]]
2838 ;
2839   %1 = call <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15, i16 16, i16 17, i16 18, i16 19, i16 20, i16 21, i16 22, i16 23, i16 24, i16 25, i16 26, i16 27, i16 28, i16 29, i16 30, i16 31>)
2840   %2 = bitcast i32 %mask to <32 x i1>
2841   %3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passthru
2842   ret <32 x i16> %3
2843 }
2844
2845 define <32 x i16> @zero_test_permvar_hi_512(<32 x i16> %a0) {
2846 ;
2847 ; CHECK-LABEL: @zero_test_permvar_hi_512(
2848 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i16> [[A0:%.*]], <32 x i16> poison, <32 x i32> zeroinitializer
2849 ; CHECK-NEXT:    ret <32 x i16> [[TMP1]]
2850 ;
2851   %1 = call <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16> %a0, <32 x i16> zeroinitializer)
2852   ret <32 x i16> %1
2853 }
2854
2855 define <32 x i16> @zero_test_permvar_hi_512_mask(<32 x i16> %a0, <32 x i16> %passthru, i32 %mask) {
2856 ;
2857 ; CHECK-LABEL: @zero_test_permvar_hi_512_mask(
2858 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i16> [[A0:%.*]], <32 x i16> poison, <32 x i32> zeroinitializer
2859 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i32 [[MASK:%.*]] to <32 x i1>
2860 ; CHECK-NEXT:    [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i16> [[TMP1]], <32 x i16> [[PASSTHRU:%.*]]
2861 ; CHECK-NEXT:    ret <32 x i16> [[TMP3]]
2862 ;
2863   %1 = call <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16> %a0, <32 x i16> zeroinitializer)
2864   %2 = bitcast i32 %mask to <32 x i1>
2865   %3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passthru
2866   ret <32 x i16> %3
2867 }
2868
2869 define <32 x i16> @shuffle_test_permvar_hi_512(<32 x i16> %a0) {
2870 ;
2871 ; CHECK-LABEL: @shuffle_test_permvar_hi_512(
2872 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i16> [[A0:%.*]], <32 x i16> poison, <32 x i32> <i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2873 ; CHECK-NEXT:    ret <32 x i16> [[TMP1]]
2874 ;
2875   %1 = call <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2876   ret <32 x i16> %1
2877 }
2878
2879 define <32 x i16> @shuffle_test_permvar_hi_512_mask(<32 x i16> %a0, <32 x i16> %passthru, i32 %mask) {
2880 ;
2881 ; CHECK-LABEL: @shuffle_test_permvar_hi_512_mask(
2882 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i16> [[A0:%.*]], <32 x i16> poison, <32 x i32> <i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2883 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i32 [[MASK:%.*]] to <32 x i1>
2884 ; CHECK-NEXT:    [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i16> [[TMP1]], <32 x i16> [[PASSTHRU:%.*]]
2885 ; CHECK-NEXT:    ret <32 x i16> [[TMP3]]
2886 ;
2887   %1 = call <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2888   %2 = bitcast i32 %mask to <32 x i1>
2889   %3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passthru
2890   ret <32 x i16> %3
2891 }
2892
2893 define <32 x i16> @undef_test_permvar_hi_512(<32 x i16> %a0) {
2894 ;
2895 ; CHECK-LABEL: @undef_test_permvar_hi_512(
2896 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i16> [[A0:%.*]], <32 x i16> poison, <32 x i32> <i32 undef, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2897 ; CHECK-NEXT:    ret <32 x i16> [[TMP1]]
2898 ;
2899   %1 = call <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 undef, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2900   ret <32 x i16> %1
2901 }
2902
2903 define <32 x i16> @undef_test_permvar_hi_512_mask(<32 x i16> %a0, <32 x i16> %passthru, i32 %mask) {
2904 ;
2905 ; CHECK-LABEL: @undef_test_permvar_hi_512_mask(
2906 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i16> [[A0:%.*]], <32 x i16> poison, <32 x i32> <i32 undef, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2907 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i32 [[MASK:%.*]] to <32 x i1>
2908 ; CHECK-NEXT:    [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i16> [[TMP1]], <32 x i16> [[PASSTHRU:%.*]]
2909 ; CHECK-NEXT:    ret <32 x i16> [[TMP3]]
2910 ;
2911   %1 = call <32 x i16> @llvm.x86.avx512.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 undef, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>)
2912   %2 = bitcast i32 %mask to <32 x i1>
2913   %3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passthru
2914   ret <32 x i16> %3
2915 }
2916
2917 declare <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8>, <16 x i8>)
2918
2919 define <16 x i8> @identity_test_permvar_qi_128(<16 x i8> %a0) {
2920 ;
2921 ; CHECK-LABEL: @identity_test_permvar_qi_128(
2922 ; CHECK-NEXT:    ret <16 x i8> [[A0:%.*]]
2923 ;
2924   %1 = call <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>)
2925   ret <16 x i8> %1
2926 }
2927
2928 define <16 x i8> @identity_test_permvar_qi_128_mask(<16 x i8> %a0, <16 x i8> %passthru, i16 %mask) {
2929 ;
2930 ; CHECK-LABEL: @identity_test_permvar_qi_128_mask(
2931 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2932 ; CHECK-NEXT:    [[TMP2:%.*]] = select <16 x i1> [[TMP1]], <16 x i8> [[A0:%.*]], <16 x i8> [[PASSTHRU:%.*]]
2933 ; CHECK-NEXT:    ret <16 x i8> [[TMP2]]
2934 ;
2935   %1 = call <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>)
2936   %2 = bitcast i16 %mask to <16 x i1>
2937   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passthru
2938   ret <16 x i8> %3
2939 }
2940
2941 define <16 x i8> @zero_test_permvar_qi_128(<16 x i8> %a0) {
2942 ;
2943 ; CHECK-LABEL: @zero_test_permvar_qi_128(
2944 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i8> [[A0:%.*]], <16 x i8> poison, <16 x i32> zeroinitializer
2945 ; CHECK-NEXT:    ret <16 x i8> [[TMP1]]
2946 ;
2947   %1 = call <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8> %a0, <16 x i8> zeroinitializer)
2948   ret <16 x i8> %1
2949 }
2950
2951 define <16 x i8> @zero_test_permvar_qi_128_mask(<16 x i8> %a0, <16 x i8> %passthru, i16 %mask) {
2952 ;
2953 ; CHECK-LABEL: @zero_test_permvar_qi_128_mask(
2954 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i8> [[A0:%.*]], <16 x i8> poison, <16 x i32> zeroinitializer
2955 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2956 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i8> [[TMP1]], <16 x i8> [[PASSTHRU:%.*]]
2957 ; CHECK-NEXT:    ret <16 x i8> [[TMP3]]
2958 ;
2959   %1 = call <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8> %a0, <16 x i8> zeroinitializer)
2960   %2 = bitcast i16 %mask to <16 x i1>
2961   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passthru
2962   ret <16 x i8> %3
2963 }
2964
2965 define <16 x i8> @shuffle_test_permvar_qi_128(<16 x i8> %a0) {
2966 ;
2967 ; CHECK-LABEL: @shuffle_test_permvar_qi_128(
2968 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i8> [[A0:%.*]], <16 x i8> poison, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2969 ; CHECK-NEXT:    ret <16 x i8> [[TMP1]]
2970 ;
2971   %1 = call <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
2972   ret <16 x i8> %1
2973 }
2974
2975 define <16 x i8> @shuffle_test_permvar_qi_128_mask(<16 x i8> %a0, <16 x i8> %passthru, i16 %mask) {
2976 ;
2977 ; CHECK-LABEL: @shuffle_test_permvar_qi_128_mask(
2978 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i8> [[A0:%.*]], <16 x i8> poison, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2979 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
2980 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i8> [[TMP1]], <16 x i8> [[PASSTHRU:%.*]]
2981 ; CHECK-NEXT:    ret <16 x i8> [[TMP3]]
2982 ;
2983   %1 = call <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
2984   %2 = bitcast i16 %mask to <16 x i1>
2985   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passthru
2986   ret <16 x i8> %3
2987 }
2988
2989 define <16 x i8> @undef_test_permvar_qi_128(<16 x i8> %a0) {
2990 ;
2991 ; CHECK-LABEL: @undef_test_permvar_qi_128(
2992 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i8> [[A0:%.*]], <16 x i8> poison, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
2993 ; CHECK-NEXT:    ret <16 x i8> [[TMP1]]
2994 ;
2995   %1 = call <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 undef, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
2996   ret <16 x i8> %1
2997 }
2998
2999 define <16 x i8> @undef_test_permvar_qi_128_mask(<16 x i8> %a0, <16 x i8> %passthru, i16 %mask) {
3000 ;
3001 ; CHECK-LABEL: @undef_test_permvar_qi_128_mask(
3002 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <16 x i8> [[A0:%.*]], <16 x i8> poison, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3003 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3004 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i8> [[TMP1]], <16 x i8> [[PASSTHRU:%.*]]
3005 ; CHECK-NEXT:    ret <16 x i8> [[TMP3]]
3006 ;
3007   %1 = call <16 x i8> @llvm.x86.avx512.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 undef, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3008   %2 = bitcast i16 %mask to <16 x i1>
3009   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passthru
3010   ret <16 x i8> %3
3011 }
3012
3013 declare <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8>, <32 x i8>)
3014
3015 define <32 x i8> @identity_test_permvar_qi_256(<32 x i8> %a0) {
3016 ;
3017 ; CHECK-LABEL: @identity_test_permvar_qi_256(
3018 ; CHECK-NEXT:    ret <32 x i8> [[A0:%.*]]
3019 ;
3020   %1 = call <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31>)
3021   ret <32 x i8> %1
3022 }
3023
3024 define <32 x i8> @identity_test_permvar_qi_256_mask(<32 x i8> %a0, <32 x i8> %passthru, i32 %mask) {
3025 ;
3026 ; CHECK-LABEL: @identity_test_permvar_qi_256_mask(
3027 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i32 [[MASK:%.*]] to <32 x i1>
3028 ; CHECK-NEXT:    [[TMP2:%.*]] = select <32 x i1> [[TMP1]], <32 x i8> [[A0:%.*]], <32 x i8> [[PASSTHRU:%.*]]
3029 ; CHECK-NEXT:    ret <32 x i8> [[TMP2]]
3030 ;
3031   %1 = call <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31>)
3032   %2 = bitcast i32 %mask to <32 x i1>
3033   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passthru
3034   ret <32 x i8> %3
3035 }
3036
3037 define <32 x i8> @zero_test_permvar_qi_256(<32 x i8> %a0) {
3038 ;
3039 ; CHECK-LABEL: @zero_test_permvar_qi_256(
3040 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i8> [[A0:%.*]], <32 x i8> poison, <32 x i32> zeroinitializer
3041 ; CHECK-NEXT:    ret <32 x i8> [[TMP1]]
3042 ;
3043   %1 = call <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8> %a0, <32 x i8> zeroinitializer)
3044   ret <32 x i8> %1
3045 }
3046
3047 define <32 x i8> @zero_test_permvar_qi_256_mask(<32 x i8> %a0, <32 x i8> %passthru, i32 %mask) {
3048 ;
3049 ; CHECK-LABEL: @zero_test_permvar_qi_256_mask(
3050 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i8> [[A0:%.*]], <32 x i8> poison, <32 x i32> zeroinitializer
3051 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i32 [[MASK:%.*]] to <32 x i1>
3052 ; CHECK-NEXT:    [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i8> [[TMP1]], <32 x i8> [[PASSTHRU:%.*]]
3053 ; CHECK-NEXT:    ret <32 x i8> [[TMP3]]
3054 ;
3055   %1 = call <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8> %a0, <32 x i8> zeroinitializer)
3056   %2 = bitcast i32 %mask to <32 x i1>
3057   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passthru
3058   ret <32 x i8> %3
3059 }
3060
3061 define <32 x i8> @shuffle_test_permvar_qi_256(<32 x i8> %a0) {
3062 ;
3063 ; CHECK-LABEL: @shuffle_test_permvar_qi_256(
3064 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i8> [[A0:%.*]], <32 x i8> poison, <32 x i32> <i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3065 ; CHECK-NEXT:    ret <32 x i8> [[TMP1]]
3066 ;
3067   %1 = call <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3068   ret <32 x i8> %1
3069 }
3070
3071 define <32 x i8> @shuffle_test_permvar_qi_256_mask(<32 x i8> %a0, <32 x i8> %passthru, i32 %mask) {
3072 ;
3073 ; CHECK-LABEL: @shuffle_test_permvar_qi_256_mask(
3074 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i8> [[A0:%.*]], <32 x i8> poison, <32 x i32> <i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3075 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i32 [[MASK:%.*]] to <32 x i1>
3076 ; CHECK-NEXT:    [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i8> [[TMP1]], <32 x i8> [[PASSTHRU:%.*]]
3077 ; CHECK-NEXT:    ret <32 x i8> [[TMP3]]
3078 ;
3079   %1 = call <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3080   %2 = bitcast i32 %mask to <32 x i1>
3081   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passthru
3082   ret <32 x i8> %3
3083 }
3084
3085 define <32 x i8> @undef_test_permvar_qi_256(<32 x i8> %a0) {
3086 ;
3087 ; CHECK-LABEL: @undef_test_permvar_qi_256(
3088 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i8> [[A0:%.*]], <32 x i8> poison, <32 x i32> <i32 undef, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3089 ; CHECK-NEXT:    ret <32 x i8> [[TMP1]]
3090 ;
3091   %1 = call <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 undef, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3092   ret <32 x i8> %1
3093 }
3094
3095 define <32 x i8> @undef_test_permvar_qi_256_mask(<32 x i8> %a0, <32 x i8> %passthru, i32 %mask) {
3096 ;
3097 ; CHECK-LABEL: @undef_test_permvar_qi_256_mask(
3098 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <32 x i8> [[A0:%.*]], <32 x i8> poison, <32 x i32> <i32 undef, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3099 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i32 [[MASK:%.*]] to <32 x i1>
3100 ; CHECK-NEXT:    [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i8> [[TMP1]], <32 x i8> [[PASSTHRU:%.*]]
3101 ; CHECK-NEXT:    ret <32 x i8> [[TMP3]]
3102 ;
3103   %1 = call <32 x i8> @llvm.x86.avx512.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 undef, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3104   %2 = bitcast i32 %mask to <32 x i1>
3105   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passthru
3106   ret <32 x i8> %3
3107 }
3108
3109 declare <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8>, <64 x i8>)
3110
3111 define <64 x i8> @identity_test_permvar_qi_512(<64 x i8> %a0) {
3112 ;
3113 ; CHECK-LABEL: @identity_test_permvar_qi_512(
3114 ; CHECK-NEXT:    ret <64 x i8> [[A0:%.*]]
3115 ;
3116   %1 = call <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31, i8 32, i8 33, i8 34, i8 35, i8 36, i8 37, i8 38, i8 39, i8 40, i8 41, i8 42, i8 43, i8 44, i8 45, i8 46, i8 47, i8 48, i8 49, i8 50, i8 51, i8 52, i8 53, i8 54, i8 55, i8 56, i8 57, i8 58, i8 59, i8 60, i8 61, i8 62, i8 63>)
3117   ret <64 x i8> %1
3118 }
3119
3120 define <64 x i8> @identity_test_permvar_qi_512_mask(<64 x i8> %a0, <64 x i8> %passthru, i64 %mask) {
3121 ;
3122 ; CHECK-LABEL: @identity_test_permvar_qi_512_mask(
3123 ; CHECK-NEXT:    [[TMP1:%.*]] = bitcast i64 [[MASK:%.*]] to <64 x i1>
3124 ; CHECK-NEXT:    [[TMP2:%.*]] = select <64 x i1> [[TMP1]], <64 x i8> [[A0:%.*]], <64 x i8> [[PASSTHRU:%.*]]
3125 ; CHECK-NEXT:    ret <64 x i8> [[TMP2]]
3126 ;
3127   %1 = call <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31, i8 32, i8 33, i8 34, i8 35, i8 36, i8 37, i8 38, i8 39, i8 40, i8 41, i8 42, i8 43, i8 44, i8 45, i8 46, i8 47, i8 48, i8 49, i8 50, i8 51, i8 52, i8 53, i8 54, i8 55, i8 56, i8 57, i8 58, i8 59, i8 60, i8 61, i8 62, i8 63>)
3128   %2 = bitcast i64 %mask to <64 x i1>
3129   %3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passthru
3130   ret <64 x i8> %3
3131 }
3132
3133 define <64 x i8> @zero_test_permvar_qi_512(<64 x i8> %a0) {
3134 ;
3135 ; CHECK-LABEL: @zero_test_permvar_qi_512(
3136 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <64 x i8> [[A0:%.*]], <64 x i8> poison, <64 x i32> zeroinitializer
3137 ; CHECK-NEXT:    ret <64 x i8> [[TMP1]]
3138 ;
3139   %1 = call <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8> %a0, <64 x i8> zeroinitializer)
3140   ret <64 x i8> %1
3141 }
3142
3143 define <64 x i8> @zero_test_permvar_qi_512_mask(<64 x i8> %a0, <64 x i8> %passthru, i64 %mask) {
3144 ;
3145 ; CHECK-LABEL: @zero_test_permvar_qi_512_mask(
3146 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <64 x i8> [[A0:%.*]], <64 x i8> poison, <64 x i32> zeroinitializer
3147 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i64 [[MASK:%.*]] to <64 x i1>
3148 ; CHECK-NEXT:    [[TMP3:%.*]] = select <64 x i1> [[TMP2]], <64 x i8> [[TMP1]], <64 x i8> [[PASSTHRU:%.*]]
3149 ; CHECK-NEXT:    ret <64 x i8> [[TMP3]]
3150 ;
3151   %1 = call <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8> %a0, <64 x i8> zeroinitializer)
3152   %2 = bitcast i64 %mask to <64 x i1>
3153   %3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passthru
3154   ret <64 x i8> %3
3155 }
3156
3157 define <64 x i8> @shuffle_test_permvar_qi_512(<64 x i8> %a0) {
3158 ;
3159 ; CHECK-LABEL: @shuffle_test_permvar_qi_512(
3160 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <64 x i8> [[A0:%.*]], <64 x i8> poison, <64 x i32> <i32 63, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3161 ; CHECK-NEXT:    ret <64 x i8> [[TMP1]]
3162 ;
3163   %1 = call <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 63, i8 62, i8 61, i8 60, i8 59, i8 58, i8 57, i8 56, i8 55, i8 54, i8 53, i8 52, i8 51, i8 50, i8 49, i8 48, i8 47, i8 46, i8 45, i8 44, i8 43, i8 42, i8 41, i8 40, i8 39, i8 38, i8 37, i8 36, i8 35, i8 34, i8 33, i8 32, i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3164   ret <64 x i8> %1
3165 }
3166
3167 define <64 x i8> @shuffle_test_permvar_qi_512_mask(<64 x i8> %a0, <64 x i8> %passthru, i64 %mask) {
3168 ;
3169 ; CHECK-LABEL: @shuffle_test_permvar_qi_512_mask(
3170 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <64 x i8> [[A0:%.*]], <64 x i8> poison, <64 x i32> <i32 63, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3171 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i64 [[MASK:%.*]] to <64 x i1>
3172 ; CHECK-NEXT:    [[TMP3:%.*]] = select <64 x i1> [[TMP2]], <64 x i8> [[TMP1]], <64 x i8> [[PASSTHRU:%.*]]
3173 ; CHECK-NEXT:    ret <64 x i8> [[TMP3]]
3174 ;
3175   %1 = call <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 63, i8 62, i8 61, i8 60, i8 59, i8 58, i8 57, i8 56, i8 55, i8 54, i8 53, i8 52, i8 51, i8 50, i8 49, i8 48, i8 47, i8 46, i8 45, i8 44, i8 43, i8 42, i8 41, i8 40, i8 39, i8 38, i8 37, i8 36, i8 35, i8 34, i8 33, i8 32, i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3176   %2 = bitcast i64 %mask to <64 x i1>
3177   %3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passthru
3178   ret <64 x i8> %3
3179 }
3180
3181 define <64 x i8> @undef_test_permvar_qi_512(<64 x i8> %a0) {
3182 ;
3183 ; CHECK-LABEL: @undef_test_permvar_qi_512(
3184 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <64 x i8> [[A0:%.*]], <64 x i8> poison, <64 x i32> <i32 undef, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3185 ; CHECK-NEXT:    ret <64 x i8> [[TMP1]]
3186 ;
3187   %1 = call <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 undef, i8 62, i8 61, i8 60, i8 59, i8 58, i8 57, i8 56, i8 55, i8 54, i8 53, i8 52, i8 51, i8 50, i8 49, i8 48, i8 47, i8 46, i8 45, i8 44, i8 43, i8 42, i8 41, i8 40, i8 39, i8 38, i8 37, i8 36, i8 35, i8 34, i8 33, i8 32, i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3188   ret <64 x i8> %1
3189 }
3190
3191 define <64 x i8> @undef_test_permvar_qi_512_mask(<64 x i8> %a0, <64 x i8> %passthru, i64 %mask) {
3192 ;
3193 ; CHECK-LABEL: @undef_test_permvar_qi_512_mask(
3194 ; CHECK-NEXT:    [[TMP1:%.*]] = shufflevector <64 x i8> [[A0:%.*]], <64 x i8> poison, <64 x i32> <i32 undef, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
3195 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i64 [[MASK:%.*]] to <64 x i1>
3196 ; CHECK-NEXT:    [[TMP3:%.*]] = select <64 x i1> [[TMP2]], <64 x i8> [[TMP1]], <64 x i8> [[PASSTHRU:%.*]]
3197 ; CHECK-NEXT:    ret <64 x i8> [[TMP3]]
3198 ;
3199   %1 = call <64 x i8> @llvm.x86.avx512.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 undef, i8 62, i8 61, i8 60, i8 59, i8 58, i8 57, i8 56, i8 55, i8 54, i8 53, i8 52, i8 51, i8 50, i8 49, i8 48, i8 47, i8 46, i8 45, i8 44, i8 43, i8 42, i8 41, i8 40, i8 39, i8 38, i8 37, i8 36, i8 35, i8 34, i8 33, i8 32, i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
3200   %2 = bitcast i64 %mask to <64 x i1>
3201   %3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passthru
3202   ret <64 x i8> %3
3203 }
3204
3205 declare <16 x float> @llvm.x86.avx512.add.ps.512(<16 x float>, <16 x float>, i32)
3206
3207 define <16 x float> @test_add_ps(<16 x float> %a, <16 x float> %b) {
3208 ;
3209 ; CHECK-LABEL: @test_add_ps(
3210 ; CHECK-NEXT:    [[TMP1:%.*]] = fadd <16 x float> [[A:%.*]], [[B:%.*]]
3211 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
3212 ;
3213   %1 = call <16 x float> @llvm.x86.avx512.add.ps.512(<16 x float> %a, <16 x float> %b, i32 4)
3214   ret <16 x float> %1
3215 }
3216
3217 define <16 x float> @test_add_ps_round(<16 x float> %a, <16 x float> %b) {
3218 ;
3219 ; CHECK-LABEL: @test_add_ps_round(
3220 ; CHECK-NEXT:    [[TMP1:%.*]] = call <16 x float> @llvm.x86.avx512.add.ps.512(<16 x float> [[A:%.*]], <16 x float> [[B:%.*]], i32 8)
3221 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
3222 ;
3223   %1 = call <16 x float> @llvm.x86.avx512.add.ps.512(<16 x float> %a, <16 x float> %b, i32 8)
3224   ret <16 x float> %1
3225 }
3226
3227 define <16 x float> @test_add_ps_mask(<16 x float> %a, <16 x float> %b, <16 x float> %c, i16 %mask) {
3228 ;
3229 ; CHECK-LABEL: @test_add_ps_mask(
3230 ; CHECK-NEXT:    [[TMP1:%.*]] = fadd <16 x float> [[A:%.*]], [[B:%.*]]
3231 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3232 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[C:%.*]]
3233 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
3234 ;
3235   %1 = call <16 x float> @llvm.x86.avx512.add.ps.512(<16 x float> %a, <16 x float> %b, i32 4)
3236   %2 = bitcast i16 %mask to <16 x i1>
3237   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %c
3238   ret <16 x float> %3
3239 }
3240
3241 define <16 x float> @test_add_ps_mask_round(<16 x float> %a, <16 x float> %b, <16 x float> %c, i16 %mask) {
3242 ;
3243 ; CHECK-LABEL: @test_add_ps_mask_round(
3244 ; CHECK-NEXT:    [[TMP1:%.*]] = call <16 x float> @llvm.x86.avx512.add.ps.512(<16 x float> [[A:%.*]], <16 x float> [[B:%.*]], i32 8)
3245 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3246 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[C:%.*]]
3247 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
3248 ;
3249   %1 = call <16 x float> @llvm.x86.avx512.add.ps.512(<16 x float> %a, <16 x float> %b, i32 8)
3250   %2 = bitcast i16 %mask to <16 x i1>
3251   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %c
3252   ret <16 x float> %3
3253 }
3254
3255 declare <8 x double> @llvm.x86.avx512.add.pd.512(<8 x double>, <8 x double>, i32)
3256
3257 define <8 x double> @test_add_pd(<8 x double> %a, <8 x double> %b) {
3258 ;
3259 ; CHECK-LABEL: @test_add_pd(
3260 ; CHECK-NEXT:    [[TMP1:%.*]] = fadd <8 x double> [[A:%.*]], [[B:%.*]]
3261 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
3262 ;
3263   %1 = call <8 x double> @llvm.x86.avx512.add.pd.512(<8 x double> %a, <8 x double> %b, i32 4)
3264   ret <8 x double> %1
3265 }
3266
3267 define <8 x double> @test_add_pd_round(<8 x double> %a, <8 x double> %b) {
3268 ;
3269 ; CHECK-LABEL: @test_add_pd_round(
3270 ; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x double> @llvm.x86.avx512.add.pd.512(<8 x double> [[A:%.*]], <8 x double> [[B:%.*]], i32 8)
3271 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
3272 ;
3273   %1 = call <8 x double> @llvm.x86.avx512.add.pd.512(<8 x double> %a, <8 x double> %b, i32 8)
3274   ret <8 x double> %1
3275 }
3276
3277 define <8 x double> @test_add_pd_mask(<8 x double> %a, <8 x double> %b, <8 x double> %c, i8 %mask) {
3278 ;
3279 ; CHECK-LABEL: @test_add_pd_mask(
3280 ; CHECK-NEXT:    [[TMP1:%.*]] = fadd <8 x double> [[A:%.*]], [[B:%.*]]
3281 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
3282 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[C:%.*]]
3283 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
3284 ;
3285   %1 = call <8 x double> @llvm.x86.avx512.add.pd.512(<8 x double> %a, <8 x double> %b, i32 4)
3286   %2 = bitcast i8 %mask to <8 x i1>
3287   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %c
3288   ret <8 x double> %3
3289 }
3290
3291 define <8 x double> @test_add_pd_mask_round(<8 x double> %a, <8 x double> %b, <8 x double> %c, i8 %mask) {
3292 ;
3293 ; CHECK-LABEL: @test_add_pd_mask_round(
3294 ; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x double> @llvm.x86.avx512.add.pd.512(<8 x double> [[A:%.*]], <8 x double> [[B:%.*]], i32 8)
3295 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
3296 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[C:%.*]]
3297 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
3298 ;
3299   %1 = call <8 x double> @llvm.x86.avx512.add.pd.512(<8 x double> %a, <8 x double> %b, i32 8)
3300   %2 = bitcast i8 %mask to <8 x i1>
3301   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %c
3302   ret <8 x double> %3
3303 }
3304
3305 declare <16 x float> @llvm.x86.avx512.sub.ps.512(<16 x float>, <16 x float>, i32)
3306
3307 define <16 x float> @test_sub_ps(<16 x float> %a, <16 x float> %b) {
3308 ;
3309 ; CHECK-LABEL: @test_sub_ps(
3310 ; CHECK-NEXT:    [[TMP1:%.*]] = fsub <16 x float> [[A:%.*]], [[B:%.*]]
3311 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
3312 ;
3313   %1 = call <16 x float> @llvm.x86.avx512.sub.ps.512(<16 x float> %a, <16 x float> %b, i32 4)
3314   ret <16 x float> %1
3315 }
3316
3317 define <16 x float> @test_sub_ps_round(<16 x float> %a, <16 x float> %b) {
3318 ;
3319 ; CHECK-LABEL: @test_sub_ps_round(
3320 ; CHECK-NEXT:    [[TMP1:%.*]] = call <16 x float> @llvm.x86.avx512.sub.ps.512(<16 x float> [[A:%.*]], <16 x float> [[B:%.*]], i32 8)
3321 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
3322 ;
3323   %1 = call <16 x float> @llvm.x86.avx512.sub.ps.512(<16 x float> %a, <16 x float> %b, i32 8)
3324   ret <16 x float> %1
3325 }
3326
3327 define <16 x float> @test_sub_ps_mask(<16 x float> %a, <16 x float> %b, <16 x float> %c, i16 %mask) {
3328 ;
3329 ; CHECK-LABEL: @test_sub_ps_mask(
3330 ; CHECK-NEXT:    [[TMP1:%.*]] = fsub <16 x float> [[A:%.*]], [[B:%.*]]
3331 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3332 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[C:%.*]]
3333 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
3334 ;
3335   %1 = call <16 x float> @llvm.x86.avx512.sub.ps.512(<16 x float> %a, <16 x float> %b, i32 4)
3336   %2 = bitcast i16 %mask to <16 x i1>
3337   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %c
3338   ret <16 x float> %3
3339 }
3340
3341 define <16 x float> @test_sub_ps_mask_round(<16 x float> %a, <16 x float> %b, <16 x float> %c, i16 %mask) {
3342 ;
3343 ; CHECK-LABEL: @test_sub_ps_mask_round(
3344 ; CHECK-NEXT:    [[TMP1:%.*]] = call <16 x float> @llvm.x86.avx512.sub.ps.512(<16 x float> [[A:%.*]], <16 x float> [[B:%.*]], i32 8)
3345 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3346 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[C:%.*]]
3347 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
3348 ;
3349   %1 = call <16 x float> @llvm.x86.avx512.sub.ps.512(<16 x float> %a, <16 x float> %b, i32 8)
3350   %2 = bitcast i16 %mask to <16 x i1>
3351   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %c
3352   ret <16 x float> %3
3353 }
3354
3355 declare <8 x double> @llvm.x86.avx512.sub.pd.512(<8 x double>, <8 x double>, i32)
3356
3357 define <8 x double> @test_sub_pd(<8 x double> %a, <8 x double> %b) {
3358 ;
3359 ; CHECK-LABEL: @test_sub_pd(
3360 ; CHECK-NEXT:    [[TMP1:%.*]] = fsub <8 x double> [[A:%.*]], [[B:%.*]]
3361 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
3362 ;
3363   %1 = call <8 x double> @llvm.x86.avx512.sub.pd.512(<8 x double> %a, <8 x double> %b, i32 4)
3364   ret <8 x double> %1
3365 }
3366
3367 define <8 x double> @test_sub_pd_round(<8 x double> %a, <8 x double> %b) {
3368 ;
3369 ; CHECK-LABEL: @test_sub_pd_round(
3370 ; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x double> @llvm.x86.avx512.sub.pd.512(<8 x double> [[A:%.*]], <8 x double> [[B:%.*]], i32 8)
3371 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
3372 ;
3373   %1 = call <8 x double> @llvm.x86.avx512.sub.pd.512(<8 x double> %a, <8 x double> %b, i32 8)
3374   ret <8 x double> %1
3375 }
3376
3377 define <8 x double> @test_sub_pd_mask(<8 x double> %a, <8 x double> %b, <8 x double> %c, i8 %mask) {
3378 ;
3379 ; CHECK-LABEL: @test_sub_pd_mask(
3380 ; CHECK-NEXT:    [[TMP1:%.*]] = fsub <8 x double> [[A:%.*]], [[B:%.*]]
3381 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
3382 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[C:%.*]]
3383 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
3384 ;
3385   %1 = call <8 x double> @llvm.x86.avx512.sub.pd.512(<8 x double> %a, <8 x double> %b, i32 4)
3386   %2 = bitcast i8 %mask to <8 x i1>
3387   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %c
3388   ret <8 x double> %3
3389 }
3390
3391 define <8 x double> @test_sub_pd_mask_round(<8 x double> %a, <8 x double> %b, <8 x double> %c, i8 %mask) {
3392 ;
3393 ; CHECK-LABEL: @test_sub_pd_mask_round(
3394 ; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x double> @llvm.x86.avx512.sub.pd.512(<8 x double> [[A:%.*]], <8 x double> [[B:%.*]], i32 8)
3395 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
3396 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[C:%.*]]
3397 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
3398 ;
3399   %1 = call <8 x double> @llvm.x86.avx512.sub.pd.512(<8 x double> %a, <8 x double> %b, i32 8)
3400   %2 = bitcast i8 %mask to <8 x i1>
3401   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %c
3402   ret <8 x double> %3
3403 }
3404
3405 declare <16 x float> @llvm.x86.avx512.mul.ps.512(<16 x float>, <16 x float>, i32)
3406
3407 define <16 x float> @test_mul_ps(<16 x float> %a, <16 x float> %b) {
3408 ;
3409 ; CHECK-LABEL: @test_mul_ps(
3410 ; CHECK-NEXT:    [[TMP1:%.*]] = fmul <16 x float> [[A:%.*]], [[B:%.*]]
3411 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
3412 ;
3413   %1 = call <16 x float> @llvm.x86.avx512.mul.ps.512(<16 x float> %a, <16 x float> %b, i32 4)
3414   ret <16 x float> %1
3415 }
3416
3417 define <16 x float> @test_mul_ps_round(<16 x float> %a, <16 x float> %b) {
3418 ;
3419 ; CHECK-LABEL: @test_mul_ps_round(
3420 ; CHECK-NEXT:    [[TMP1:%.*]] = call <16 x float> @llvm.x86.avx512.mul.ps.512(<16 x float> [[A:%.*]], <16 x float> [[B:%.*]], i32 8)
3421 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
3422 ;
3423   %1 = call <16 x float> @llvm.x86.avx512.mul.ps.512(<16 x float> %a, <16 x float> %b, i32 8)
3424   ret <16 x float> %1
3425 }
3426
3427 define <16 x float> @test_mul_ps_mask(<16 x float> %a, <16 x float> %b, <16 x float> %c, i16 %mask) {
3428 ;
3429 ; CHECK-LABEL: @test_mul_ps_mask(
3430 ; CHECK-NEXT:    [[TMP1:%.*]] = fmul <16 x float> [[A:%.*]], [[B:%.*]]
3431 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3432 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[C:%.*]]
3433 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
3434 ;
3435   %1 = call <16 x float> @llvm.x86.avx512.mul.ps.512(<16 x float> %a, <16 x float> %b, i32 4)
3436   %2 = bitcast i16 %mask to <16 x i1>
3437   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %c
3438   ret <16 x float> %3
3439 }
3440
3441 define <16 x float> @test_mul_ps_mask_round(<16 x float> %a, <16 x float> %b, <16 x float> %c, i16 %mask) {
3442 ;
3443 ; CHECK-LABEL: @test_mul_ps_mask_round(
3444 ; CHECK-NEXT:    [[TMP1:%.*]] = call <16 x float> @llvm.x86.avx512.mul.ps.512(<16 x float> [[A:%.*]], <16 x float> [[B:%.*]], i32 8)
3445 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3446 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[C:%.*]]
3447 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
3448 ;
3449   %1 = call <16 x float> @llvm.x86.avx512.mul.ps.512(<16 x float> %a, <16 x float> %b, i32 8)
3450   %2 = bitcast i16 %mask to <16 x i1>
3451   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %c
3452   ret <16 x float> %3
3453 }
3454
3455 declare <8 x double> @llvm.x86.avx512.mul.pd.512(<8 x double>, <8 x double>, i32)
3456
3457 define <8 x double> @test_mul_pd(<8 x double> %a, <8 x double> %b) {
3458 ;
3459 ; CHECK-LABEL: @test_mul_pd(
3460 ; CHECK-NEXT:    [[TMP1:%.*]] = fmul <8 x double> [[A:%.*]], [[B:%.*]]
3461 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
3462 ;
3463   %1 = call <8 x double> @llvm.x86.avx512.mul.pd.512(<8 x double> %a, <8 x double> %b, i32 4)
3464   ret <8 x double> %1
3465 }
3466
3467 define <8 x double> @test_mul_pd_round(<8 x double> %a, <8 x double> %b) {
3468 ;
3469 ; CHECK-LABEL: @test_mul_pd_round(
3470 ; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x double> @llvm.x86.avx512.mul.pd.512(<8 x double> [[A:%.*]], <8 x double> [[B:%.*]], i32 8)
3471 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
3472 ;
3473   %1 = call <8 x double> @llvm.x86.avx512.mul.pd.512(<8 x double> %a, <8 x double> %b, i32 8)
3474   ret <8 x double> %1
3475 }
3476
3477 define <8 x double> @test_mul_pd_mask(<8 x double> %a, <8 x double> %b, <8 x double> %c, i8 %mask) {
3478 ;
3479 ; CHECK-LABEL: @test_mul_pd_mask(
3480 ; CHECK-NEXT:    [[TMP1:%.*]] = fmul <8 x double> [[A:%.*]], [[B:%.*]]
3481 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
3482 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[C:%.*]]
3483 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
3484 ;
3485   %1 = call <8 x double> @llvm.x86.avx512.mul.pd.512(<8 x double> %a, <8 x double> %b, i32 4)
3486   %2 = bitcast i8 %mask to <8 x i1>
3487   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %c
3488   ret <8 x double> %3
3489 }
3490
3491 define <8 x double> @test_mul_pd_mask_round(<8 x double> %a, <8 x double> %b, <8 x double> %c, i8 %mask) {
3492 ;
3493 ; CHECK-LABEL: @test_mul_pd_mask_round(
3494 ; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x double> @llvm.x86.avx512.mul.pd.512(<8 x double> [[A:%.*]], <8 x double> [[B:%.*]], i32 8)
3495 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
3496 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[C:%.*]]
3497 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
3498 ;
3499   %1 = call <8 x double> @llvm.x86.avx512.mul.pd.512(<8 x double> %a, <8 x double> %b, i32 8)
3500   %2 = bitcast i8 %mask to <8 x i1>
3501   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %c
3502   ret <8 x double> %3
3503 }
3504
3505 declare <16 x float> @llvm.x86.avx512.div.ps.512(<16 x float>, <16 x float>, i32)
3506
3507 define <16 x float> @test_div_ps(<16 x float> %a, <16 x float> %b) {
3508 ;
3509 ; CHECK-LABEL: @test_div_ps(
3510 ; CHECK-NEXT:    [[TMP1:%.*]] = fdiv <16 x float> [[A:%.*]], [[B:%.*]]
3511 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
3512 ;
3513   %1 = call <16 x float> @llvm.x86.avx512.div.ps.512(<16 x float> %a, <16 x float> %b, i32 4)
3514   ret <16 x float> %1
3515 }
3516
3517 define <16 x float> @test_div_ps_round(<16 x float> %a, <16 x float> %b) {
3518 ;
3519 ; CHECK-LABEL: @test_div_ps_round(
3520 ; CHECK-NEXT:    [[TMP1:%.*]] = call <16 x float> @llvm.x86.avx512.div.ps.512(<16 x float> [[A:%.*]], <16 x float> [[B:%.*]], i32 8)
3521 ; CHECK-NEXT:    ret <16 x float> [[TMP1]]
3522 ;
3523   %1 = call <16 x float> @llvm.x86.avx512.div.ps.512(<16 x float> %a, <16 x float> %b, i32 8)
3524   ret <16 x float> %1
3525 }
3526
3527 define <16 x float> @test_div_ps_mask(<16 x float> %a, <16 x float> %b, <16 x float> %c, i16 %mask) {
3528 ;
3529 ; CHECK-LABEL: @test_div_ps_mask(
3530 ; CHECK-NEXT:    [[TMP1:%.*]] = fdiv <16 x float> [[A:%.*]], [[B:%.*]]
3531 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3532 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[C:%.*]]
3533 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
3534 ;
3535   %1 = call <16 x float> @llvm.x86.avx512.div.ps.512(<16 x float> %a, <16 x float> %b, i32 4)
3536   %2 = bitcast i16 %mask to <16 x i1>
3537   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %c
3538   ret <16 x float> %3
3539 }
3540
3541 define <16 x float> @test_div_ps_mask_round(<16 x float> %a, <16 x float> %b, <16 x float> %c, i16 %mask) {
3542 ;
3543 ; CHECK-LABEL: @test_div_ps_mask_round(
3544 ; CHECK-NEXT:    [[TMP1:%.*]] = call <16 x float> @llvm.x86.avx512.div.ps.512(<16 x float> [[A:%.*]], <16 x float> [[B:%.*]], i32 8)
3545 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i16 [[MASK:%.*]] to <16 x i1>
3546 ; CHECK-NEXT:    [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> [[C:%.*]]
3547 ; CHECK-NEXT:    ret <16 x float> [[TMP3]]
3548 ;
3549   %1 = call <16 x float> @llvm.x86.avx512.div.ps.512(<16 x float> %a, <16 x float> %b, i32 8)
3550   %2 = bitcast i16 %mask to <16 x i1>
3551   %3 = select <16 x i1> %2, <16 x float> %1, <16 x float> %c
3552   ret <16 x float> %3
3553 }
3554
3555 declare <8 x double> @llvm.x86.avx512.div.pd.512(<8 x double>, <8 x double>, i32)
3556
3557 define <8 x double> @test_div_pd(<8 x double> %a, <8 x double> %b) {
3558 ;
3559 ; CHECK-LABEL: @test_div_pd(
3560 ; CHECK-NEXT:    [[TMP1:%.*]] = fdiv <8 x double> [[A:%.*]], [[B:%.*]]
3561 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
3562 ;
3563   %1 = call <8 x double> @llvm.x86.avx512.div.pd.512(<8 x double> %a, <8 x double> %b, i32 4)
3564   ret <8 x double> %1
3565 }
3566
3567 define <8 x double> @test_div_pd_round(<8 x double> %a, <8 x double> %b) {
3568 ;
3569 ; CHECK-LABEL: @test_div_pd_round(
3570 ; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x double> @llvm.x86.avx512.div.pd.512(<8 x double> [[A:%.*]], <8 x double> [[B:%.*]], i32 8)
3571 ; CHECK-NEXT:    ret <8 x double> [[TMP1]]
3572 ;
3573   %1 = call <8 x double> @llvm.x86.avx512.div.pd.512(<8 x double> %a, <8 x double> %b, i32 8)
3574   ret <8 x double> %1
3575 }
3576
3577 define <8 x double> @test_div_pd_mask(<8 x double> %a, <8 x double> %b, <8 x double> %c, i8 %mask) {
3578 ;
3579 ; CHECK-LABEL: @test_div_pd_mask(
3580 ; CHECK-NEXT:    [[TMP1:%.*]] = fdiv <8 x double> [[A:%.*]], [[B:%.*]]
3581 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
3582 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[C:%.*]]
3583 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
3584 ;
3585   %1 = call <8 x double> @llvm.x86.avx512.div.pd.512(<8 x double> %a, <8 x double> %b, i32 4)
3586   %2 = bitcast i8 %mask to <8 x i1>
3587   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %c
3588   ret <8 x double> %3
3589 }
3590
3591 define <8 x double> @test_div_pd_mask_round(<8 x double> %a, <8 x double> %b, <8 x double> %c, i8 %mask) {
3592 ;
3593 ; CHECK-LABEL: @test_div_pd_mask_round(
3594 ; CHECK-NEXT:    [[TMP1:%.*]] = call <8 x double> @llvm.x86.avx512.div.pd.512(<8 x double> [[A:%.*]], <8 x double> [[B:%.*]], i32 8)
3595 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast i8 [[MASK:%.*]] to <8 x i1>
3596 ; CHECK-NEXT:    [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> [[C:%.*]]
3597 ; CHECK-NEXT:    ret <8 x double> [[TMP3]]
3598 ;
3599   %1 = call <8 x double> @llvm.x86.avx512.div.pd.512(<8 x double> %a, <8 x double> %b, i32 8)
3600   %2 = bitcast i8 %mask to <8 x i1>
3601   %3 = select <8 x i1> %2, <8 x double> %1, <8 x double> %c
3602   ret <8 x double> %3
3603 }
3604
3605 declare i32 @llvm.x86.avx512.vcomi.ss(<4 x float>, <4 x float>, i32, i32)
3606
3607 define i32 @test_comi_ss_0(float %a, float %b) {
3608 ;
3609 ; CHECK-LABEL: @test_comi_ss_0(
3610 ; CHECK-NEXT:    [[TMP1:%.*]] = insertelement <4 x float> poison, float [[A:%.*]], i64 0
3611 ; CHECK-NEXT:    [[TMP2:%.*]] = insertelement <4 x float> poison, float [[B:%.*]], i64 0
3612 ; CHECK-NEXT:    [[TMP3:%.*]] = tail call i32 @llvm.x86.avx512.vcomi.ss(<4 x float> [[TMP1]], <4 x float> [[TMP2]], i32 0, i32 4)
3613 ; CHECK-NEXT:    ret i32 [[TMP3]]
3614 ;
3615   %1 = insertelement <4 x float> undef, float %a, i32 0
3616   %2 = insertelement <4 x float> %1, float 1.000000e+00, i32 1
3617   %3 = insertelement <4 x float> %2, float 2.000000e+00, i32 2
3618   %4 = insertelement <4 x float> %3, float 3.000000e+00, i32 3
3619   %5 = insertelement <4 x float> undef, float %b, i32 0
3620   %6 = insertelement <4 x float> %5, float 4.000000e+00, i32 1
3621   %7 = insertelement <4 x float> %6, float 5.000000e+00, i32 2
3622   %8 = insertelement <4 x float> %7, float 6.000000e+00, i32 3
3623   %9 = tail call i32 @llvm.x86.avx512.vcomi.ss(<4 x float> %4, <4 x float> %8, i32 0, i32 4)
3624   ret i32 %9
3625 }
3626
3627 declare i32 @llvm.x86.avx512.vcomi.sd(<2 x double>, <2 x double>, i32, i32)
3628
3629 define i32 @test_comi_sd_0(double %a, double %b) {
3630 ;
3631 ; CHECK-LABEL: @test_comi_sd_0(
3632 ; CHECK-NEXT:    [[TMP1:%.*]] = insertelement <2 x double> poison, double [[A:%.*]], i64 0
3633 ; CHECK-NEXT:    [[TMP2:%.*]] = insertelement <2 x double> poison, double [[B:%.*]], i64 0
3634 ; CHECK-NEXT:    [[TMP3:%.*]] = tail call i32 @llvm.x86.avx512.vcomi.sd(<2 x double> [[TMP1]], <2 x double> [[TMP2]], i32 0, i32 4)
3635 ; CHECK-NEXT:    ret i32 [[TMP3]]
3636 ;
3637   %1 = insertelement <2 x double> undef, double %a, i32 0
3638   %2 = insertelement <2 x double> %1, double 1.000000e+00, i32 1
3639   %3 = insertelement <2 x double> undef, double %b, i32 0
3640   %4 = insertelement <2 x double> %3, double 2.000000e+00, i32 1
3641   %5 = tail call i32 @llvm.x86.avx512.vcomi.sd(<2 x double> %2, <2 x double> %4, i32 0, i32 4)
3642   ret i32 %5
3643 }