test/CodeGen/X86/vector-shuffle-combining-avx.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc < %s -mtriple=i686-unknown -mattr=+avx | FileCheck %s --check-prefix=X32 --check-prefix=X32-AVX --check-prefix=X32-AVX1
   3 ; RUN: llc < %s -mtriple=i686-unknown -mattr=+avx2 | FileCheck %s --check-prefix=X32 --check-prefix=X32-AVX --check-prefix=X32-AVX2
   4 ; RUN: llc < %s -mtriple=i686-unknown -mattr=+avx512f | FileCheck %s --check-prefix=X32 --check-prefix=X32-AVX512
   5 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx | FileCheck %s --check-prefix=X64 --check-prefix=X64-AVX --check-prefix=X64-AVX1
   6 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 | FileCheck %s --check-prefix=X64 --check-prefix=X64-AVX --check-prefix=X64-AVX2
   7 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f | FileCheck %s --check-prefix=X64 --check-prefix=X64-AVX512
   8 ;
   9 ; Combine tests involving AVX target shuffles
  10
  11 declare <4 x float> @llvm.x86.avx.vpermil.ps(<4 x float>, i8)
  12 declare <8 x float> @llvm.x86.avx.vpermil.ps.256(<8 x float>, i8)
  13 declare <2 x double> @llvm.x86.avx.vpermil.pd(<2 x double>, i8)
  14 declare <4 x double> @llvm.x86.avx.vpermil.pd.256(<4 x double>, i8)
  15
  16 declare <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float>, <4 x i32>)
  17 declare <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float>, <8 x i32>)
  18 declare <2 x double> @llvm.x86.avx.vpermilvar.pd(<2 x double>, <2 x i64>)
  19 declare <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double>, <4 x i64>)
  20
  21 declare <8 x i32> @llvm.x86.avx.vperm2f128.si.256(<8 x i32>, <8 x i32>, i8)
  22 declare <8 x float> @llvm.x86.avx.vperm2f128.ps.256(<8 x float>, <8 x float>, i8)
  23 declare <4 x double> @llvm.x86.avx.vperm2f128.pd.256(<4 x double>, <4 x double>, i8)
  24
  25 define <4 x float> @combine_vpermilvar_4f32_identity(<4 x float> %a0) {
  26 ; X32-LABEL: combine_vpermilvar_4f32_identity:
  27 ; X32:       # BB#0:
  28 ; X32-NEXT:    retl
  29 ;
  30 ; X64-LABEL: combine_vpermilvar_4f32_identity:
  31 ; X64:       # BB#0:
  32 ; X64-NEXT:    retq
  33   %1 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %a0, <4 x i32> <i32 3, i32 2, i32 1, i32 0>)
  34   %2 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float>  %1, <4 x i32> <i32 3, i32 2, i32 1, i32 0>)
  35   ret <4 x float> %2
  36 }
  37
  38 define <4 x float> @combine_vpermilvar_4f32_movddup(<4 x float> %a0) {
  39 ; X32-LABEL: combine_vpermilvar_4f32_movddup:
  40 ; X32:       # BB#0:
  41 ; X32-NEXT:    vmovddup {{.*#+}} xmm0 = xmm0[0,0]
  42 ; X32-NEXT:    retl
  43 ;
  44 ; X64-LABEL: combine_vpermilvar_4f32_movddup:
  45 ; X64:       # BB#0:
  46 ; X64-NEXT:    vmovddup {{.*#+}} xmm0 = xmm0[0,0]
  47 ; X64-NEXT:    retq
  48   %1 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %a0, <4 x i32> <i32 0, i32 1, i32 0, i32 1>)
  49   ret <4 x float> %1
  50 }
  51 define <4 x float> @combine_vpermilvar_4f32_movddup_load(<4 x float> *%a0) {
  52 ; X32-LABEL: combine_vpermilvar_4f32_movddup_load:
  53 ; X32:       # BB#0:
  54 ; X32-NEXT:    movl {{[0-9]+}}(%esp), %eax
  55 ; X32-NEXT:    vmovddup {{.*#+}} xmm0 = mem[0,0]
  56 ; X32-NEXT:    retl
  57 ;
  58 ; X64-LABEL: combine_vpermilvar_4f32_movddup_load:
  59 ; X64:       # BB#0:
  60 ; X64-NEXT:    vmovddup {{.*#+}} xmm0 = mem[0,0]
  61 ; X64-NEXT:    retq
  62   %1 = load <4 x float>, <4 x float> *%a0
  63   %2 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %1, <4 x i32> <i32 0, i32 1, i32 0, i32 1>)
  64   ret <4 x float> %2
  65 }
  66
  67 define <4 x float> @combine_vpermilvar_4f32_movshdup(<4 x float> %a0) {
  68 ; X32-LABEL: combine_vpermilvar_4f32_movshdup:
  69 ; X32:       # BB#0:
  70 ; X32-NEXT:    vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
  71 ; X32-NEXT:    retl
  72 ;
  73 ; X64-LABEL: combine_vpermilvar_4f32_movshdup:
  74 ; X64:       # BB#0:
  75 ; X64-NEXT:    vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
  76 ; X64-NEXT:    retq
  77   %1 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %a0, <4 x i32> <i32 undef, i32 1, i32 3, i32 3>)
  78   ret <4 x float> %1
  79 }
  80
  81 define <4 x float> @combine_vpermilvar_4f32_movsldup(<4 x float> %a0) {
  82 ; X32-LABEL: combine_vpermilvar_4f32_movsldup:
  83 ; X32:       # BB#0:
  84 ; X32-NEXT:    vmovsldup {{.*#+}} xmm0 = xmm0[0,0,2,2]
  85 ; X32-NEXT:    retl
  86 ;
  87 ; X64-LABEL: combine_vpermilvar_4f32_movsldup:
  88 ; X64:       # BB#0:
  89 ; X64-NEXT:    vmovsldup {{.*#+}} xmm0 = xmm0[0,0,2,2]
  90 ; X64-NEXT:    retq
  91   %1 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %a0, <4 x i32> <i32 0, i32 0, i32 2, i32 undef>)
  92   ret <4 x float> %1
  93 }
  94
  95 define <4 x float> @combine_vpermilvar_4f32_unpckh(<4 x float> %a0) {
  96 ; X32-LABEL: combine_vpermilvar_4f32_unpckh:
  97 ; X32:       # BB#0:
  98 ; X32-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[2,2,3,3]
  99 ; X32-NEXT:    retl
 100 ;
 101 ; X64-LABEL: combine_vpermilvar_4f32_unpckh:
 102 ; X64:       # BB#0:
 103 ; X64-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[2,2,3,3]
 104 ; X64-NEXT:    retq
 105   %1 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %a0, <4 x i32> <i32 2, i32 2, i32 3, i32 3>)
 106   ret <4 x float> %1
 107 }
 108
 109 define <4 x float> @combine_vpermilvar_4f32_unpckl(<4 x float> %a0) {
 110 ; X32-LABEL: combine_vpermilvar_4f32_unpckl:
 111 ; X32:       # BB#0:
 112 ; X32-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,1]
 113 ; X32-NEXT:    retl
 114 ;
 115 ; X64-LABEL: combine_vpermilvar_4f32_unpckl:
 116 ; X64:       # BB#0:
 117 ; X64-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,1]
 118 ; X64-NEXT:    retq
 119   %1 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %a0, <4 x i32> <i32 0, i32 0, i32 1, i32 1>)
 120   ret <4 x float> %1
 121 }
 122
 123 define <8 x float> @combine_vpermilvar_8f32_identity(<8 x float> %a0) {
 124 ; X32-LABEL: combine_vpermilvar_8f32_identity:
 125 ; X32:       # BB#0:
 126 ; X32-NEXT:    retl
 127 ;
 128 ; X64-LABEL: combine_vpermilvar_8f32_identity:
 129 ; X64:       # BB#0:
 130 ; X64-NEXT:    retq
 131   %1 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %a0, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 2, i32 3, i32 0, i32 undef>)
 132   %2 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float>  %1, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 2, i32 3, i32 0, i32 1>)
 133   ret <8 x float> %2
 134 }
 135
 136 define <8 x float> @combine_vpermilvar_8f32_10326u4u(<8 x float> %a0) {
 137 ; X32-LABEL: combine_vpermilvar_8f32_10326u4u:
 138 ; X32:       # BB#0:
 139 ; X32-NEXT:    vpermilps {{.*#+}} ymm0 = ymm0[1,0,3,2,6,u,4,u]
 140 ; X32-NEXT:    retl
 141 ;
 142 ; X64-LABEL: combine_vpermilvar_8f32_10326u4u:
 143 ; X64:       # BB#0:
 144 ; X64-NEXT:    vpermilps {{.*#+}} ymm0 = ymm0[1,0,3,2,6,u,4,u]
 145 ; X64-NEXT:    retq
 146   %1 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %a0, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 0, i32 1, i32 2, i32 undef>)
 147   %2 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float>  %1, <8 x i32> <i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 undef>)
 148   ret <8 x float> %2
 149 }
 150
 151 define <8 x float> @combine_vpermilvar_vperm2f128_8f32(<8 x float> %a0) {
 152 ; X32-AVX1-LABEL: combine_vpermilvar_vperm2f128_8f32:
 153 ; X32-AVX1:       # BB#0:
 154 ; X32-AVX1-NEXT:    vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
 155 ; X32-AVX1-NEXT:    retl
 156 ;
 157 ; X32-AVX2-LABEL: combine_vpermilvar_vperm2f128_8f32:
 158 ; X32-AVX2:       # BB#0:
 159 ; X32-AVX2-NEXT:    vpermpd {{.*#+}} ymm0 = ymm0[2,3,0,1]
 160 ; X32-AVX2-NEXT:    retl
 161 ;
 162 ; X32-AVX512-LABEL: combine_vpermilvar_vperm2f128_8f32:
 163 ; X32-AVX512:       # BB#0:
 164 ; X32-AVX512-NEXT:    vpermpd {{.*#+}} ymm0 = ymm0[2,3,0,1]
 165 ; X32-AVX512-NEXT:    retl
 166 ;
 167 ; X64-AVX1-LABEL: combine_vpermilvar_vperm2f128_8f32:
 168 ; X64-AVX1:       # BB#0:
 169 ; X64-AVX1-NEXT:    vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
 170 ; X64-AVX1-NEXT:    retq
 171 ;
 172 ; X64-AVX2-LABEL: combine_vpermilvar_vperm2f128_8f32:
 173 ; X64-AVX2:       # BB#0:
 174 ; X64-AVX2-NEXT:    vpermpd {{.*#+}} ymm0 = ymm0[2,3,0,1]
 175 ; X64-AVX2-NEXT:    retq
 176 ;
 177 ; X64-AVX512-LABEL: combine_vpermilvar_vperm2f128_8f32:
 178 ; X64-AVX512:       # BB#0:
 179 ; X64-AVX512-NEXT:    vpermpd {{.*#+}} ymm0 = ymm0[2,3,0,1]
 180 ; X64-AVX512-NEXT:    retq
 181   %1 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %a0, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>)
 182   %2 = shufflevector <8 x float> %1, <8 x float> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3>
 183   %3 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float>  %2, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>)
 184   ret <8 x float> %3
 185 }
 186
 187 define <8 x float> @combine_vpermilvar_vperm2f128_zero_8f32(<8 x float> %a0) {
 188 ; X32-LABEL: combine_vpermilvar_vperm2f128_zero_8f32:
 189 ; X32:       # BB#0:
 190 ; X32-NEXT:    vperm2f128 {{.*#+}} ymm0 = zero,zero,ymm0[0,1]
 191 ; X32-NEXT:    retl
 192 ;
 193 ; X64-LABEL: combine_vpermilvar_vperm2f128_zero_8f32:
 194 ; X64:       # BB#0:
 195 ; X64-NEXT:    vperm2f128 {{.*#+}} ymm0 = zero,zero,ymm0[0,1]
 196 ; X64-NEXT:    retq
 197   %1 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %a0, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>)
 198   %2 = shufflevector <8 x float> %1, <8 x float> zeroinitializer, <8 x i32> <i32 8, i32 8, i32 8, i32 8, i32 0, i32 1, i32 2, i32 3>
 199   %3 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float>  %2, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>)
 200   ret <8 x float> %3
 201 }
 202
 203 define <4 x double> @combine_vperm2f128_vpermilvar_as_vpblendpd(<4 x double> %a0) {
 204 ; X32-LABEL: combine_vperm2f128_vpermilvar_as_vpblendpd:
 205 ; X32:       # BB#0:
 206 ; X32-NEXT:    vxorpd %xmm1, %xmm1, %xmm1
 207 ; X32-NEXT:    vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]
 208 ; X32-NEXT:    retl
 209 ;
 210 ; X64-LABEL: combine_vperm2f128_vpermilvar_as_vpblendpd:
 211 ; X64:       # BB#0:
 212 ; X64-NEXT:    vxorpd %xmm1, %xmm1, %xmm1
 213 ; X64-NEXT:    vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]
 214 ; X64-NEXT:    retq
 215   %1 = tail call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> %a0, <4 x i64> <i64 2, i64 0, i64 2, i64 0>)
 216   %2 = shufflevector <4 x double> %1, <4 x double> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
 217   %3 = tail call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> %2, <4 x i64> <i64 2, i64 0, i64 2, i64 0>)
 218   ret <4 x double> %3
 219 }
 220
 221 define <8 x float> @combine_vpermilvar_8f32_movddup(<8 x float> %a0) {
 222 ; X32-LABEL: combine_vpermilvar_8f32_movddup:
 223 ; X32:       # BB#0:
 224 ; X32-NEXT:    vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
 225 ; X32-NEXT:    retl
 226 ;
 227 ; X64-LABEL: combine_vpermilvar_8f32_movddup:
 228 ; X64:       # BB#0:
 229 ; X64-NEXT:    vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
 230 ; X64-NEXT:    retq
 231   %1 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %a0, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>)
 232   ret <8 x float> %1
 233 }
 234 define <8 x float> @combine_vpermilvar_8f32_movddup_load(<8 x float> *%a0) {
 235 ; X32-LABEL: combine_vpermilvar_8f32_movddup_load:
 236 ; X32:       # BB#0:
 237 ; X32-NEXT:    movl {{[0-9]+}}(%esp), %eax
 238 ; X32-NEXT:    vmovddup {{.*#+}} ymm0 = mem[0,0,2,2]
 239 ; X32-NEXT:    retl
 240 ;
 241 ; X64-LABEL: combine_vpermilvar_8f32_movddup_load:
 242 ; X64:       # BB#0:
 243 ; X64-NEXT:    vmovddup {{.*#+}} ymm0 = mem[0,0,2,2]
 244 ; X64-NEXT:    retq
 245   %1 = load <8 x float>, <8 x float> *%a0
 246   %2 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %1, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>)
 247   ret <8 x float> %2
 248 }
 249
 250 define <8 x float> @combine_vpermilvar_8f32_movshdup(<8 x float> %a0) {
 251 ; X32-LABEL: combine_vpermilvar_8f32_movshdup:
 252 ; X32:       # BB#0:
 253 ; X32-NEXT:    vmovshdup {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7]
 254 ; X32-NEXT:    retl
 255 ;
 256 ; X64-LABEL: combine_vpermilvar_8f32_movshdup:
 257 ; X64:       # BB#0:
 258 ; X64-NEXT:    vmovshdup {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7]
 259 ; X64-NEXT:    retq
 260   %1 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %a0, <8 x i32> <i32 1, i32 1, i32 3, i32 3, i32 undef, i32 5, i32 7, i32 7>)
 261   ret <8 x float> %1
 262 }
 263
 264 define <8 x float> @combine_vpermilvar_8f32_movsldup(<8 x float> %a0) {
 265 ; X32-LABEL: combine_vpermilvar_8f32_movsldup:
 266 ; X32:       # BB#0:
 267 ; X32-NEXT:    vmovsldup {{.*#+}} ymm0 = ymm0[0,0,2,2,4,4,6,6]
 268 ; X32-NEXT:    retl
 269 ;
 270 ; X64-LABEL: combine_vpermilvar_8f32_movsldup:
 271 ; X64:       # BB#0:
 272 ; X64-NEXT:    vmovsldup {{.*#+}} ymm0 = ymm0[0,0,2,2,4,4,6,6]
 273 ; X64-NEXT:    retq
 274   %1 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %a0, <8 x i32> <i32 0, i32 0, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>)
 275   ret <8 x float> %1
 276 }
 277
 278 define <2 x double> @combine_vpermilvar_2f64_identity(<2 x double> %a0) {
 279 ; X32-LABEL: combine_vpermilvar_2f64_identity:
 280 ; X32:       # BB#0:
 281 ; X32-NEXT:    retl
 282 ;
 283 ; X64-LABEL: combine_vpermilvar_2f64_identity:
 284 ; X64:       # BB#0:
 285 ; X64-NEXT:    retq
 286   %1 = tail call <2 x double> @llvm.x86.avx.vpermilvar.pd(<2 x double> %a0, <2 x i64> <i64 2, i64 0>)
 287   %2 = tail call <2 x double> @llvm.x86.avx.vpermilvar.pd(<2 x double>  %1, <2 x i64> <i64 2, i64 0>)
 288   ret <2 x double> %2
 289 }
 290
 291 define <2 x double> @combine_vpermilvar_2f64_movddup(<2 x double> %a0) {
 292 ; X32-LABEL: combine_vpermilvar_2f64_movddup:
 293 ; X32:       # BB#0:
 294 ; X32-NEXT:    vmovddup {{.*#+}} xmm0 = xmm0[0,0]
 295 ; X32-NEXT:    retl
 296 ;
 297 ; X64-LABEL: combine_vpermilvar_2f64_movddup:
 298 ; X64:       # BB#0:
 299 ; X64-NEXT:    vmovddup {{.*#+}} xmm0 = xmm0[0,0]
 300 ; X64-NEXT:    retq
 301   %1 = tail call <2 x double> @llvm.x86.avx.vpermilvar.pd(<2 x double> %a0, <2 x i64> <i64 0, i64 0>)
 302   ret <2 x double> %1
 303 }
 304
 305 define <4 x double> @combine_vpermilvar_4f64_identity(<4 x double> %a0) {
 306 ; X32-LABEL: combine_vpermilvar_4f64_identity:
 307 ; X32:       # BB#0:
 308 ; X32-NEXT:    retl
 309 ;
 310 ; X64-LABEL: combine_vpermilvar_4f64_identity:
 311 ; X64:       # BB#0:
 312 ; X64-NEXT:    retq
 313   %1 = tail call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> %a0, <4 x i64> <i64 2, i64 0, i64 2, i64 0>)
 314   %2 = tail call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double>  %1, <4 x i64> <i64 2, i64 0, i64 2, i64 0>)
 315   ret <4 x double> %2
 316 }
 317
 318 define <4 x double> @combine_vpermilvar_4f64_movddup(<4 x double> %a0) {
 319 ; X32-LABEL: combine_vpermilvar_4f64_movddup:
 320 ; X32:       # BB#0:
 321 ; X32-NEXT:    vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
 322 ; X32-NEXT:    retl
 323 ;
 324 ; X64-LABEL: combine_vpermilvar_4f64_movddup:
 325 ; X64:       # BB#0:
 326 ; X64-NEXT:    vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
 327 ; X64-NEXT:    retq
 328   %1 = tail call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> %a0, <4 x i64> <i64 0, i64 0, i64 4, i64 4>)
 329   ret <4 x double> %1
 330 }
 331
 332 define <4 x float> @combine_vpermilvar_4f32_4stage(<4 x float> %a0) {
 333 ; X32-LABEL: combine_vpermilvar_4f32_4stage:
 334 ; X32:       # BB#0:
 335 ; X32-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[2,0,3,1]
 336 ; X32-NEXT:    retl
 337 ;
 338 ; X64-LABEL: combine_vpermilvar_4f32_4stage:
 339 ; X64:       # BB#0:
 340 ; X64-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[2,0,3,1]
 341 ; X64-NEXT:    retq
 342   %1 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %a0, <4 x i32> <i32 3, i32 2, i32 1, i32 0>)
 343   %2 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float>  %1, <4 x i32> <i32 2, i32 3, i32 0, i32 1>)
 344   %3 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float>  %2, <4 x i32> <i32 0, i32 2, i32 1, i32 3>)
 345   %4 = tail call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float>  %3, <4 x i32> <i32 3, i32 2, i32 1, i32 0>)
 346   ret <4 x float> %4
 347 }
 348
 349 define <8 x float> @combine_vpermilvar_8f32_4stage(<8 x float> %a0) {
 350 ; X32-LABEL: combine_vpermilvar_8f32_4stage:
 351 ; X32:       # BB#0:
 352 ; X32-NEXT:    vpermilps {{.*#+}} ymm0 = ymm0[2,0,3,1,6,4,7,5]
 353 ; X32-NEXT:    retl
 354 ;
 355 ; X64-LABEL: combine_vpermilvar_8f32_4stage:
 356 ; X64:       # BB#0:
 357 ; X64-NEXT:    vpermilps {{.*#+}} ymm0 = ymm0[2,0,3,1,6,4,7,5]
 358 ; X64-NEXT:    retq
 359   %1 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> %a0, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>)
 360   %2 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float>  %1, <8 x i32> <i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1>)
 361   %3 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float>  %2, <8 x i32> <i32 0, i32 2, i32 1, i32 3, i32 0, i32 2, i32 1, i32 3>)
 362   %4 = tail call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float>  %3, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>)
 363   ret <8 x float> %4
 364 }
 365
 366 define <4 x float> @combine_vpermilvar_4f32_as_insertps(<4 x float> %a0) {
 367 ; X32-LABEL: combine_vpermilvar_4f32_as_insertps:
 368 ; X32:       # BB#0:
 369 ; X32-NEXT:    vinsertps {{.*#+}} xmm0 = xmm0[1],zero,xmm0[2],zero
 370 ; X32-NEXT:    retl
 371 ;
 372 ; X64-LABEL: combine_vpermilvar_4f32_as_insertps:
 373 ; X64:       # BB#0:
 374 ; X64-NEXT:    vinsertps {{.*#+}} xmm0 = xmm0[1],zero,xmm0[2],zero
 375 ; X64-NEXT:    retq
 376   %1 = call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> %a0, <4 x i32> <i32 3, i32 2, i32 1, i32 0>)
 377   %2 = shufflevector <4 x float> %1, <4 x float> zeroinitializer, <4 x i32> <i32 2, i32 4, i32 1, i32 4>
 378   ret <4 x float> %2
 379 }
 380
 381 define <2 x double> @constant_fold_vpermilvar_pd() {
 382 ; X32-LABEL: constant_fold_vpermilvar_pd:
 383 ; X32:       # BB#0:
 384 ; X32-NEXT:    vmovaps {{.*#+}} xmm0 = [2.000000e+00,1.000000e+00]
 385 ; X32-NEXT:    retl
 386 ;
 387 ; X64-LABEL: constant_fold_vpermilvar_pd:
 388 ; X64:       # BB#0:
 389 ; X64-NEXT:    vmovaps {{.*#+}} xmm0 = [2.000000e+00,1.000000e+00]
 390 ; X64-NEXT:    retq
 391   %1 = call <2 x double> @llvm.x86.avx.vpermilvar.pd(<2 x double> <double 1.0, double 2.0>, <2 x i64> <i64 2, i64 0>)
 392   ret <2 x double> %1
 393 }
 394
 395 define <4 x double> @constant_fold_vpermilvar_pd_256() {
 396 ; X32-LABEL: constant_fold_vpermilvar_pd_256:
 397 ; X32:       # BB#0:
 398 ; X32-NEXT:    vmovaps {{.*#+}} ymm0 = [2.000000e+00,1.000000e+00,3.000000e+00,4.000000e+00]
 399 ; X32-NEXT:    retl
 400 ;
 401 ; X64-LABEL: constant_fold_vpermilvar_pd_256:
 402 ; X64:       # BB#0:
 403 ; X64-NEXT:    vmovaps {{.*#+}} ymm0 = [2.000000e+00,1.000000e+00,3.000000e+00,4.000000e+00]
 404 ; X64-NEXT:    retq
 405   %1 = call <4 x double> @llvm.x86.avx.vpermilvar.pd.256(<4 x double> <double 1.0, double 2.0, double 3.0, double 4.0>, <4 x i64> <i64 2, i64 0, i64 0, i64 2>)
 406   ret <4 x double> %1
 407 }
 408
 409 define <4 x float> @constant_fold_vpermilvar_ps() {
 410 ; X32-LABEL: constant_fold_vpermilvar_ps:
 411 ; X32:       # BB#0:
 412 ; X32-NEXT:    vmovaps {{.*#+}} xmm0 = [4.000000e+00,1.000000e+00,3.000000e+00,2.000000e+00]
 413 ; X32-NEXT:    retl
 414 ;
 415 ; X64-LABEL: constant_fold_vpermilvar_ps:
 416 ; X64:       # BB#0:
 417 ; X64-NEXT:    vmovaps {{.*#+}} xmm0 = [4.000000e+00,1.000000e+00,3.000000e+00,2.000000e+00]
 418 ; X64-NEXT:    retq
 419   %1 = call <4 x float> @llvm.x86.avx.vpermilvar.ps(<4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, <4 x i32> <i32 3, i32 0, i32 2, i32 1>)
 420   ret <4 x float> %1
 421 }
 422
 423 define <8 x float> @constant_fold_vpermilvar_ps_256() {
 424 ; X32-LABEL: constant_fold_vpermilvar_ps_256:
 425 ; X32:       # BB#0:
 426 ; X32-NEXT:    vmovaps {{.*#+}} ymm0 = [1.000000e+00,1.000000e+00,3.000000e+00,2.000000e+00,5.000000e+00,6.000000e+00,6.000000e+00,6.000000e+00]
 427 ; X32-NEXT:    retl
 428 ;
 429 ; X64-LABEL: constant_fold_vpermilvar_ps_256:
 430 ; X64:       # BB#0:
 431 ; X64-NEXT:    vmovaps {{.*#+}} ymm0 = [1.000000e+00,1.000000e+00,3.000000e+00,2.000000e+00,5.000000e+00,6.000000e+00,6.000000e+00,6.000000e+00]
 432 ; X64-NEXT:    retq
 433   %1 = call <8 x float> @llvm.x86.avx.vpermilvar.ps.256(<8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, <8 x i32> <i32 4, i32 0, i32 2, i32 1, i32 0, i32 1, i32 1, i32 1>)
 434   ret <8 x float> %1
 435 }