test/CodeGen/X86/shuffle-strided-with-offset-128.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 | FileCheck %s --check-prefix=SSE --check-prefix=SSE2
   3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 | FileCheck %s --check-prefix=SSE --check-prefix=SSE42
   4 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx | FileCheck %s --check-prefix=AVX --check-prefix=AVX1
   5 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX2-SLOW
   6 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+fast-variable-shuffle | FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX2-FAST
   7 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f | FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512F
   8 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+fast-variable-shuffle | FileCheck %s --check-prefixes=AVX512,AVX512VL
   9 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+fast-variable-shuffle | FileCheck %s --check-prefixes=AVX512,AVX512BW
  10 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+fast-variable-shuffle | FileCheck %s --check-prefixes=AVX512,AVX512BWVL
  11
  12 define void @shuffle_v16i8_to_v8i8_1(<16 x i8>* %L, <8 x i8>* %S) nounwind {
  13 ; SSE2-LABEL: shuffle_v16i8_to_v8i8_1:
  14 ; SSE2:       # %bb.0:
  15 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
  16 ; SSE2-NEXT:    pxor %xmm1, %xmm1
  17 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
  18 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
  19 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm2 = xmm2[3,1,2,3,4,5,6,7]
  20 ; SSE2-NEXT:    pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,5,6,7]
  21 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
  22 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm2 = xmm2[1,0,3,2,4,5,6,7]
  23 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
  24 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
  25 ; SSE2-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,5,6,7]
  26 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
  27 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
  28 ; SSE2-NEXT:    punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
  29 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
  30 ; SSE2-NEXT:    movq %xmm0, (%rsi)
  31 ; SSE2-NEXT:    retq
  32 ;
  33 ; SSE42-LABEL: shuffle_v16i8_to_v8i8_1:
  34 ; SSE42:       # %bb.0:
  35 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
  36 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]
  37 ; SSE42-NEXT:    movq %xmm0, (%rsi)
  38 ; SSE42-NEXT:    retq
  39 ;
  40 ; AVX-LABEL: shuffle_v16i8_to_v8i8_1:
  41 ; AVX:       # %bb.0:
  42 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
  43 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]
  44 ; AVX-NEXT:    vmovq %xmm0, (%rsi)
  45 ; AVX-NEXT:    retq
  46 ;
  47 ; AVX512-LABEL: shuffle_v16i8_to_v8i8_1:
  48 ; AVX512:       # %bb.0:
  49 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
  50 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]
  51 ; AVX512-NEXT:    vmovq %xmm0, (%rsi)
  52 ; AVX512-NEXT:    retq
  53   %vec = load <16 x i8>, <16 x i8>* %L
  54   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
  55   store <8 x i8> %strided.vec, <8 x i8>* %S
  56   ret void
  57 }
  58
  59 define void @shuffle_v8i16_to_v4i16_1(<8 x i16>* %L, <4 x i16>* %S) nounwind {
  60 ; SSE2-LABEL: shuffle_v8i16_to_v4i16_1:
  61 ; SSE2:       # %bb.0:
  62 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = mem[3,1,2,3,4,5,6,7]
  63 ; SSE2-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,5,6,7]
  64 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
  65 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
  66 ; SSE2-NEXT:    movq %xmm0, (%rsi)
  67 ; SSE2-NEXT:    retq
  68 ;
  69 ; SSE42-LABEL: shuffle_v8i16_to_v4i16_1:
  70 ; SSE42:       # %bb.0:
  71 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
  72 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
  73 ; SSE42-NEXT:    movq %xmm0, (%rsi)
  74 ; SSE42-NEXT:    retq
  75 ;
  76 ; AVX-LABEL: shuffle_v8i16_to_v4i16_1:
  77 ; AVX:       # %bb.0:
  78 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
  79 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
  80 ; AVX-NEXT:    vmovq %xmm0, (%rsi)
  81 ; AVX-NEXT:    retq
  82 ;
  83 ; AVX512-LABEL: shuffle_v8i16_to_v4i16_1:
  84 ; AVX512:       # %bb.0:
  85 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
  86 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
  87 ; AVX512-NEXT:    vmovq %xmm0, (%rsi)
  88 ; AVX512-NEXT:    retq
  89   %vec = load <8 x i16>, <8 x i16>* %L
  90   %strided.vec = shufflevector <8 x i16> %vec, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
  91   store <4 x i16> %strided.vec, <4 x i16>* %S
  92   ret void
  93 }
  94
  95 define void @shuffle_v4i32_to_v2i32_1(<4 x i32>* %L, <2 x i32>* %S) nounwind {
  96 ; SSE-LABEL: shuffle_v4i32_to_v2i32_1:
  97 ; SSE:       # %bb.0:
  98 ; SSE-NEXT:    pshufd {{.*#+}} xmm0 = mem[1,3,2,3]
  99 ; SSE-NEXT:    movq %xmm0, (%rsi)
 100 ; SSE-NEXT:    retq
 101 ;
 102 ; AVX-LABEL: shuffle_v4i32_to_v2i32_1:
 103 ; AVX:       # %bb.0:
 104 ; AVX-NEXT:    vpermilps {{.*#+}} xmm0 = mem[1,3,2,3]
 105 ; AVX-NEXT:    vmovlps %xmm0, (%rsi)
 106 ; AVX-NEXT:    retq
 107 ;
 108 ; AVX512-LABEL: shuffle_v4i32_to_v2i32_1:
 109 ; AVX512:       # %bb.0:
 110 ; AVX512-NEXT:    vpermilps {{.*#+}} xmm0 = mem[1,3,2,3]
 111 ; AVX512-NEXT:    vmovlps %xmm0, (%rsi)
 112 ; AVX512-NEXT:    retq
 113   %vec = load <4 x i32>, <4 x i32>* %L
 114   %strided.vec = shufflevector <4 x i32> %vec, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
 115   store <2 x i32> %strided.vec, <2 x i32>* %S
 116   ret void
 117 }
 118
 119 define void @shuffle_v16i8_to_v4i8_1(<16 x i8>* %L, <4 x i8>* %S) nounwind {
 120 ; SSE2-LABEL: shuffle_v16i8_to_v4i8_1:
 121 ; SSE2:       # %bb.0:
 122 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 123 ; SSE2-NEXT:    pxor %xmm1, %xmm1
 124 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
 125 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
 126 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
 127 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm2 = xmm2[1,3,2,3,4,5,6,7]
 128 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 129 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
 130 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
 131 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
 132 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 133 ; SSE2-NEXT:    movd %xmm0, (%rsi)
 134 ; SSE2-NEXT:    retq
 135 ;
 136 ; SSE42-LABEL: shuffle_v16i8_to_v4i8_1:
 137 ; SSE42:       # %bb.0:
 138 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 139 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[1,5,9,13,u,u,u,u,u,u,u,u,u,u,u,u]
 140 ; SSE42-NEXT:    movd %xmm0, (%rsi)
 141 ; SSE42-NEXT:    retq
 142 ;
 143 ; AVX-LABEL: shuffle_v16i8_to_v4i8_1:
 144 ; AVX:       # %bb.0:
 145 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 146 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[1,5,9,13,u,u,u,u,u,u,u,u,u,u,u,u]
 147 ; AVX-NEXT:    vmovd %xmm0, (%rsi)
 148 ; AVX-NEXT:    retq
 149 ;
 150 ; AVX512-LABEL: shuffle_v16i8_to_v4i8_1:
 151 ; AVX512:       # %bb.0:
 152 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 153 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[1,5,9,13,u,u,u,u,u,u,u,u,u,u,u,u]
 154 ; AVX512-NEXT:    vmovd %xmm0, (%rsi)
 155 ; AVX512-NEXT:    retq
 156   %vec = load <16 x i8>, <16 x i8>* %L
 157   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>
 158   store <4 x i8> %strided.vec, <4 x i8>* %S
 159   ret void
 160 }
 161
 162 define void @shuffle_v16i8_to_v4i8_2(<16 x i8>* %L, <4 x i8>* %S) nounwind {
 163 ; SSE2-LABEL: shuffle_v16i8_to_v4i8_2:
 164 ; SSE2:       # %bb.0:
 165 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 166 ; SSE2-NEXT:    pand {{.*}}(%rip), %xmm0
 167 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
 168 ; SSE2-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,5,6,7]
 169 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
 170 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
 171 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 172 ; SSE2-NEXT:    movd %xmm0, (%rsi)
 173 ; SSE2-NEXT:    retq
 174 ;
 175 ; SSE42-LABEL: shuffle_v16i8_to_v4i8_2:
 176 ; SSE42:       # %bb.0:
 177 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 178 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[2,6,10,14,u,u,u,u,u,u,u,u,u,u,u,u]
 179 ; SSE42-NEXT:    movd %xmm0, (%rsi)
 180 ; SSE42-NEXT:    retq
 181 ;
 182 ; AVX-LABEL: shuffle_v16i8_to_v4i8_2:
 183 ; AVX:       # %bb.0:
 184 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 185 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,6,10,14,u,u,u,u,u,u,u,u,u,u,u,u]
 186 ; AVX-NEXT:    vmovd %xmm0, (%rsi)
 187 ; AVX-NEXT:    retq
 188 ;
 189 ; AVX512-LABEL: shuffle_v16i8_to_v4i8_2:
 190 ; AVX512:       # %bb.0:
 191 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 192 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,6,10,14,u,u,u,u,u,u,u,u,u,u,u,u]
 193 ; AVX512-NEXT:    vmovd %xmm0, (%rsi)
 194 ; AVX512-NEXT:    retq
 195   %vec = load <16 x i8>, <16 x i8>* %L
 196   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>
 197   store <4 x i8> %strided.vec, <4 x i8>* %S
 198   ret void
 199 }
 200
 201 define void @shuffle_v16i8_to_v4i8_3(<16 x i8>* %L, <4 x i8>* %S) nounwind {
 202 ; SSE2-LABEL: shuffle_v16i8_to_v4i8_3:
 203 ; SSE2:       # %bb.0:
 204 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 205 ; SSE2-NEXT:    pxor %xmm1, %xmm1
 206 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
 207 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
 208 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[3,1,2,3]
 209 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm2 = xmm2[3,1,2,3,4,5,6,7]
 210 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 211 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
 212 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
 213 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
 214 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 215 ; SSE2-NEXT:    movd %xmm0, (%rsi)
 216 ; SSE2-NEXT:    retq
 217 ;
 218 ; SSE42-LABEL: shuffle_v16i8_to_v4i8_3:
 219 ; SSE42:       # %bb.0:
 220 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 221 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[3,7,11,15,u,u,u,u,u,u,u,u,u,u,u,u]
 222 ; SSE42-NEXT:    movd %xmm0, (%rsi)
 223 ; SSE42-NEXT:    retq
 224 ;
 225 ; AVX-LABEL: shuffle_v16i8_to_v4i8_3:
 226 ; AVX:       # %bb.0:
 227 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 228 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[3,7,11,15,u,u,u,u,u,u,u,u,u,u,u,u]
 229 ; AVX-NEXT:    vmovd %xmm0, (%rsi)
 230 ; AVX-NEXT:    retq
 231 ;
 232 ; AVX512-LABEL: shuffle_v16i8_to_v4i8_3:
 233 ; AVX512:       # %bb.0:
 234 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 235 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[3,7,11,15,u,u,u,u,u,u,u,u,u,u,u,u]
 236 ; AVX512-NEXT:    vmovd %xmm0, (%rsi)
 237 ; AVX512-NEXT:    retq
 238   %vec = load <16 x i8>, <16 x i8>* %L
 239   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
 240   store <4 x i8> %strided.vec, <4 x i8>* %S
 241   ret void
 242 }
 243
 244 define void @shuffle_v8i16_to_v2i16_1(<8 x i16>* %L, <2 x i16>* %S) nounwind {
 245 ; SSE-LABEL: shuffle_v8i16_to_v2i16_1:
 246 ; SSE:       # %bb.0:
 247 ; SSE-NEXT:    pshufd {{.*#+}} xmm0 = mem[0,2,2,3]
 248 ; SSE-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
 249 ; SSE-NEXT:    movd %xmm0, (%rsi)
 250 ; SSE-NEXT:    retq
 251 ;
 252 ; AVX1-LABEL: shuffle_v8i16_to_v2i16_1:
 253 ; AVX1:       # %bb.0:
 254 ; AVX1-NEXT:    vpshufd {{.*#+}} xmm0 = mem[0,2,2,3]
 255 ; AVX1-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
 256 ; AVX1-NEXT:    vmovd %xmm0, (%rsi)
 257 ; AVX1-NEXT:    retq
 258 ;
 259 ; AVX2-SLOW-LABEL: shuffle_v8i16_to_v2i16_1:
 260 ; AVX2-SLOW:       # %bb.0:
 261 ; AVX2-SLOW-NEXT:    vpshufd {{.*#+}} xmm0 = mem[0,2,2,3]
 262 ; AVX2-SLOW-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
 263 ; AVX2-SLOW-NEXT:    vmovd %xmm0, (%rsi)
 264 ; AVX2-SLOW-NEXT:    retq
 265 ;
 266 ; AVX2-FAST-LABEL: shuffle_v8i16_to_v2i16_1:
 267 ; AVX2-FAST:       # %bb.0:
 268 ; AVX2-FAST-NEXT:    vmovdqa (%rdi), %xmm0
 269 ; AVX2-FAST-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,3,10,11,8,9,10,11,8,9,10,11,12,13,14,15]
 270 ; AVX2-FAST-NEXT:    vmovd %xmm0, (%rsi)
 271 ; AVX2-FAST-NEXT:    retq
 272 ;
 273 ; AVX512F-LABEL: shuffle_v8i16_to_v2i16_1:
 274 ; AVX512F:       # %bb.0:
 275 ; AVX512F-NEXT:    vpshufd {{.*#+}} xmm0 = mem[0,2,2,3]
 276 ; AVX512F-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
 277 ; AVX512F-NEXT:    vmovd %xmm0, (%rsi)
 278 ; AVX512F-NEXT:    retq
 279 ;
 280 ; AVX512VL-LABEL: shuffle_v8i16_to_v2i16_1:
 281 ; AVX512VL:       # %bb.0:
 282 ; AVX512VL-NEXT:    vmovdqa (%rdi), %xmm0
 283 ; AVX512VL-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,3,10,11,8,9,10,11,8,9,10,11,12,13,14,15]
 284 ; AVX512VL-NEXT:    vmovd %xmm0, (%rsi)
 285 ; AVX512VL-NEXT:    retq
 286 ;
 287 ; AVX512BW-LABEL: shuffle_v8i16_to_v2i16_1:
 288 ; AVX512BW:       # %bb.0:
 289 ; AVX512BW-NEXT:    vmovdqa (%rdi), %xmm0
 290 ; AVX512BW-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,3,10,11,8,9,10,11,8,9,10,11,12,13,14,15]
 291 ; AVX512BW-NEXT:    vmovd %xmm0, (%rsi)
 292 ; AVX512BW-NEXT:    retq
 293 ;
 294 ; AVX512BWVL-LABEL: shuffle_v8i16_to_v2i16_1:
 295 ; AVX512BWVL:       # %bb.0:
 296 ; AVX512BWVL-NEXT:    vmovdqa (%rdi), %xmm0
 297 ; AVX512BWVL-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,3,10,11,8,9,10,11,8,9,10,11,12,13,14,15]
 298 ; AVX512BWVL-NEXT:    vmovd %xmm0, (%rsi)
 299 ; AVX512BWVL-NEXT:    retq
 300   %vec = load <8 x i16>, <8 x i16>* %L
 301   %strided.vec = shufflevector <8 x i16> %vec, <8 x i16> undef, <2 x i32> <i32 1, i32 5>
 302   store <2 x i16> %strided.vec, <2 x i16>* %S
 303   ret void
 304 }
 305
 306 define void @shuffle_v8i16_to_v2i16_2(<8 x i16>* %L, <2 x i16>* %S) nounwind {
 307 ; SSE-LABEL: shuffle_v8i16_to_v2i16_2:
 308 ; SSE:       # %bb.0:
 309 ; SSE-NEXT:    pshufd {{.*#+}} xmm0 = mem[3,1,2,3]
 310 ; SSE-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[2,0,2,3,4,5,6,7]
 311 ; SSE-NEXT:    movd %xmm0, (%rsi)
 312 ; SSE-NEXT:    retq
 313 ;
 314 ; AVX1-LABEL: shuffle_v8i16_to_v2i16_2:
 315 ; AVX1:       # %bb.0:
 316 ; AVX1-NEXT:    vpshufd {{.*#+}} xmm0 = mem[3,1,2,3]
 317 ; AVX1-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[2,0,2,3,4,5,6,7]
 318 ; AVX1-NEXT:    vmovd %xmm0, (%rsi)
 319 ; AVX1-NEXT:    retq
 320 ;
 321 ; AVX2-SLOW-LABEL: shuffle_v8i16_to_v2i16_2:
 322 ; AVX2-SLOW:       # %bb.0:
 323 ; AVX2-SLOW-NEXT:    vpshufd {{.*#+}} xmm0 = mem[3,1,2,3]
 324 ; AVX2-SLOW-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[2,0,2,3,4,5,6,7]
 325 ; AVX2-SLOW-NEXT:    vmovd %xmm0, (%rsi)
 326 ; AVX2-SLOW-NEXT:    retq
 327 ;
 328 ; AVX2-FAST-LABEL: shuffle_v8i16_to_v2i16_2:
 329 ; AVX2-FAST:       # %bb.0:
 330 ; AVX2-FAST-NEXT:    vmovdqa (%rdi), %xmm0
 331 ; AVX2-FAST-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[4,5,12,13,4,5,6,7,8,9,10,11,12,13,14,15]
 332 ; AVX2-FAST-NEXT:    vmovd %xmm0, (%rsi)
 333 ; AVX2-FAST-NEXT:    retq
 334 ;
 335 ; AVX512F-LABEL: shuffle_v8i16_to_v2i16_2:
 336 ; AVX512F:       # %bb.0:
 337 ; AVX512F-NEXT:    vpshufd {{.*#+}} xmm0 = mem[3,1,2,3]
 338 ; AVX512F-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[2,0,2,3,4,5,6,7]
 339 ; AVX512F-NEXT:    vmovd %xmm0, (%rsi)
 340 ; AVX512F-NEXT:    retq
 341 ;
 342 ; AVX512VL-LABEL: shuffle_v8i16_to_v2i16_2:
 343 ; AVX512VL:       # %bb.0:
 344 ; AVX512VL-NEXT:    vmovdqa (%rdi), %xmm0
 345 ; AVX512VL-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[4,5,12,13,4,5,6,7,8,9,10,11,12,13,14,15]
 346 ; AVX512VL-NEXT:    vmovd %xmm0, (%rsi)
 347 ; AVX512VL-NEXT:    retq
 348 ;
 349 ; AVX512BW-LABEL: shuffle_v8i16_to_v2i16_2:
 350 ; AVX512BW:       # %bb.0:
 351 ; AVX512BW-NEXT:    vmovdqa (%rdi), %xmm0
 352 ; AVX512BW-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[4,5,12,13,4,5,6,7,8,9,10,11,12,13,14,15]
 353 ; AVX512BW-NEXT:    vmovd %xmm0, (%rsi)
 354 ; AVX512BW-NEXT:    retq
 355 ;
 356 ; AVX512BWVL-LABEL: shuffle_v8i16_to_v2i16_2:
 357 ; AVX512BWVL:       # %bb.0:
 358 ; AVX512BWVL-NEXT:    vmovdqa (%rdi), %xmm0
 359 ; AVX512BWVL-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[4,5,12,13,4,5,6,7,8,9,10,11,12,13,14,15]
 360 ; AVX512BWVL-NEXT:    vmovd %xmm0, (%rsi)
 361 ; AVX512BWVL-NEXT:    retq
 362   %vec = load <8 x i16>, <8 x i16>* %L
 363   %strided.vec = shufflevector <8 x i16> %vec, <8 x i16> undef, <2 x i32> <i32 2, i32 6>
 364   store <2 x i16> %strided.vec, <2 x i16>* %S
 365   ret void
 366 }
 367
 368 define void @shuffle_v8i16_to_v2i16_3(<8 x i16>* %L, <2 x i16>* %S) nounwind {
 369 ; SSE-LABEL: shuffle_v8i16_to_v2i16_3:
 370 ; SSE:       # %bb.0:
 371 ; SSE-NEXT:    pshufd {{.*#+}} xmm0 = mem[3,1,2,3]
 372 ; SSE-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
 373 ; SSE-NEXT:    movd %xmm0, (%rsi)
 374 ; SSE-NEXT:    retq
 375 ;
 376 ; AVX1-LABEL: shuffle_v8i16_to_v2i16_3:
 377 ; AVX1:       # %bb.0:
 378 ; AVX1-NEXT:    vpshufd {{.*#+}} xmm0 = mem[3,1,2,3]
 379 ; AVX1-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
 380 ; AVX1-NEXT:    vmovd %xmm0, (%rsi)
 381 ; AVX1-NEXT:    retq
 382 ;
 383 ; AVX2-SLOW-LABEL: shuffle_v8i16_to_v2i16_3:
 384 ; AVX2-SLOW:       # %bb.0:
 385 ; AVX2-SLOW-NEXT:    vpshufd {{.*#+}} xmm0 = mem[3,1,2,3]
 386 ; AVX2-SLOW-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
 387 ; AVX2-SLOW-NEXT:    vmovd %xmm0, (%rsi)
 388 ; AVX2-SLOW-NEXT:    retq
 389 ;
 390 ; AVX2-FAST-LABEL: shuffle_v8i16_to_v2i16_3:
 391 ; AVX2-FAST:       # %bb.0:
 392 ; AVX2-FAST-NEXT:    vmovdqa (%rdi), %xmm0
 393 ; AVX2-FAST-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[6,7,14,15,4,5,6,7,8,9,10,11,12,13,14,15]
 394 ; AVX2-FAST-NEXT:    vmovd %xmm0, (%rsi)
 395 ; AVX2-FAST-NEXT:    retq
 396 ;
 397 ; AVX512F-LABEL: shuffle_v8i16_to_v2i16_3:
 398 ; AVX512F:       # %bb.0:
 399 ; AVX512F-NEXT:    vpshufd {{.*#+}} xmm0 = mem[3,1,2,3]
 400 ; AVX512F-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
 401 ; AVX512F-NEXT:    vmovd %xmm0, (%rsi)
 402 ; AVX512F-NEXT:    retq
 403 ;
 404 ; AVX512VL-LABEL: shuffle_v8i16_to_v2i16_3:
 405 ; AVX512VL:       # %bb.0:
 406 ; AVX512VL-NEXT:    vmovdqa (%rdi), %xmm0
 407 ; AVX512VL-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[6,7,14,15,4,5,6,7,8,9,10,11,12,13,14,15]
 408 ; AVX512VL-NEXT:    vmovd %xmm0, (%rsi)
 409 ; AVX512VL-NEXT:    retq
 410 ;
 411 ; AVX512BW-LABEL: shuffle_v8i16_to_v2i16_3:
 412 ; AVX512BW:       # %bb.0:
 413 ; AVX512BW-NEXT:    vmovdqa (%rdi), %xmm0
 414 ; AVX512BW-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[6,7,14,15,4,5,6,7,8,9,10,11,12,13,14,15]
 415 ; AVX512BW-NEXT:    vmovd %xmm0, (%rsi)
 416 ; AVX512BW-NEXT:    retq
 417 ;
 418 ; AVX512BWVL-LABEL: shuffle_v8i16_to_v2i16_3:
 419 ; AVX512BWVL:       # %bb.0:
 420 ; AVX512BWVL-NEXT:    vmovdqa (%rdi), %xmm0
 421 ; AVX512BWVL-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[6,7,14,15,4,5,6,7,8,9,10,11,12,13,14,15]
 422 ; AVX512BWVL-NEXT:    vmovd %xmm0, (%rsi)
 423 ; AVX512BWVL-NEXT:    retq
 424   %vec = load <8 x i16>, <8 x i16>* %L
 425   %strided.vec = shufflevector <8 x i16> %vec, <8 x i16> undef, <2 x i32> <i32 3, i32 7>
 426   store <2 x i16> %strided.vec, <2 x i16>* %S
 427   ret void
 428 }
 429
 430 define void @shuffle_v16i8_to_v2i8_1(<16 x i8>* %L, <2 x i8>* %S) nounwind {
 431 ; SSE2-LABEL: shuffle_v16i8_to_v2i8_1:
 432 ; SSE2:       # %bb.0:
 433 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 434 ; SSE2-NEXT:    pxor %xmm1, %xmm1
 435 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
 436 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
 437 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 438 ; SSE2-NEXT:    punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
 439 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
 440 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 441 ; SSE2-NEXT:    movd %xmm0, %eax
 442 ; SSE2-NEXT:    movw %ax, (%rsi)
 443 ; SSE2-NEXT:    retq
 444 ;
 445 ; SSE42-LABEL: shuffle_v16i8_to_v2i8_1:
 446 ; SSE42:       # %bb.0:
 447 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 448 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[1,9,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 449 ; SSE42-NEXT:    pextrw $0, %xmm0, (%rsi)
 450 ; SSE42-NEXT:    retq
 451 ;
 452 ; AVX-LABEL: shuffle_v16i8_to_v2i8_1:
 453 ; AVX:       # %bb.0:
 454 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 455 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[1,9,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 456 ; AVX-NEXT:    vpextrw $0, %xmm0, (%rsi)
 457 ; AVX-NEXT:    retq
 458 ;
 459 ; AVX512-LABEL: shuffle_v16i8_to_v2i8_1:
 460 ; AVX512:       # %bb.0:
 461 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 462 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[1,9,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 463 ; AVX512-NEXT:    vpextrw $0, %xmm0, (%rsi)
 464 ; AVX512-NEXT:    retq
 465   %vec = load <16 x i8>, <16 x i8>* %L
 466   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <2 x i32> <i32 1, i32 9>
 467   store <2 x i8> %strided.vec, <2 x i8>* %S
 468   ret void
 469 }
 470
 471 define void @shuffle_v16i8_to_v2i8_2(<16 x i8>* %L, <2 x i8>* %S) nounwind {
 472 ; SSE2-LABEL: shuffle_v16i8_to_v2i8_2:
 473 ; SSE2:       # %bb.0:
 474 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 475 ; SSE2-NEXT:    pand {{.*}}(%rip), %xmm0
 476 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
 477 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
 478 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 479 ; SSE2-NEXT:    movd %xmm0, %eax
 480 ; SSE2-NEXT:    movw %ax, (%rsi)
 481 ; SSE2-NEXT:    retq
 482 ;
 483 ; SSE42-LABEL: shuffle_v16i8_to_v2i8_2:
 484 ; SSE42:       # %bb.0:
 485 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 486 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[2,10,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 487 ; SSE42-NEXT:    pextrw $0, %xmm0, (%rsi)
 488 ; SSE42-NEXT:    retq
 489 ;
 490 ; AVX-LABEL: shuffle_v16i8_to_v2i8_2:
 491 ; AVX:       # %bb.0:
 492 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 493 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,10,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 494 ; AVX-NEXT:    vpextrw $0, %xmm0, (%rsi)
 495 ; AVX-NEXT:    retq
 496 ;
 497 ; AVX512-LABEL: shuffle_v16i8_to_v2i8_2:
 498 ; AVX512:       # %bb.0:
 499 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 500 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,10,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 501 ; AVX512-NEXT:    vpextrw $0, %xmm0, (%rsi)
 502 ; AVX512-NEXT:    retq
 503   %vec = load <16 x i8>, <16 x i8>* %L
 504   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <2 x i32> <i32 2, i32 10>
 505   store <2 x i8> %strided.vec, <2 x i8>* %S
 506   ret void
 507 }
 508
 509 define void @shuffle_v16i8_to_v2i8_3(<16 x i8>* %L, <2 x i8>* %S) nounwind {
 510 ; SSE2-LABEL: shuffle_v16i8_to_v2i8_3:
 511 ; SSE2:       # %bb.0:
 512 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 513 ; SSE2-NEXT:    pxor %xmm1, %xmm1
 514 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
 515 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
 516 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 517 ; SSE2-NEXT:    punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
 518 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
 519 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 520 ; SSE2-NEXT:    movd %xmm0, %eax
 521 ; SSE2-NEXT:    movw %ax, (%rsi)
 522 ; SSE2-NEXT:    retq
 523 ;
 524 ; SSE42-LABEL: shuffle_v16i8_to_v2i8_3:
 525 ; SSE42:       # %bb.0:
 526 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 527 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[3,11,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 528 ; SSE42-NEXT:    pextrw $0, %xmm0, (%rsi)
 529 ; SSE42-NEXT:    retq
 530 ;
 531 ; AVX-LABEL: shuffle_v16i8_to_v2i8_3:
 532 ; AVX:       # %bb.0:
 533 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 534 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[3,11,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 535 ; AVX-NEXT:    vpextrw $0, %xmm0, (%rsi)
 536 ; AVX-NEXT:    retq
 537 ;
 538 ; AVX512-LABEL: shuffle_v16i8_to_v2i8_3:
 539 ; AVX512:       # %bb.0:
 540 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 541 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[3,11,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 542 ; AVX512-NEXT:    vpextrw $0, %xmm0, (%rsi)
 543 ; AVX512-NEXT:    retq
 544   %vec = load <16 x i8>, <16 x i8>* %L
 545   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <2 x i32> <i32 3, i32 11>
 546   store <2 x i8> %strided.vec, <2 x i8>* %S
 547   ret void
 548 }
 549
 550 define void @shuffle_v16i8_to_v2i8_4(<16 x i8>* %L, <2 x i8>* %S) nounwind {
 551 ; SSE2-LABEL: shuffle_v16i8_to_v2i8_4:
 552 ; SSE2:       # %bb.0:
 553 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 554 ; SSE2-NEXT:    pand {{.*}}(%rip), %xmm0
 555 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
 556 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[2,0,2,3,4,5,6,7]
 557 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 558 ; SSE2-NEXT:    movd %xmm0, %eax
 559 ; SSE2-NEXT:    movw %ax, (%rsi)
 560 ; SSE2-NEXT:    retq
 561 ;
 562 ; SSE42-LABEL: shuffle_v16i8_to_v2i8_4:
 563 ; SSE42:       # %bb.0:
 564 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 565 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[4,12,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 566 ; SSE42-NEXT:    pextrw $0, %xmm0, (%rsi)
 567 ; SSE42-NEXT:    retq
 568 ;
 569 ; AVX-LABEL: shuffle_v16i8_to_v2i8_4:
 570 ; AVX:       # %bb.0:
 571 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 572 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[4,12,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 573 ; AVX-NEXT:    vpextrw $0, %xmm0, (%rsi)
 574 ; AVX-NEXT:    retq
 575 ;
 576 ; AVX512-LABEL: shuffle_v16i8_to_v2i8_4:
 577 ; AVX512:       # %bb.0:
 578 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 579 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[4,12,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 580 ; AVX512-NEXT:    vpextrw $0, %xmm0, (%rsi)
 581 ; AVX512-NEXT:    retq
 582   %vec = load <16 x i8>, <16 x i8>* %L
 583   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <2 x i32> <i32 4, i32 12>
 584   store <2 x i8> %strided.vec, <2 x i8>* %S
 585   ret void
 586 }
 587
 588 define void @shuffle_v16i8_to_v2i8_5(<16 x i8>* %L, <2 x i8>* %S) nounwind {
 589 ; SSE2-LABEL: shuffle_v16i8_to_v2i8_5:
 590 ; SSE2:       # %bb.0:
 591 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 592 ; SSE2-NEXT:    pxor %xmm1, %xmm1
 593 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
 594 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
 595 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 596 ; SSE2-NEXT:    punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
 597 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
 598 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 599 ; SSE2-NEXT:    movd %xmm0, %eax
 600 ; SSE2-NEXT:    movw %ax, (%rsi)
 601 ; SSE2-NEXT:    retq
 602 ;
 603 ; SSE42-LABEL: shuffle_v16i8_to_v2i8_5:
 604 ; SSE42:       # %bb.0:
 605 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 606 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[5,13,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 607 ; SSE42-NEXT:    pextrw $0, %xmm0, (%rsi)
 608 ; SSE42-NEXT:    retq
 609 ;
 610 ; AVX-LABEL: shuffle_v16i8_to_v2i8_5:
 611 ; AVX:       # %bb.0:
 612 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 613 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[5,13,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 614 ; AVX-NEXT:    vpextrw $0, %xmm0, (%rsi)
 615 ; AVX-NEXT:    retq
 616 ;
 617 ; AVX512-LABEL: shuffle_v16i8_to_v2i8_5:
 618 ; AVX512:       # %bb.0:
 619 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 620 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[5,13,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 621 ; AVX512-NEXT:    vpextrw $0, %xmm0, (%rsi)
 622 ; AVX512-NEXT:    retq
 623   %vec = load <16 x i8>, <16 x i8>* %L
 624   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <2 x i32> <i32 5, i32 13>
 625   store <2 x i8> %strided.vec, <2 x i8>* %S
 626   ret void
 627 }
 628
 629 define void @shuffle_v16i8_to_v2i8_6(<16 x i8>* %L, <2 x i8>* %S) nounwind {
 630 ; SSE2-LABEL: shuffle_v16i8_to_v2i8_6:
 631 ; SSE2:       # %bb.0:
 632 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 633 ; SSE2-NEXT:    pand {{.*}}(%rip), %xmm0
 634 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
 635 ; SSE2-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
 636 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 637 ; SSE2-NEXT:    movd %xmm0, %eax
 638 ; SSE2-NEXT:    movw %ax, (%rsi)
 639 ; SSE2-NEXT:    retq
 640 ;
 641 ; SSE42-LABEL: shuffle_v16i8_to_v2i8_6:
 642 ; SSE42:       # %bb.0:
 643 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 644 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[6,14,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 645 ; SSE42-NEXT:    pextrw $0, %xmm0, (%rsi)
 646 ; SSE42-NEXT:    retq
 647 ;
 648 ; AVX-LABEL: shuffle_v16i8_to_v2i8_6:
 649 ; AVX:       # %bb.0:
 650 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 651 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[6,14,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 652 ; AVX-NEXT:    vpextrw $0, %xmm0, (%rsi)
 653 ; AVX-NEXT:    retq
 654 ;
 655 ; AVX512-LABEL: shuffle_v16i8_to_v2i8_6:
 656 ; AVX512:       # %bb.0:
 657 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 658 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[6,14,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 659 ; AVX512-NEXT:    vpextrw $0, %xmm0, (%rsi)
 660 ; AVX512-NEXT:    retq
 661   %vec = load <16 x i8>, <16 x i8>* %L
 662   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <2 x i32> <i32 6, i32 14>
 663   store <2 x i8> %strided.vec, <2 x i8>* %S
 664   ret void
 665 }
 666
 667 define void @shuffle_v16i8_to_v2i8_7(<16 x i8>* %L, <2 x i8>* %S) nounwind {
 668 ; SSE2-LABEL: shuffle_v16i8_to_v2i8_7:
 669 ; SSE2:       # %bb.0:
 670 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
 671 ; SSE2-NEXT:    pxor %xmm1, %xmm1
 672 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
 673 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
 674 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 675 ; SSE2-NEXT:    punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
 676 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
 677 ; SSE2-NEXT:    packuswb %xmm0, %xmm0
 678 ; SSE2-NEXT:    movd %xmm0, %eax
 679 ; SSE2-NEXT:    movw %ax, (%rsi)
 680 ; SSE2-NEXT:    retq
 681 ;
 682 ; SSE42-LABEL: shuffle_v16i8_to_v2i8_7:
 683 ; SSE42:       # %bb.0:
 684 ; SSE42-NEXT:    movdqa (%rdi), %xmm0
 685 ; SSE42-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[7,15,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 686 ; SSE42-NEXT:    pextrw $0, %xmm0, (%rsi)
 687 ; SSE42-NEXT:    retq
 688 ;
 689 ; AVX-LABEL: shuffle_v16i8_to_v2i8_7:
 690 ; AVX:       # %bb.0:
 691 ; AVX-NEXT:    vmovdqa (%rdi), %xmm0
 692 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[7,15,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 693 ; AVX-NEXT:    vpextrw $0, %xmm0, (%rsi)
 694 ; AVX-NEXT:    retq
 695 ;
 696 ; AVX512-LABEL: shuffle_v16i8_to_v2i8_7:
 697 ; AVX512:       # %bb.0:
 698 ; AVX512-NEXT:    vmovdqa (%rdi), %xmm0
 699 ; AVX512-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[7,15,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
 700 ; AVX512-NEXT:    vpextrw $0, %xmm0, (%rsi)
 701 ; AVX512-NEXT:    retq
 702   %vec = load <16 x i8>, <16 x i8>* %L
 703   %strided.vec = shufflevector <16 x i8> %vec, <16 x i8> undef, <2 x i32> <i32 7, i32 15>
 704   store <2 x i8> %strided.vec, <2 x i8>* %S
 705   ret void
 706 }
 707