test/CodeGen/X86/vector-shuffle-combining-ssse3.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 | FileCheck %s --check-prefixes=CHECK,SSE,SSSE3
   3 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.1 | FileCheck %s --check-prefixes=CHECK,SSE,SSE41
   4 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx | FileCheck %s --check-prefixes=CHECK,AVX,AVX1
   5 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 | FileCheck %s --check-prefixes=CHECK,AVX,AVX2
   6 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f | FileCheck %s --check-prefixes=CHECK,AVX,AVX512F
   7 ;
   8 ; Combine tests involving SSE3/SSSE3 target shuffles (MOVDDUP, MOVSHDUP, MOVSLDUP, PSHUFB)
   9
  10 declare <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8>, <16 x i8>)
  11
  12 define <16 x i8> @combine_vpshufb_as_zero(<16 x i8> %a0) {
  13 ; SSE-LABEL: combine_vpshufb_as_zero:
  14 ; SSE:       # %bb.0:
  15 ; SSE-NEXT:    xorps %xmm0, %xmm0
  16 ; SSE-NEXT:    retq
  17 ;
  18 ; AVX-LABEL: combine_vpshufb_as_zero:
  19 ; AVX:       # %bb.0:
  20 ; AVX-NEXT:    vxorps %xmm0, %xmm0, %xmm0
  21 ; AVX-NEXT:    retq
  22   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 128, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0>)
  23   %res1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res0, <16 x i8> <i8 0, i8 128, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0>)
  24   %res2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res1, <16 x i8> <i8 0, i8 1, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128>)
  25   ret <16 x i8> %res2
  26 }
  27
  28 define <16 x i8> @combine_vpshufb_as_movq(<16 x i8> %a0) {
  29 ; SSE-LABEL: combine_vpshufb_as_movq:
  30 ; SSE:       # %bb.0:
  31 ; SSE-NEXT:    movq {{.*#+}} xmm0 = xmm0[0],zero
  32 ; SSE-NEXT:    retq
  33 ;
  34 ; AVX-LABEL: combine_vpshufb_as_movq:
  35 ; AVX:       # %bb.0:
  36 ; AVX-NEXT:    vmovq {{.*#+}} xmm0 = xmm0[0],zero
  37 ; AVX-NEXT:    retq
  38   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 128, i8 1, i8 128, i8 2, i8 128, i8 3, i8 128, i8 4, i8 128, i8 5, i8 128, i8 6, i8 128, i8 7, i8 128>)
  39   %res1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res0, <16 x i8> <i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14, i8 1, i8 3, i8 5, i8 7, i8 9, i8 11, i8 13, i8 15>)
  40   ret <16 x i8> %res1
  41 }
  42
  43 define <2 x double> @combine_pshufb_as_movsd(<2 x double> %a0, <2 x double> %a1) {
  44 ; SSSE3-LABEL: combine_pshufb_as_movsd:
  45 ; SSSE3:       # %bb.0:
  46 ; SSSE3-NEXT:    shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
  47 ; SSSE3-NEXT:    retq
  48 ;
  49 ; SSE41-LABEL: combine_pshufb_as_movsd:
  50 ; SSE41:       # %bb.0:
  51 ; SSE41-NEXT:    blendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
  52 ; SSE41-NEXT:    retq
  53 ;
  54 ; AVX-LABEL: combine_pshufb_as_movsd:
  55 ; AVX:       # %bb.0:
  56 ; AVX-NEXT:    vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
  57 ; AVX-NEXT:    retq
  58   %1 = shufflevector <2 x double> %a0, <2 x double> %a1, <2 x i32> <i32 3, i32 0>
  59   %2 = bitcast <2 x double> %1 to <16 x i8>
  60   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>)
  61   %4 = bitcast <16 x i8> %3 to <2 x double>
  62   ret <2 x double> %4
  63 }
  64
  65 define <4 x float> @combine_pshufb_as_movss(<4 x float> %a0, <4 x float> %a1) {
  66 ; SSSE3-LABEL: combine_pshufb_as_movss:
  67 ; SSSE3:       # %bb.0:
  68 ; SSSE3-NEXT:    movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
  69 ; SSSE3-NEXT:    retq
  70 ;
  71 ; SSE41-LABEL: combine_pshufb_as_movss:
  72 ; SSE41:       # %bb.0:
  73 ; SSE41-NEXT:    blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
  74 ; SSE41-NEXT:    retq
  75 ;
  76 ; AVX-LABEL: combine_pshufb_as_movss:
  77 ; AVX:       # %bb.0:
  78 ; AVX-NEXT:    vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
  79 ; AVX-NEXT:    retq
  80   %1 = shufflevector <4 x float> %a0, <4 x float> %a1, <4 x i32> <i32 4, i32 3, i32 2, i32 1>
  81   %2 = bitcast <4 x float> %1 to <16 x i8>
  82   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 12, i8 13, i8 14, i8 15, i8 8, i8 9, i8 10, i8 11, i8 4, i8 5, i8 6, i8 7>)
  83   %4 = bitcast <16 x i8> %3 to <4 x float>
  84   ret <4 x float> %4
  85 }
  86
  87 define <4 x i32> @combine_pshufb_as_zext(<16 x i8> %a0) {
  88 ; SSSE3-LABEL: combine_pshufb_as_zext:
  89 ; SSSE3:       # %bb.0:
  90 ; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
  91 ; SSSE3-NEXT:    retq
  92 ;
  93 ; SSE41-LABEL: combine_pshufb_as_zext:
  94 ; SSE41:       # %bb.0:
  95 ; SSE41-NEXT:    pmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
  96 ; SSE41-NEXT:    retq
  97 ;
  98 ; AVX-LABEL: combine_pshufb_as_zext:
  99 ; AVX:       # %bb.0:
 100 ; AVX-NEXT:    vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
 101 ; AVX-NEXT:    retq
 102   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 -1, i8 -1, i8 -1, i8 1, i8 -1, i8 -1, i8 -1, i8 2, i8 -1, i8 -1, i8 -1, i8 3, i8 -1, i8 -1, i8 -1>)
 103   %2 = bitcast <16 x i8> %1 to <4 x i32>
 104   ret <4 x i32> %2
 105 }
 106
 107 define <2 x double> @combine_pshufb_as_vzmovl_64(<2 x double> %a0) {
 108 ; SSE-LABEL: combine_pshufb_as_vzmovl_64:
 109 ; SSE:       # %bb.0:
 110 ; SSE-NEXT:    movq {{.*#+}} xmm0 = xmm0[0],zero
 111 ; SSE-NEXT:    retq
 112 ;
 113 ; AVX-LABEL: combine_pshufb_as_vzmovl_64:
 114 ; AVX:       # %bb.0:
 115 ; AVX-NEXT:    vmovq {{.*#+}} xmm0 = xmm0[0],zero
 116 ; AVX-NEXT:    retq
 117   %1 = bitcast <2 x double> %a0 to <16 x i8>
 118   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 119   %3 = bitcast <16 x i8> %2 to <2 x double>
 120   ret <2 x double> %3
 121 }
 122
 123 define <4 x float> @combine_pshufb_as_vzmovl_32(<4 x float> %a0) {
 124 ; SSSE3-LABEL: combine_pshufb_as_vzmovl_32:
 125 ; SSSE3:       # %bb.0:
 126 ; SSSE3-NEXT:    xorps %xmm1, %xmm1
 127 ; SSSE3-NEXT:    movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
 128 ; SSSE3-NEXT:    movaps %xmm1, %xmm0
 129 ; SSSE3-NEXT:    retq
 130 ;
 131 ; SSE41-LABEL: combine_pshufb_as_vzmovl_32:
 132 ; SSE41:       # %bb.0:
 133 ; SSE41-NEXT:    xorps %xmm1, %xmm1
 134 ; SSE41-NEXT:    blendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
 135 ; SSE41-NEXT:    retq
 136 ;
 137 ; AVX-LABEL: combine_pshufb_as_vzmovl_32:
 138 ; AVX:       # %bb.0:
 139 ; AVX-NEXT:    vxorps %xmm1, %xmm1, %xmm1
 140 ; AVX-NEXT:    vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
 141 ; AVX-NEXT:    retq
 142   %1 = bitcast <4 x float> %a0 to <16 x i8>
 143   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 144   %3 = bitcast <16 x i8> %2 to <4 x float>
 145   ret <4 x float> %3
 146 }
 147
 148 define <4 x float> @combine_pshufb_movddup(<4 x float> %a0) {
 149 ; SSE-LABEL: combine_pshufb_movddup:
 150 ; SSE:       # %bb.0:
 151 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,7,7,7,7,5,5,5,5,7,7,7,7]
 152 ; SSE-NEXT:    retq
 153 ;
 154 ; AVX-LABEL: combine_pshufb_movddup:
 155 ; AVX:       # %bb.0:
 156 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,7,7,7,7,5,5,5,5,7,7,7,7]
 157 ; AVX-NEXT:    retq
 158   %1 = bitcast <4 x float> %a0 to <16 x i8>
 159   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 5, i8 5, i8 5, i8 5, i8 7, i8 7, i8 7, i8 7, i8 1, i8 1, i8 1, i8 1, i8 3, i8 3, i8 3, i8 3>)
 160   %3 = bitcast <16 x i8> %2 to <4 x float>
 161   %4 = shufflevector <4 x float> %3, <4 x float> undef, <4 x i32> <i32 0, i32 1, i32 0, i32 1>
 162   ret <4 x float> %4
 163 }
 164
 165 define <4 x float> @combine_pshufb_movshdup(<4 x float> %a0) {
 166 ; SSE-LABEL: combine_pshufb_movshdup:
 167 ; SSE:       # %bb.0:
 168 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[7,7,7,7,7,7,7,7,3,3,3,3,3,3,3,3]
 169 ; SSE-NEXT:    retq
 170 ;
 171 ; AVX-LABEL: combine_pshufb_movshdup:
 172 ; AVX:       # %bb.0:
 173 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[7,7,7,7,7,7,7,7,3,3,3,3,3,3,3,3]
 174 ; AVX-NEXT:    retq
 175   %1 = bitcast <4 x float> %a0 to <16 x i8>
 176   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 5, i8 5, i8 5, i8 5, i8 7, i8 7, i8 7, i8 7, i8 1, i8 1, i8 1, i8 1, i8 3, i8 3, i8 3, i8 3>)
 177   %3 = bitcast <16 x i8> %2 to <4 x float>
 178   %4 = shufflevector <4 x float> %3, <4 x float> undef, <4 x i32> <i32 1, i32 1, i32 3, i32 3>
 179   ret <4 x float> %4
 180 }
 181
 182 define <4 x float> @combine_pshufb_movsldup(<4 x float> %a0) {
 183 ; SSE-LABEL: combine_pshufb_movsldup:
 184 ; SSE:       # %bb.0:
 185 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,5,5,5,5,1,1,1,1,1,1,1,1]
 186 ; SSE-NEXT:    retq
 187 ;
 188 ; AVX-LABEL: combine_pshufb_movsldup:
 189 ; AVX:       # %bb.0:
 190 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,5,5,5,5,1,1,1,1,1,1,1,1]
 191 ; AVX-NEXT:    retq
 192   %1 = bitcast <4 x float> %a0 to <16 x i8>
 193   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 5, i8 5, i8 5, i8 5, i8 7, i8 7, i8 7, i8 7, i8 1, i8 1, i8 1, i8 1, i8 3, i8 3, i8 3, i8 3>)
 194   %3 = bitcast <16 x i8> %2 to <4 x float>
 195   %4 = shufflevector <4 x float> %3, <4 x float> undef, <4 x i32> <i32 0, i32 0, i32 2, i32 2>
 196   ret <4 x float> %4
 197 }
 198
 199 define <16 x i8> @combine_pshufb_palignr(<16 x i8> %a0, <16 x i8> %a1) {
 200 ; SSE-LABEL: combine_pshufb_palignr:
 201 ; SSE:       # %bb.0:
 202 ; SSE-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
 203 ; SSE-NEXT:    retq
 204 ;
 205 ; AVX-LABEL: combine_pshufb_palignr:
 206 ; AVX:       # %bb.0:
 207 ; AVX-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[2,3,2,3]
 208 ; AVX-NEXT:    retq
 209   %1 = shufflevector <16 x i8> %a0, <16 x i8> %a1, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23>
 210   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>)
 211   ret <16 x i8> %2
 212 }
 213
 214 define <16 x i8> @combine_pshufb_pslldq(<16 x i8> %a0) {
 215 ; SSE-LABEL: combine_pshufb_pslldq:
 216 ; SSE:       # %bb.0:
 217 ; SSE-NEXT:    xorps %xmm0, %xmm0
 218 ; SSE-NEXT:    retq
 219 ;
 220 ; AVX-LABEL: combine_pshufb_pslldq:
 221 ; AVX:       # %bb.0:
 222 ; AVX-NEXT:    vxorps %xmm0, %xmm0, %xmm0
 223 ; AVX-NEXT:    retq
 224   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>)
 225   %2 = shufflevector <16 x i8> %1, <16 x i8> zeroinitializer, <16 x i32> <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
 226   ret <16 x i8> %2
 227 }
 228
 229 define <16 x i8> @combine_pshufb_psrldq(<16 x i8> %a0) {
 230 ; SSE-LABEL: combine_pshufb_psrldq:
 231 ; SSE:       # %bb.0:
 232 ; SSE-NEXT:    xorps %xmm0, %xmm0
 233 ; SSE-NEXT:    retq
 234 ;
 235 ; AVX-LABEL: combine_pshufb_psrldq:
 236 ; AVX:       # %bb.0:
 237 ; AVX-NEXT:    vxorps %xmm0, %xmm0, %xmm0
 238 ; AVX-NEXT:    retq
 239   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128>)
 240   %2 = shufflevector <16 x i8> %1, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
 241   ret <16 x i8> %2
 242 }
 243
 244 define <16 x i8> @combine_and_pshufb(<16 x i8> %a0) {
 245 ; SSSE3-LABEL: combine_and_pshufb:
 246 ; SSSE3:       # %bb.0:
 247 ; SSSE3-NEXT:    andps {{.*}}(%rip), %xmm0
 248 ; SSSE3-NEXT:    retq
 249 ;
 250 ; SSE41-LABEL: combine_and_pshufb:
 251 ; SSE41:       # %bb.0:
 252 ; SSE41-NEXT:    pxor %xmm1, %xmm1
 253 ; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
 254 ; SSE41-NEXT:    retq
 255 ;
 256 ; AVX-LABEL: combine_and_pshufb:
 257 ; AVX:       # %bb.0:
 258 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 259 ; AVX-NEXT:    vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
 260 ; AVX-NEXT:    retq
 261   %1 = shufflevector <16 x i8> %a0, <16 x i8> zeroinitializer, <16 x i32> <i32 16, i32 16, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
 262   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 8, i8 9, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 263   ret <16 x i8> %2
 264 }
 265
 266 define <16 x i8> @combine_pshufb_and(<16 x i8> %a0) {
 267 ; SSSE3-LABEL: combine_pshufb_and:
 268 ; SSSE3:       # %bb.0:
 269 ; SSSE3-NEXT:    andps {{.*}}(%rip), %xmm0
 270 ; SSSE3-NEXT:    retq
 271 ;
 272 ; SSE41-LABEL: combine_pshufb_and:
 273 ; SSE41:       # %bb.0:
 274 ; SSE41-NEXT:    pxor %xmm1, %xmm1
 275 ; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
 276 ; SSE41-NEXT:    retq
 277 ;
 278 ; AVX-LABEL: combine_pshufb_and:
 279 ; AVX:       # %bb.0:
 280 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 281 ; AVX-NEXT:    vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
 282 ; AVX-NEXT:    retq
 283   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 8, i8 9, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 284   %2 = shufflevector <16 x i8> %1, <16 x i8> zeroinitializer, <16 x i32> <i32 16, i32 16, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
 285   ret <16 x i8> %2
 286 }
 287
 288 define <16 x i8> @combine_pshufb_as_palignr(<16 x i8> %a0) {
 289 ; SSE-LABEL: combine_pshufb_as_palignr:
 290 ; SSE:       # %bb.0:
 291 ; SSE-NEXT:    palignr {{.*#+}} xmm0 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0]
 292 ; SSE-NEXT:    retq
 293 ;
 294 ; AVX-LABEL: combine_pshufb_as_palignr:
 295 ; AVX:       # %bb.0:
 296 ; AVX-NEXT:    vpalignr {{.*#+}} xmm0 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0]
 297 ; AVX-NEXT:    retq
 298   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 undef, i8 undef, i8 0>)
 299   ret <16 x i8> %res0
 300 }
 301
 302 define <16 x i8> @combine_pshufb_as_pslldq(<16 x i8> %a0) {
 303 ; SSE-LABEL: combine_pshufb_as_pslldq:
 304 ; SSE:       # %bb.0:
 305 ; SSE-NEXT:    pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
 306 ; SSE-NEXT:    retq
 307 ;
 308 ; AVX-LABEL: combine_pshufb_as_pslldq:
 309 ; AVX:       # %bb.0:
 310 ; AVX-NEXT:    vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
 311 ; AVX-NEXT:    retq
 312   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5>)
 313   ret <16 x i8> %res0
 314 }
 315
 316 define <16 x i8> @combine_pshufb_as_psrldq(<16 x i8> %a0) {
 317 ; SSE-LABEL: combine_pshufb_as_psrldq:
 318 ; SSE:       # %bb.0:
 319 ; SSE-NEXT:    psrldq {{.*#+}} xmm0 = xmm0[15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
 320 ; SSE-NEXT:    retq
 321 ;
 322 ; AVX-LABEL: combine_pshufb_as_psrldq:
 323 ; AVX:       # %bb.0:
 324 ; AVX-NEXT:    vpsrldq {{.*#+}} xmm0 = xmm0[15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
 325 ; AVX-NEXT:    retq
 326   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 15, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128>)
 327   ret <16 x i8> %res0
 328 }
 329
 330 define <16 x i8> @combine_pshufb_as_psrlw(<16 x i8> %a0) {
 331 ; SSE-LABEL: combine_pshufb_as_psrlw:
 332 ; SSE:       # %bb.0:
 333 ; SSE-NEXT:    psrlw $8, %xmm0
 334 ; SSE-NEXT:    retq
 335 ;
 336 ; AVX-LABEL: combine_pshufb_as_psrlw:
 337 ; AVX:       # %bb.0:
 338 ; AVX-NEXT:    vpsrlw $8, %xmm0, %xmm0
 339 ; AVX-NEXT:    retq
 340   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 1, i8 128, i8 3, i8 128, i8 5, i8 128, i8 7, i8 128, i8 9, i8 128, i8 11, i8 128, i8 13, i8 128, i8 15, i8 128>)
 341   ret <16 x i8> %res0
 342 }
 343
 344 define <16 x i8> @combine_pshufb_as_pslld(<16 x i8> %a0) {
 345 ; SSE-LABEL: combine_pshufb_as_pslld:
 346 ; SSE:       # %bb.0:
 347 ; SSE-NEXT:    pslld $24, %xmm0
 348 ; SSE-NEXT:    retq
 349 ;
 350 ; AVX-LABEL: combine_pshufb_as_pslld:
 351 ; AVX:       # %bb.0:
 352 ; AVX-NEXT:    vpslld $24, %xmm0, %xmm0
 353 ; AVX-NEXT:    retq
 354   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 128, i8 128, i8 128, i8 0, i8 128, i8 128, i8 128, i8 4, i8 128, i8 128, i8 128, i8 8, i8 128, i8 128, i8 128, i8 12>)
 355   ret <16 x i8> %res0
 356 }
 357
 358 define <16 x i8> @combine_pshufb_as_psrlq(<16 x i8> %a0) {
 359 ; SSE-LABEL: combine_pshufb_as_psrlq:
 360 ; SSE:       # %bb.0:
 361 ; SSE-NEXT:    psrlq $40, %xmm0
 362 ; SSE-NEXT:    retq
 363 ;
 364 ; AVX-LABEL: combine_pshufb_as_psrlq:
 365 ; AVX:       # %bb.0:
 366 ; AVX-NEXT:    vpsrlq $40, %xmm0, %xmm0
 367 ; AVX-NEXT:    retq
 368   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 5, i8 6, i8 7, i8 128, i8 128, i8 128, i8 128, i8 128, i8 13, i8 14, i8 15, i8 128, i8 128, i8 128, i8 128, i8 128>)
 369   ret <16 x i8> %res0
 370 }
 371
 372 define <16 x i8> @combine_pshufb_as_pshuflw(<16 x i8> %a0) {
 373 ; SSE-LABEL: combine_pshufb_as_pshuflw:
 374 ; SSE:       # %bb.0:
 375 ; SSE-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
 376 ; SSE-NEXT:    retq
 377 ;
 378 ; AVX-LABEL: combine_pshufb_as_pshuflw:
 379 ; AVX:       # %bb.0:
 380 ; AVX-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
 381 ; AVX-NEXT:    retq
 382   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 2, i8 3, i8 0, i8 1, i8 6, i8 7, i8 4, i8 5, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>)
 383   ret <16 x i8> %res0
 384 }
 385
 386 define <16 x i8> @combine_pshufb_as_pshufhw(<16 x i8> %a0) {
 387 ; SSE-LABEL: combine_pshufb_as_pshufhw:
 388 ; SSE:       # %bb.0:
 389 ; SSE-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,7,6]
 390 ; SSE-NEXT:    retq
 391 ;
 392 ; AVX-LABEL: combine_pshufb_as_pshufhw:
 393 ; AVX:       # %bb.0:
 394 ; AVX-NEXT:    vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,7,6]
 395 ; AVX-NEXT:    retq
 396   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 10, i8 11, i8 8, i8 9, i8 14, i8 15, i8 12, i8 13>)
 397   ret <16 x i8> %res0
 398 }
 399
 400 define <16 x i8> @combine_pshufb_not_as_pshufw(<16 x i8> %a0) {
 401 ; SSE-LABEL: combine_pshufb_not_as_pshufw:
 402 ; SSE:       # %bb.0:
 403 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[2,3,0,1,6,7,4,5,10,11,8,9,14,15,12,13]
 404 ; SSE-NEXT:    retq
 405 ;
 406 ; AVX-LABEL: combine_pshufb_not_as_pshufw:
 407 ; AVX:       # %bb.0:
 408 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,3,0,1,6,7,4,5,10,11,8,9,14,15,12,13]
 409 ; AVX-NEXT:    retq
 410   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 2, i8 3, i8 0, i8 1, i8 6, i8 7, i8 4, i8 5, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>)
 411   %res1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 10, i8 11, i8 8, i8 9, i8 14, i8 15, i8 12, i8 13>)
 412   ret <16 x i8> %res1
 413 }
 414
 415 define <16 x i8> @combine_vpshufb_as_pshuflw_not_pslld(<16 x i8> *%a0) {
 416 ; SSE-LABEL: combine_vpshufb_as_pshuflw_not_pslld:
 417 ; SSE:       # %bb.0:
 418 ; SSE-NEXT:    pshuflw {{.*#+}} xmm0 = mem[0,0,2,2,4,5,6,7]
 419 ; SSE-NEXT:    retq
 420 ;
 421 ; AVX-LABEL: combine_vpshufb_as_pshuflw_not_pslld:
 422 ; AVX:       # %bb.0:
 423 ; AVX-NEXT:    vpshuflw {{.*#+}} xmm0 = mem[0,0,2,2,4,5,6,7]
 424 ; AVX-NEXT:    retq
 425   %res0 = load <16 x i8>, <16 x i8> *%a0, align 16
 426   %res1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res0, <16 x i8> <i8 undef, i8 undef, i8 0, i8 1, i8 undef, i8 undef, i8 4, i8 5, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>)
 427   ret <16 x i8> %res1
 428 }
 429
 430 define <16 x i8> @combine_pshufb_as_unary_unpcklbw(<16 x i8> %a0) {
 431 ; SSE-LABEL: combine_pshufb_as_unary_unpcklbw:
 432 ; SSE:       # %bb.0:
 433 ; SSE-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
 434 ; SSE-NEXT:    retq
 435 ;
 436 ; AVX-LABEL: combine_pshufb_as_unary_unpcklbw:
 437 ; AVX:       # %bb.0:
 438 ; AVX-NEXT:    vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
 439 ; AVX-NEXT:    retq
 440   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 undef, i8 undef, i8 1, i8 2, i8 2, i8 3, i8 3, i8 4, i8 4, i8 5, i8 5, i8 6, i8 6, i8 7, i8 7>)
 441   ret <16 x i8> %1
 442 }
 443
 444 define <16 x i8> @combine_pshufb_as_unary_unpckhwd(<16 x i8> %a0) {
 445 ; SSE-LABEL: combine_pshufb_as_unary_unpckhwd:
 446 ; SSE:       # %bb.0:
 447 ; SSE-NEXT:    punpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]
 448 ; SSE-NEXT:    retq
 449 ;
 450 ; AVX-LABEL: combine_pshufb_as_unary_unpckhwd:
 451 ; AVX:       # %bb.0:
 452 ; AVX-NEXT:    vpunpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]
 453 ; AVX-NEXT:    retq
 454   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 8, i8 9, i8 8, i8 9, i8 10, i8 11, i8 10, i8 11, i8 12, i8 13, i8 12, i8 13, i8 14, i8 15, i8 undef, i8 undef>)
 455   ret <16 x i8> %1
 456 }
 457
 458 define <8 x i16> @combine_pshufb_as_unpacklo_undef(<16 x i8> %a0) {
 459 ; CHECK-LABEL: combine_pshufb_as_unpacklo_undef:
 460 ; CHECK:       # %bb.0:
 461 ; CHECK-NEXT:    retq
 462   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 undef, i8 undef, i8 0, i8 1, i8 undef, i8 undef, i8 2, i8 3, i8 undef, i8 undef, i8 4, i8 5, i8 undef, i8 undef, i8 6, i8 7>)
 463   %2 = bitcast <16 x i8> %1 to <8 x i16>
 464   %3 = shufflevector <8 x i16> %2, <8 x i16> undef, <8 x i32> <i32 0, i32 0, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>
 465   ret <8 x i16> %3
 466 }
 467
 468 define <16 x i8> @combine_pshufb_as_unpackhi_undef(<16 x i8> %a0) {
 469 ; CHECK-LABEL: combine_pshufb_as_unpackhi_undef:
 470 ; CHECK:       # %bb.0:
 471 ; CHECK-NEXT:    retq
 472   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 8, i8 undef, i8 9, i8 undef, i8 10, i8 undef, i8 11, i8 undef, i8 12, i8 undef, i8 13, i8 undef, i8 14, i8 undef, i8 15, i8 undef>)
 473   %2 = shufflevector <16 x i8> %1, <16 x i8> undef, <16 x i32> <i32 1, i32 1, i32 3, i32 3, i32 5, i32 5, i32 7, i32 7, i32 9, i32 9, i32 11, i32 11, i32 13, i32 13, i32 15, i32 15>
 474   ret <16 x i8> %2
 475 }
 476
 477 define <16 x i8> @combine_pshufb_as_unpacklo_zero(<16 x i8> %a0) {
 478 ; SSE-LABEL: combine_pshufb_as_unpacklo_zero:
 479 ; SSE:       # %bb.0:
 480 ; SSE-NEXT:    xorps %xmm1, %xmm1
 481 ; SSE-NEXT:    unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
 482 ; SSE-NEXT:    movaps %xmm1, %xmm0
 483 ; SSE-NEXT:    retq
 484 ;
 485 ; AVX-LABEL: combine_pshufb_as_unpacklo_zero:
 486 ; AVX:       # %bb.0:
 487 ; AVX-NEXT:    vxorps %xmm1, %xmm1, %xmm1
 488 ; AVX-NEXT:    vunpcklps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
 489 ; AVX-NEXT:    retq
 490   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 -1, i8 -1, i8 -1, i8 -1, i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1, i8 4, i8 5, i8 6, i8 7>)
 491   ret <16 x i8> %1
 492 }
 493
 494 define <16 x i8> @combine_pshufb_as_unpackhi_zero(<16 x i8> %a0) {
 495 ; SSE-LABEL: combine_pshufb_as_unpackhi_zero:
 496 ; SSE:       # %bb.0:
 497 ; SSE-NEXT:    pxor %xmm1, %xmm1
 498 ; SSE-NEXT:    punpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
 499 ; SSE-NEXT:    retq
 500 ;
 501 ; AVX-LABEL: combine_pshufb_as_unpackhi_zero:
 502 ; AVX:       # %bb.0:
 503 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 504 ; AVX-NEXT:    vpunpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
 505 ; AVX-NEXT:    retq
 506   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 8, i8 -1, i8 9, i8 -1, i8 10, i8 -1, i8 11, i8 -1, i8 12, i8 -1, i8 13, i8 -1, i8 14, i8 -1, i8 15, i8 -1>)
 507   ret <16 x i8> %1
 508 }
 509
 510 define <16 x i8> @combine_psrlw_pshufb(<8 x i16> %a0) {
 511 ; SSE-LABEL: combine_psrlw_pshufb:
 512 ; SSE:       # %bb.0:
 513 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero
 514 ; SSE-NEXT:    retq
 515 ;
 516 ; AVX-LABEL: combine_psrlw_pshufb:
 517 ; AVX:       # %bb.0:
 518 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero
 519 ; AVX-NEXT:    retq
 520   %1 = lshr <8 x i16> %a0, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
 521   %2 = bitcast <8 x i16> %1 to <16 x i8>
 522   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1>)
 523   ret <16 x i8> %3
 524 }
 525
 526 define <16 x i8> @combine_pslld_pshufb(<4 x i32> %a0) {
 527 ; SSE-LABEL: combine_pslld_pshufb:
 528 ; SSE:       # %bb.0:
 529 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[2,1,0],zero,xmm0[6,5,4],zero,xmm0[10,9,8],zero,xmm0[14,13,12],zero
 530 ; SSE-NEXT:    retq
 531 ;
 532 ; AVX-LABEL: combine_pslld_pshufb:
 533 ; AVX:       # %bb.0:
 534 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,1,0],zero,xmm0[6,5,4],zero,xmm0[10,9,8],zero,xmm0[14,13,12],zero
 535 ; AVX-NEXT:    retq
 536   %1 = shl <4 x i32> %a0, <i32 8, i32 8, i32 8, i32 8>
 537   %2 = bitcast <4 x i32> %1 to <16 x i8>
 538   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 3, i8 2, i8 1, i8 0, i8 7, i8 6, i8 5, i8 4, i8 11, i8 10, i8 9, i8 8, i8 15, i8 14, i8 13, i8 12>)
 539   ret <16 x i8> %3
 540 }
 541
 542 define <16 x i8> @combine_psrlq_pshufb(<2 x i64> %a0) {
 543 ; SSE-LABEL: combine_psrlq_pshufb:
 544 ; SSE:       # %bb.0:
 545 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,xmm0[7,6],zero,zero,zero,zero,zero,zero,xmm0[15,14]
 546 ; SSE-NEXT:    retq
 547 ;
 548 ; AVX-LABEL: combine_psrlq_pshufb:
 549 ; AVX:       # %bb.0:
 550 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,xmm0[7,6],zero,zero,zero,zero,zero,zero,xmm0[15,14]
 551 ; AVX-NEXT:    retq
 552   %1 = lshr <2 x i64> %a0, <i64 48, i64 48>
 553   %2 = bitcast <2 x i64> %1 to <16 x i8>
 554   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8>)
 555   ret <16 x i8> %3
 556 }
 557
 558 define <16 x i8> @combine_unpckl_arg0_pshufb(<16 x i8> %a0, <16 x i8> %a1) {
 559 ; SSE-LABEL: combine_unpckl_arg0_pshufb:
 560 ; SSE:       # %bb.0:
 561 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero
 562 ; SSE-NEXT:    retq
 563 ;
 564 ; AVX-LABEL: combine_unpckl_arg0_pshufb:
 565 ; AVX:       # %bb.0:
 566 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero
 567 ; AVX-NEXT:    retq
 568   %1 = shufflevector <16 x i8> %a0, <16 x i8> %a1, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
 569   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1>)
 570   ret <16 x i8> %2
 571 }
 572
 573 define <16 x i8> @combine_unpckl_arg1_pshufb(<16 x i8> %a0, <16 x i8> %a1) {
 574 ; SSE-LABEL: combine_unpckl_arg1_pshufb:
 575 ; SSE:       # %bb.0:
 576 ; SSE-NEXT:    movdqa %xmm1, %xmm0
 577 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero
 578 ; SSE-NEXT:    retq
 579 ;
 580 ; AVX-LABEL: combine_unpckl_arg1_pshufb:
 581 ; AVX:       # %bb.0:
 582 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm1[0],zero,zero,zero,xmm1[0],zero,zero,zero,xmm1[0],zero,zero,zero,xmm1[0],zero,zero,zero
 583 ; AVX-NEXT:    retq
 584   %1 = shufflevector <16 x i8> %a0, <16 x i8> %a1, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
 585   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 1, i8 -1, i8 -1, i8 -1, i8 1, i8 -1, i8 -1, i8 -1, i8 1, i8 -1, i8 -1, i8 -1, i8 1, i8 -1, i8 -1, i8 -1>)
 586   ret <16 x i8> %2
 587 }
 588
 589 define <8 x i16> @shuffle_combine_unpack_insert(<8 x i16> %a0) {
 590 ; SSE-LABEL: shuffle_combine_unpack_insert:
 591 ; SSE:       # %bb.0:
 592 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[4,5,4,5,4,5,8,9,8,9,8,9,10,11,10,11]
 593 ; SSE-NEXT:    retq
 594 ;
 595 ; AVX-LABEL: shuffle_combine_unpack_insert:
 596 ; AVX:       # %bb.0:
 597 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[4,5,4,5,4,5,8,9,8,9,8,9,10,11,10,11]
 598 ; AVX-NEXT:    retq
 599   %1 = extractelement <8 x i16> %a0, i32 2
 600   %2 = extractelement <8 x i16> %a0, i32 4
 601   %3 = insertelement <8 x i16> %a0, i16 %1, i32 4
 602   %4 = insertelement <8 x i16> %a0, i16 %2, i32 2
 603   %5 = shufflevector <8 x i16> %3, <8 x i16> %4, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>
 604   %6 = shufflevector <8 x i16> %5, <8 x i16> %3, <8 x i32> <i32 4, i32 12, i32 5, i32 13, i32 undef, i32 undef, i32 undef, i32 undef>
 605   %7 = shufflevector <8 x i16> %5, <8 x i16> %a0, <8 x i32> <i32 4, i32 12, i32 5, i32 13, i32 undef, i32 undef, i32 undef, i32 undef>
 606   %8 = shufflevector <8 x i16> %6, <8 x i16> %7, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>
 607   ret <8 x i16> %8
 608 }
 609
 610 define <16 x i8> @shuffle_combine_packssdw_pshufb(<4 x i32> %a0) {
 611 ; SSE-LABEL: shuffle_combine_packssdw_pshufb:
 612 ; SSE:       # %bb.0:
 613 ; SSE-NEXT:    psrad $31, %xmm0
 614 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[13,12,9,8,5,4,1,0,13,12,9,8,5,4,1,0]
 615 ; SSE-NEXT:    retq
 616 ;
 617 ; AVX-LABEL: shuffle_combine_packssdw_pshufb:
 618 ; AVX:       # %bb.0:
 619 ; AVX-NEXT:    vpsrad $31, %xmm0, %xmm0
 620 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[13,12,9,8,5,4,1,0,13,12,9,8,5,4,1,0]
 621 ; AVX-NEXT:    retq
 622   %1 = ashr <4 x i32> %a0, <i32 31, i32 31, i32 31, i32 31>
 623   %2 = tail call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %1, <4 x i32> %1)
 624   %3 = bitcast <8 x i16> %2 to <16 x i8>
 625   %4 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %3, <16 x i8> <i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8>)
 626   ret <16 x i8> %4
 627 }
 628 declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>) nounwind readnone
 629
 630 define <16 x i8> @shuffle_combine_packsswb_pshufb(<8 x i16> %a0, <8 x i16> %a1) {
 631 ; SSE-LABEL: shuffle_combine_packsswb_pshufb:
 632 ; SSE:       # %bb.0:
 633 ; SSE-NEXT:    psraw $15, %xmm0
 634 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[14,12,10,8,6,4,2,0,14,12,10,8,6,4,2,0]
 635 ; SSE-NEXT:    retq
 636 ;
 637 ; AVX-LABEL: shuffle_combine_packsswb_pshufb:
 638 ; AVX:       # %bb.0:
 639 ; AVX-NEXT:    vpsraw $15, %xmm0, %xmm0
 640 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[14,12,10,8,6,4,2,0,14,12,10,8,6,4,2,0]
 641 ; AVX-NEXT:    retq
 642   %1 = ashr <8 x i16> %a0, <i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15>
 643   %2 = ashr <8 x i16> %a1, <i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15>
 644   %3 = tail call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %1, <8 x i16> %2)
 645   %4 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %3, <16 x i8> <i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
 646   ret <16 x i8> %4
 647 }
 648 declare <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16>, <8 x i16>) nounwind readnone
 649
 650 define <16 x i8> @shuffle_combine_packuswb_pshufb(<8 x i16> %a0, <8 x i16> %a1) {
 651 ; SSE-LABEL: shuffle_combine_packuswb_pshufb:
 652 ; SSE:       # %bb.0:
 653 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[15,13,11,9,7,5,3,1,15,13,11,9,7,5,3,1]
 654 ; SSE-NEXT:    retq
 655 ;
 656 ; AVX-LABEL: shuffle_combine_packuswb_pshufb:
 657 ; AVX:       # %bb.0:
 658 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[15,13,11,9,7,5,3,1,15,13,11,9,7,5,3,1]
 659 ; AVX-NEXT:    retq
 660   %1 = lshr <8 x i16> %a0, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
 661   %2 = lshr <8 x i16> %a1, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
 662   %3 = tail call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %1, <8 x i16> %2)
 663   %4 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %3, <16 x i8> <i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
 664   ret <16 x i8> %4
 665 }
 666 declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>) nounwind readnone
 667
 668 define <16 x i8> @combine_pshufb_pshufb_or_as_blend(<16 x i8> %a0, <16 x i8> %a1) {
 669 ; SSSE3-LABEL: combine_pshufb_pshufb_or_as_blend:
 670 ; SSSE3:       # %bb.0:
 671 ; SSSE3-NEXT:    shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
 672 ; SSSE3-NEXT:    retq
 673 ;
 674 ; SSE41-LABEL: combine_pshufb_pshufb_or_as_blend:
 675 ; SSE41:       # %bb.0:
 676 ; SSE41-NEXT:    blendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
 677 ; SSE41-NEXT:    retq
 678 ;
 679 ; AVX-LABEL: combine_pshufb_pshufb_or_as_blend:
 680 ; AVX:       # %bb.0:
 681 ; AVX-NEXT:    vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
 682 ; AVX-NEXT:    retq
 683   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 684   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a1, <16 x i8> <i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>)
 685   %3 = or <16 x i8> %1, %2
 686   ret <16 x i8> %3
 687 }
 688
 689 define <16 x i8> @combine_pshufb_pshufb_or_as_unpcklbw(<16 x i8> %a0, <16 x i8> %a1) {
 690 ; SSE-LABEL: combine_pshufb_pshufb_or_as_unpcklbw:
 691 ; SSE:       # %bb.0:
 692 ; SSE-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 693 ; SSE-NEXT:    retq
 694 ;
 695 ; AVX-LABEL: combine_pshufb_pshufb_or_as_unpcklbw:
 696 ; AVX:       # %bb.0:
 697 ; AVX-NEXT:    vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 698 ; AVX-NEXT:    retq
 699   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 -1, i8 1, i8 -1, i8 2, i8 -1, i8 3, i8 -1, i8 4, i8 -1, i8 5, i8 -1, i8 6, i8 -1, i8 7, i8 -1>)
 700   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a1, <16 x i8> <i8 -1, i8 0, i8 -1, i8 1, i8 -1, i8 2, i8 -1, i8 3, i8 -1, i8 4, i8 -1, i8 5, i8 -1, i8 6, i8 -1, i8 7>)
 701   %3 = or <16 x i8> %1, %2
 702   ret <16 x i8> %3
 703 }
 704
 705 define <16 x i8> @combine_pshufb_pshufb_or_pshufb(<16 x i8> %a0) {
 706 ; SSE-LABEL: combine_pshufb_pshufb_or_pshufb:
 707 ; SSE:       # %bb.0:
 708 ; SSE-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
 709 ; SSE-NEXT:    retq
 710 ;
 711 ; AVX1-LABEL: combine_pshufb_pshufb_or_pshufb:
 712 ; AVX1:       # %bb.0:
 713 ; AVX1-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[0,0,0,0]
 714 ; AVX1-NEXT:    retq
 715 ;
 716 ; AVX2-LABEL: combine_pshufb_pshufb_or_pshufb:
 717 ; AVX2:       # %bb.0:
 718 ; AVX2-NEXT:    vbroadcastss %xmm0, %xmm0
 719 ; AVX2-NEXT:    retq
 720 ;
 721 ; AVX512F-LABEL: combine_pshufb_pshufb_or_pshufb:
 722 ; AVX512F:       # %bb.0:
 723 ; AVX512F-NEXT:    vbroadcastss %xmm0, %xmm0
 724 ; AVX512F-NEXT:    retq
 725   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1, i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1>)
 726   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 -1, i8 -1, i8 -1, i8 -1, i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1, i8 0, i8 1, i8 2, i8 3>)
 727   %3 = or <16 x i8> %1, %2
 728   %4 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %3, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>)
 729   ret <16 x i8> %4
 730 }
 731
 732 define <16 x i8> @constant_fold_pshufb() {
 733 ; SSE-LABEL: constant_fold_pshufb:
 734 ; SSE:       # %bb.0:
 735 ; SSE-NEXT:    movaps {{.*#+}} xmm0 = <14,0,0,0,u,u,0,0,0,0,0,0,0,0,8,9>
 736 ; SSE-NEXT:    retq
 737 ;
 738 ; AVX-LABEL: constant_fold_pshufb:
 739 ; AVX:       # %bb.0:
 740 ; AVX-NEXT:    vmovaps {{.*#+}} xmm0 = <14,0,0,0,u,u,0,0,0,0,0,0,0,0,8,9>
 741 ; AVX-NEXT:    retq
 742   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> <i8 1, i8 -1, i8 -1, i8 -1, i8 undef, i8 undef, i8 -1, i8 -1, i8 15, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 7, i8 6>)
 743   ret <16 x i8> %1
 744 }
 745
 746 define <16 x i8> @constant_fold_pshufb_2() {
 747 ; SSE-LABEL: constant_fold_pshufb_2:
 748 ; SSE:       # %bb.0:
 749 ; SSE-NEXT:    movaps {{.*#+}} xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
 750 ; SSE-NEXT:    retq
 751 ;
 752 ; AVX-LABEL: constant_fold_pshufb_2:
 753 ; AVX:       # %bb.0:
 754 ; AVX-NEXT:    vmovaps {{.*#+}} xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
 755 ; AVX-NEXT:    retq
 756   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> <i8 2, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0>, <16 x i8> <i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>)
 757   ret <16 x i8> %1
 758 }
 759
 760 define i32 @mask_zzz3_v16i8(<16 x i8> %a0) {
 761 ; SSSE3-LABEL: mask_zzz3_v16i8:
 762 ; SSSE3:       # %bb.0:
 763 ; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = zero,zero,zero,xmm0[14,u,u,u,u,u,u,u,u,u,u,u,u]
 764 ; SSSE3-NEXT:    movd %xmm0, %eax
 765 ; SSSE3-NEXT:    retq
 766 ;
 767 ; SSE41-LABEL: mask_zzz3_v16i8:
 768 ; SSE41:       # %bb.0:
 769 ; SSE41-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,u,u,u,u,u,u],zero,zero,zero,xmm0[14]
 770 ; SSE41-NEXT:    pextrd $3, %xmm0, %eax
 771 ; SSE41-NEXT:    retq
 772 ;
 773 ; AVX-LABEL: mask_zzz3_v16i8:
 774 ; AVX:       # %bb.0:
 775 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,u,u,u,u,u,u],zero,zero,zero,xmm0[14]
 776 ; AVX-NEXT:    vpextrd $3, %xmm0, %eax
 777 ; AVX-NEXT:    retq
 778   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14, i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14>)
 779   %2 = bitcast <16 x i8> %1 to <4 x i32>
 780   %3 = extractelement <4 x i32> %2, i32 3
 781   %4 = and i32 %3, 4278190080
 782   ret i32 %4
 783 }
 784
 785 define i32 @mask_z1z3_v16i8(<16 x i8> %a0) {
 786 ; SSSE3-LABEL: mask_z1z3_v16i8:
 787 ; SSSE3:       # %bb.0:
 788 ; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = zero,xmm0[10],zero,xmm0[14,u,u,u,u,u,u,u,u,u,u,u,u]
 789 ; SSSE3-NEXT:    movd %xmm0, %eax
 790 ; SSSE3-NEXT:    retq
 791 ;
 792 ; SSE41-LABEL: mask_z1z3_v16i8:
 793 ; SSE41:       # %bb.0:
 794 ; SSE41-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,u,u,u,u,u,u],zero,xmm0[10],zero,xmm0[14]
 795 ; SSE41-NEXT:    pextrd $3, %xmm0, %eax
 796 ; SSE41-NEXT:    retq
 797 ;
 798 ; AVX-LABEL: mask_z1z3_v16i8:
 799 ; AVX:       # %bb.0:
 800 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,u,u,u,u,u,u],zero,xmm0[10],zero,xmm0[14]
 801 ; AVX-NEXT:    vpextrd $3, %xmm0, %eax
 802 ; AVX-NEXT:    retq
 803   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14, i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14>)
 804   %2 = bitcast <16 x i8> %1 to <4 x i32>
 805   %3 = extractelement <4 x i32> %2, i32 3
 806   %4 = and i32 %3, 4278255360
 807   ret i32 %4
 808 }
 809
 810 define i32 @PR22415(double %a0) {
 811 ; SSE-LABEL: PR22415:
 812 ; SSE:       # %bb.0:
 813 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0,2,4],zero,xmm0[u,u,u,u,u,u,u,u,u,u,u,u]
 814 ; SSE-NEXT:    movd %xmm0, %eax
 815 ; SSE-NEXT:    retq
 816 ;
 817 ; AVX-LABEL: PR22415:
 818 ; AVX:       # %bb.0:
 819 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4],zero,xmm0[u,u,u,u,u,u,u,u,u,u,u,u]
 820 ; AVX-NEXT:    vmovd %xmm0, %eax
 821 ; AVX-NEXT:    retq
 822   %1 = bitcast double %a0 to <8 x i8>
 823   %2 = shufflevector <8 x i8> %1, <8 x i8> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 undef>
 824   %3 = shufflevector <4 x i8> %2, <4 x i8> undef, <3 x i32> <i32 0, i32 1, i32 2>
 825   %4 = bitcast <3 x i8> %3 to i24
 826   %5 = zext i24 %4 to i32
 827   ret i32 %5
 828 }