test/CodeGen/X86/vector-shuffle-combining-ssse3.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 | FileCheck %s --check-prefixes=CHECK,SSE,SSSE3
   3 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.1 | FileCheck %s --check-prefixes=CHECK,SSE,SSE41
   4 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx | FileCheck %s --check-prefixes=CHECK,AVX,AVX1
   5 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 | FileCheck %s --check-prefixes=CHECK,AVX,AVX2
   6 ; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f | FileCheck %s --check-prefixes=CHECK,AVX,AVX512F
   7 ;
   8 ; Combine tests involving SSE3/SSSE3 target shuffles (MOVDDUP, MOVSHDUP, MOVSLDUP, PSHUFB)
   9
  10 declare <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8>, <16 x i8>)
  11
  12 define <16 x i8> @combine_vpshufb_as_zero(<16 x i8> %a0) {
  13 ; SSE-LABEL: combine_vpshufb_as_zero:
  14 ; SSE:       # %bb.0:
  15 ; SSE-NEXT:    xorps %xmm0, %xmm0
  16 ; SSE-NEXT:    retq
  17 ;
  18 ; AVX-LABEL: combine_vpshufb_as_zero:
  19 ; AVX:       # %bb.0:
  20 ; AVX-NEXT:    vxorps %xmm0, %xmm0, %xmm0
  21 ; AVX-NEXT:    retq
  22   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 128, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0>)
  23   %res1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res0, <16 x i8> <i8 0, i8 128, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0>)
  24   %res2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res1, <16 x i8> <i8 0, i8 1, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128>)
  25   ret <16 x i8> %res2
  26 }
  27
  28 define <16 x i8> @combine_vpshufb_as_movq(<16 x i8> %a0) {
  29 ; SSE-LABEL: combine_vpshufb_as_movq:
  30 ; SSE:       # %bb.0:
  31 ; SSE-NEXT:    movq {{.*#+}} xmm0 = xmm0[0],zero
  32 ; SSE-NEXT:    retq
  33 ;
  34 ; AVX-LABEL: combine_vpshufb_as_movq:
  35 ; AVX:       # %bb.0:
  36 ; AVX-NEXT:    vmovq {{.*#+}} xmm0 = xmm0[0],zero
  37 ; AVX-NEXT:    retq
  38   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 128, i8 1, i8 128, i8 2, i8 128, i8 3, i8 128, i8 4, i8 128, i8 5, i8 128, i8 6, i8 128, i8 7, i8 128>)
  39   %res1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res0, <16 x i8> <i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14, i8 1, i8 3, i8 5, i8 7, i8 9, i8 11, i8 13, i8 15>)
  40   ret <16 x i8> %res1
  41 }
  42
  43 define <2 x double> @combine_pshufb_as_movsd(<2 x double> %a0, <2 x double> %a1) {
  44 ; SSSE3-LABEL: combine_pshufb_as_movsd:
  45 ; SSSE3:       # %bb.0:
  46 ; SSSE3-NEXT:    shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
  47 ; SSSE3-NEXT:    retq
  48 ;
  49 ; SSE41-LABEL: combine_pshufb_as_movsd:
  50 ; SSE41:       # %bb.0:
  51 ; SSE41-NEXT:    blendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
  52 ; SSE41-NEXT:    retq
  53 ;
  54 ; AVX-LABEL: combine_pshufb_as_movsd:
  55 ; AVX:       # %bb.0:
  56 ; AVX-NEXT:    vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
  57 ; AVX-NEXT:    retq
  58   %1 = shufflevector <2 x double> %a0, <2 x double> %a1, <2 x i32> <i32 3, i32 0>
  59   %2 = bitcast <2 x double> %1 to <16 x i8>
  60   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>)
  61   %4 = bitcast <16 x i8> %3 to <2 x double>
  62   ret <2 x double> %4
  63 }
  64
  65 define <4 x float> @combine_pshufb_as_movss(<4 x float> %a0, <4 x float> %a1) {
  66 ; SSSE3-LABEL: combine_pshufb_as_movss:
  67 ; SSSE3:       # %bb.0:
  68 ; SSSE3-NEXT:    movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
  69 ; SSSE3-NEXT:    retq
  70 ;
  71 ; SSE41-LABEL: combine_pshufb_as_movss:
  72 ; SSE41:       # %bb.0:
  73 ; SSE41-NEXT:    blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
  74 ; SSE41-NEXT:    retq
  75 ;
  76 ; AVX-LABEL: combine_pshufb_as_movss:
  77 ; AVX:       # %bb.0:
  78 ; AVX-NEXT:    vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
  79 ; AVX-NEXT:    retq
  80   %1 = shufflevector <4 x float> %a0, <4 x float> %a1, <4 x i32> <i32 4, i32 3, i32 2, i32 1>
  81   %2 = bitcast <4 x float> %1 to <16 x i8>
  82   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 12, i8 13, i8 14, i8 15, i8 8, i8 9, i8 10, i8 11, i8 4, i8 5, i8 6, i8 7>)
  83   %4 = bitcast <16 x i8> %3 to <4 x float>
  84   ret <4 x float> %4
  85 }
  86
  87 define <4 x i32> @combine_pshufb_as_zext(<16 x i8> %a0) {
  88 ; SSSE3-LABEL: combine_pshufb_as_zext:
  89 ; SSSE3:       # %bb.0:
  90 ; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
  91 ; SSSE3-NEXT:    retq
  92 ;
  93 ; SSE41-LABEL: combine_pshufb_as_zext:
  94 ; SSE41:       # %bb.0:
  95 ; SSE41-NEXT:    pmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
  96 ; SSE41-NEXT:    retq
  97 ;
  98 ; AVX-LABEL: combine_pshufb_as_zext:
  99 ; AVX:       # %bb.0:
 100 ; AVX-NEXT:    vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
 101 ; AVX-NEXT:    retq
 102   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 -1, i8 -1, i8 -1, i8 1, i8 -1, i8 -1, i8 -1, i8 2, i8 -1, i8 -1, i8 -1, i8 3, i8 -1, i8 -1, i8 -1>)
 103   %2 = bitcast <16 x i8> %1 to <4 x i32>
 104   ret <4 x i32> %2
 105 }
 106
 107 define <2 x double> @combine_pshufb_as_vzmovl_64(<2 x double> %a0) {
 108 ; SSE-LABEL: combine_pshufb_as_vzmovl_64:
 109 ; SSE:       # %bb.0:
 110 ; SSE-NEXT:    movq {{.*#+}} xmm0 = xmm0[0],zero
 111 ; SSE-NEXT:    retq
 112 ;
 113 ; AVX-LABEL: combine_pshufb_as_vzmovl_64:
 114 ; AVX:       # %bb.0:
 115 ; AVX-NEXT:    vmovq {{.*#+}} xmm0 = xmm0[0],zero
 116 ; AVX-NEXT:    retq
 117   %1 = bitcast <2 x double> %a0 to <16 x i8>
 118   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 119   %3 = bitcast <16 x i8> %2 to <2 x double>
 120   ret <2 x double> %3
 121 }
 122
 123 define <4 x float> @combine_pshufb_as_vzmovl_32(<4 x float> %a0) {
 124 ; SSSE3-LABEL: combine_pshufb_as_vzmovl_32:
 125 ; SSSE3:       # %bb.0:
 126 ; SSSE3-NEXT:    xorps %xmm1, %xmm1
 127 ; SSSE3-NEXT:    movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
 128 ; SSSE3-NEXT:    movaps %xmm1, %xmm0
 129 ; SSSE3-NEXT:    retq
 130 ;
 131 ; SSE41-LABEL: combine_pshufb_as_vzmovl_32:
 132 ; SSE41:       # %bb.0:
 133 ; SSE41-NEXT:    xorps %xmm1, %xmm1
 134 ; SSE41-NEXT:    blendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
 135 ; SSE41-NEXT:    retq
 136 ;
 137 ; AVX-LABEL: combine_pshufb_as_vzmovl_32:
 138 ; AVX:       # %bb.0:
 139 ; AVX-NEXT:    vxorps %xmm1, %xmm1, %xmm1
 140 ; AVX-NEXT:    vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
 141 ; AVX-NEXT:    retq
 142   %1 = bitcast <4 x float> %a0 to <16 x i8>
 143   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 144   %3 = bitcast <16 x i8> %2 to <4 x float>
 145   ret <4 x float> %3
 146 }
 147
 148 define <4 x float> @combine_pshufb_movddup(<4 x float> %a0) {
 149 ; SSE-LABEL: combine_pshufb_movddup:
 150 ; SSE:       # %bb.0:
 151 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,7,7,7,7,5,5,5,5,7,7,7,7]
 152 ; SSE-NEXT:    retq
 153 ;
 154 ; AVX-LABEL: combine_pshufb_movddup:
 155 ; AVX:       # %bb.0:
 156 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,7,7,7,7,5,5,5,5,7,7,7,7]
 157 ; AVX-NEXT:    retq
 158   %1 = bitcast <4 x float> %a0 to <16 x i8>
 159   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 5, i8 5, i8 5, i8 5, i8 7, i8 7, i8 7, i8 7, i8 1, i8 1, i8 1, i8 1, i8 3, i8 3, i8 3, i8 3>)
 160   %3 = bitcast <16 x i8> %2 to <4 x float>
 161   %4 = shufflevector <4 x float> %3, <4 x float> undef, <4 x i32> <i32 0, i32 1, i32 0, i32 1>
 162   ret <4 x float> %4
 163 }
 164
 165 define <4 x float> @combine_pshufb_movshdup(<4 x float> %a0) {
 166 ; SSE-LABEL: combine_pshufb_movshdup:
 167 ; SSE:       # %bb.0:
 168 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[7,7,7,7,7,7,7,7,3,3,3,3,3,3,3,3]
 169 ; SSE-NEXT:    retq
 170 ;
 171 ; AVX-LABEL: combine_pshufb_movshdup:
 172 ; AVX:       # %bb.0:
 173 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[7,7,7,7,7,7,7,7,3,3,3,3,3,3,3,3]
 174 ; AVX-NEXT:    retq
 175   %1 = bitcast <4 x float> %a0 to <16 x i8>
 176   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 5, i8 5, i8 5, i8 5, i8 7, i8 7, i8 7, i8 7, i8 1, i8 1, i8 1, i8 1, i8 3, i8 3, i8 3, i8 3>)
 177   %3 = bitcast <16 x i8> %2 to <4 x float>
 178   %4 = shufflevector <4 x float> %3, <4 x float> undef, <4 x i32> <i32 1, i32 1, i32 3, i32 3>
 179   ret <4 x float> %4
 180 }
 181
 182 define <4 x float> @combine_pshufb_movsldup(<4 x float> %a0) {
 183 ; SSE-LABEL: combine_pshufb_movsldup:
 184 ; SSE:       # %bb.0:
 185 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,5,5,5,5,1,1,1,1,1,1,1,1]
 186 ; SSE-NEXT:    retq
 187 ;
 188 ; AVX-LABEL: combine_pshufb_movsldup:
 189 ; AVX:       # %bb.0:
 190 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,5,5,5,5,1,1,1,1,1,1,1,1]
 191 ; AVX-NEXT:    retq
 192   %1 = bitcast <4 x float> %a0 to <16 x i8>
 193   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 5, i8 5, i8 5, i8 5, i8 7, i8 7, i8 7, i8 7, i8 1, i8 1, i8 1, i8 1, i8 3, i8 3, i8 3, i8 3>)
 194   %3 = bitcast <16 x i8> %2 to <4 x float>
 195   %4 = shufflevector <4 x float> %3, <4 x float> undef, <4 x i32> <i32 0, i32 0, i32 2, i32 2>
 196   ret <4 x float> %4
 197 }
 198
 199 define <16 x i8> @combine_pshufb_palignr(<16 x i8> %a0, <16 x i8> %a1) {
 200 ; SSE-LABEL: combine_pshufb_palignr:
 201 ; SSE:       # %bb.0:
 202 ; SSE-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
 203 ; SSE-NEXT:    retq
 204 ;
 205 ; AVX-LABEL: combine_pshufb_palignr:
 206 ; AVX:       # %bb.0:
 207 ; AVX-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[2,3,2,3]
 208 ; AVX-NEXT:    retq
 209   %1 = shufflevector <16 x i8> %a0, <16 x i8> %a1, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23>
 210   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>)
 211   ret <16 x i8> %2
 212 }
 213
 214 define <16 x i8> @combine_pshufb_pslldq(<16 x i8> %a0) {
 215 ; SSE-LABEL: combine_pshufb_pslldq:
 216 ; SSE:       # %bb.0:
 217 ; SSE-NEXT:    xorps %xmm0, %xmm0
 218 ; SSE-NEXT:    retq
 219 ;
 220 ; AVX-LABEL: combine_pshufb_pslldq:
 221 ; AVX:       # %bb.0:
 222 ; AVX-NEXT:    vxorps %xmm0, %xmm0, %xmm0
 223 ; AVX-NEXT:    retq
 224   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>)
 225   %2 = shufflevector <16 x i8> %1, <16 x i8> zeroinitializer, <16 x i32> <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
 226   ret <16 x i8> %2
 227 }
 228
 229 define <16 x i8> @combine_pshufb_psrldq(<16 x i8> %a0) {
 230 ; SSE-LABEL: combine_pshufb_psrldq:
 231 ; SSE:       # %bb.0:
 232 ; SSE-NEXT:    xorps %xmm0, %xmm0
 233 ; SSE-NEXT:    retq
 234 ;
 235 ; AVX-LABEL: combine_pshufb_psrldq:
 236 ; AVX:       # %bb.0:
 237 ; AVX-NEXT:    vxorps %xmm0, %xmm0, %xmm0
 238 ; AVX-NEXT:    retq
 239   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128>)
 240   %2 = shufflevector <16 x i8> %1, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
 241   ret <16 x i8> %2
 242 }
 243
 244 define <16 x i8> @combine_and_pshufb(<16 x i8> %a0) {
 245 ; SSSE3-LABEL: combine_and_pshufb:
 246 ; SSSE3:       # %bb.0:
 247 ; SSSE3-NEXT:    andps {{.*}}(%rip), %xmm0
 248 ; SSSE3-NEXT:    retq
 249 ;
 250 ; SSE41-LABEL: combine_and_pshufb:
 251 ; SSE41:       # %bb.0:
 252 ; SSE41-NEXT:    pxor %xmm1, %xmm1
 253 ; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
 254 ; SSE41-NEXT:    retq
 255 ;
 256 ; AVX-LABEL: combine_and_pshufb:
 257 ; AVX:       # %bb.0:
 258 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 259 ; AVX-NEXT:    vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
 260 ; AVX-NEXT:    retq
 261   %1 = shufflevector <16 x i8> %a0, <16 x i8> zeroinitializer, <16 x i32> <i32 16, i32 16, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
 262   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 8, i8 9, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 263   ret <16 x i8> %2
 264 }
 265
 266 define <16 x i8> @combine_pshufb_and(<16 x i8> %a0) {
 267 ; SSSE3-LABEL: combine_pshufb_and:
 268 ; SSSE3:       # %bb.0:
 269 ; SSSE3-NEXT:    andps {{.*}}(%rip), %xmm0
 270 ; SSSE3-NEXT:    retq
 271 ;
 272 ; SSE41-LABEL: combine_pshufb_and:
 273 ; SSE41:       # %bb.0:
 274 ; SSE41-NEXT:    pxor %xmm1, %xmm1
 275 ; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
 276 ; SSE41-NEXT:    retq
 277 ;
 278 ; AVX-LABEL: combine_pshufb_and:
 279 ; AVX:       # %bb.0:
 280 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 281 ; AVX-NEXT:    vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
 282 ; AVX-NEXT:    retq
 283   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 8, i8 9, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 284   %2 = shufflevector <16 x i8> %1, <16 x i8> zeroinitializer, <16 x i32> <i32 16, i32 16, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
 285   ret <16 x i8> %2
 286 }
 287
 288 define <16 x i8> @combine_pshufb_as_palignr(<16 x i8> %a0) {
 289 ; SSE-LABEL: combine_pshufb_as_palignr:
 290 ; SSE:       # %bb.0:
 291 ; SSE-NEXT:    palignr {{.*#+}} xmm0 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0]
 292 ; SSE-NEXT:    retq
 293 ;
 294 ; AVX-LABEL: combine_pshufb_as_palignr:
 295 ; AVX:       # %bb.0:
 296 ; AVX-NEXT:    vpalignr {{.*#+}} xmm0 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0]
 297 ; AVX-NEXT:    retq
 298   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 undef, i8 undef, i8 0>)
 299   ret <16 x i8> %res0
 300 }
 301
 302 define <16 x i8> @combine_pshufb_as_pslldq(<16 x i8> %a0) {
 303 ; SSE-LABEL: combine_pshufb_as_pslldq:
 304 ; SSE:       # %bb.0:
 305 ; SSE-NEXT:    pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
 306 ; SSE-NEXT:    retq
 307 ;
 308 ; AVX-LABEL: combine_pshufb_as_pslldq:
 309 ; AVX:       # %bb.0:
 310 ; AVX-NEXT:    vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
 311 ; AVX-NEXT:    retq
 312   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5>)
 313   ret <16 x i8> %res0
 314 }
 315
 316 define <16 x i8> @combine_pshufb_as_psrldq(<16 x i8> %a0) {
 317 ; SSE-LABEL: combine_pshufb_as_psrldq:
 318 ; SSE:       # %bb.0:
 319 ; SSE-NEXT:    psrldq {{.*#+}} xmm0 = xmm0[15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
 320 ; SSE-NEXT:    retq
 321 ;
 322 ; AVX-LABEL: combine_pshufb_as_psrldq:
 323 ; AVX:       # %bb.0:
 324 ; AVX-NEXT:    vpsrldq {{.*#+}} xmm0 = xmm0[15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
 325 ; AVX-NEXT:    retq
 326   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 15, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128, i8 128>)
 327   ret <16 x i8> %res0
 328 }
 329
 330 define <16 x i8> @combine_pshufb_as_psrlw(<16 x i8> %a0) {
 331 ; SSE-LABEL: combine_pshufb_as_psrlw:
 332 ; SSE:       # %bb.0:
 333 ; SSE-NEXT:    psrlw $8, %xmm0
 334 ; SSE-NEXT:    retq
 335 ;
 336 ; AVX-LABEL: combine_pshufb_as_psrlw:
 337 ; AVX:       # %bb.0:
 338 ; AVX-NEXT:    vpsrlw $8, %xmm0, %xmm0
 339 ; AVX-NEXT:    retq
 340   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 1, i8 128, i8 3, i8 128, i8 5, i8 128, i8 7, i8 128, i8 9, i8 128, i8 11, i8 128, i8 13, i8 128, i8 15, i8 128>)
 341   ret <16 x i8> %res0
 342 }
 343
 344 define <16 x i8> @combine_pshufb_as_pslld(<16 x i8> %a0) {
 345 ; SSE-LABEL: combine_pshufb_as_pslld:
 346 ; SSE:       # %bb.0:
 347 ; SSE-NEXT:    pslld $24, %xmm0
 348 ; SSE-NEXT:    retq
 349 ;
 350 ; AVX-LABEL: combine_pshufb_as_pslld:
 351 ; AVX:       # %bb.0:
 352 ; AVX-NEXT:    vpslld $24, %xmm0, %xmm0
 353 ; AVX-NEXT:    retq
 354   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 128, i8 128, i8 128, i8 0, i8 128, i8 128, i8 128, i8 4, i8 128, i8 128, i8 128, i8 8, i8 128, i8 128, i8 128, i8 12>)
 355   ret <16 x i8> %res0
 356 }
 357
 358 define <16 x i8> @combine_pshufb_as_psrlq(<16 x i8> %a0) {
 359 ; SSE-LABEL: combine_pshufb_as_psrlq:
 360 ; SSE:       # %bb.0:
 361 ; SSE-NEXT:    psrlq $40, %xmm0
 362 ; SSE-NEXT:    retq
 363 ;
 364 ; AVX-LABEL: combine_pshufb_as_psrlq:
 365 ; AVX:       # %bb.0:
 366 ; AVX-NEXT:    vpsrlq $40, %xmm0, %xmm0
 367 ; AVX-NEXT:    retq
 368   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 5, i8 6, i8 7, i8 128, i8 128, i8 128, i8 128, i8 128, i8 13, i8 14, i8 15, i8 128, i8 128, i8 128, i8 128, i8 128>)
 369   ret <16 x i8> %res0
 370 }
 371
 372 define <16 x i8> @combine_pshufb_as_pshuflw(<16 x i8> %a0) {
 373 ; SSE-LABEL: combine_pshufb_as_pshuflw:
 374 ; SSE:       # %bb.0:
 375 ; SSE-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
 376 ; SSE-NEXT:    retq
 377 ;
 378 ; AVX-LABEL: combine_pshufb_as_pshuflw:
 379 ; AVX:       # %bb.0:
 380 ; AVX-NEXT:    vpshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
 381 ; AVX-NEXT:    retq
 382   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 2, i8 3, i8 0, i8 1, i8 6, i8 7, i8 4, i8 5, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>)
 383   ret <16 x i8> %res0
 384 }
 385
 386 define <16 x i8> @combine_pshufb_as_pshufhw(<16 x i8> %a0) {
 387 ; SSE-LABEL: combine_pshufb_as_pshufhw:
 388 ; SSE:       # %bb.0:
 389 ; SSE-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,7,6]
 390 ; SSE-NEXT:    retq
 391 ;
 392 ; AVX-LABEL: combine_pshufb_as_pshufhw:
 393 ; AVX:       # %bb.0:
 394 ; AVX-NEXT:    vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,7,6]
 395 ; AVX-NEXT:    retq
 396   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 10, i8 11, i8 8, i8 9, i8 14, i8 15, i8 12, i8 13>)
 397   ret <16 x i8> %res0
 398 }
 399
 400 define <16 x i8> @combine_pshufb_not_as_pshufw(<16 x i8> %a0) {
 401 ; SSE-LABEL: combine_pshufb_not_as_pshufw:
 402 ; SSE:       # %bb.0:
 403 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[2,3,0,1,6,7,4,5,10,11,8,9,14,15,12,13]
 404 ; SSE-NEXT:    retq
 405 ;
 406 ; AVX-LABEL: combine_pshufb_not_as_pshufw:
 407 ; AVX:       # %bb.0:
 408 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,3,0,1,6,7,4,5,10,11,8,9,14,15,12,13]
 409 ; AVX-NEXT:    retq
 410   %res0 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 2, i8 3, i8 0, i8 1, i8 6, i8 7, i8 4, i8 5, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>)
 411   %res1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 10, i8 11, i8 8, i8 9, i8 14, i8 15, i8 12, i8 13>)
 412   ret <16 x i8> %res1
 413 }
 414
 415 define <16 x i8> @combine_vpshufb_as_pshuflw_not_pslld(<16 x i8> *%a0) {
 416 ; SSE-LABEL: combine_vpshufb_as_pshuflw_not_pslld:
 417 ; SSE:       # %bb.0:
 418 ; SSE-NEXT:    pshuflw {{.*#+}} xmm0 = mem[0,0,2,2,4,5,6,7]
 419 ; SSE-NEXT:    retq
 420 ;
 421 ; AVX-LABEL: combine_vpshufb_as_pshuflw_not_pslld:
 422 ; AVX:       # %bb.0:
 423 ; AVX-NEXT:    vpshuflw {{.*#+}} xmm0 = mem[0,0,2,2,4,5,6,7]
 424 ; AVX-NEXT:    retq
 425   %res0 = load <16 x i8>, <16 x i8> *%a0, align 16
 426   %res1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %res0, <16 x i8> <i8 undef, i8 undef, i8 0, i8 1, i8 undef, i8 undef, i8 4, i8 5, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>)
 427   ret <16 x i8> %res1
 428 }
 429
 430 define <16 x i8> @combine_pshufb_as_unary_unpcklbw(<16 x i8> %a0) {
 431 ; SSE-LABEL: combine_pshufb_as_unary_unpcklbw:
 432 ; SSE:       # %bb.0:
 433 ; SSE-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
 434 ; SSE-NEXT:    retq
 435 ;
 436 ; AVX-LABEL: combine_pshufb_as_unary_unpcklbw:
 437 ; AVX:       # %bb.0:
 438 ; AVX-NEXT:    vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
 439 ; AVX-NEXT:    retq
 440   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 undef, i8 undef, i8 1, i8 2, i8 2, i8 3, i8 3, i8 4, i8 4, i8 5, i8 5, i8 6, i8 6, i8 7, i8 7>)
 441   ret <16 x i8> %1
 442 }
 443
 444 define <16 x i8> @combine_pshufb_as_unary_unpckhwd(<16 x i8> %a0) {
 445 ; SSE-LABEL: combine_pshufb_as_unary_unpckhwd:
 446 ; SSE:       # %bb.0:
 447 ; SSE-NEXT:    punpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]
 448 ; SSE-NEXT:    retq
 449 ;
 450 ; AVX-LABEL: combine_pshufb_as_unary_unpckhwd:
 451 ; AVX:       # %bb.0:
 452 ; AVX-NEXT:    vpunpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]
 453 ; AVX-NEXT:    retq
 454   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 8, i8 9, i8 8, i8 9, i8 10, i8 11, i8 10, i8 11, i8 12, i8 13, i8 12, i8 13, i8 14, i8 15, i8 undef, i8 undef>)
 455   ret <16 x i8> %1
 456 }
 457
 458 define <8 x i16> @combine_pshufb_as_unpacklo_undef(<16 x i8> %a0) {
 459 ; CHECK-LABEL: combine_pshufb_as_unpacklo_undef:
 460 ; CHECK:       # %bb.0:
 461 ; CHECK-NEXT:    retq
 462   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 undef, i8 undef, i8 0, i8 1, i8 undef, i8 undef, i8 2, i8 3, i8 undef, i8 undef, i8 4, i8 5, i8 undef, i8 undef, i8 6, i8 7>)
 463   %2 = bitcast <16 x i8> %1 to <8 x i16>
 464   %3 = shufflevector <8 x i16> %2, <8 x i16> undef, <8 x i32> <i32 0, i32 0, i32 2, i32 2, i32 4, i32 4, i32 6, i32 6>
 465   ret <8 x i16> %3
 466 }
 467
 468 define <16 x i8> @combine_pshufb_as_unpackhi_undef(<16 x i8> %a0) {
 469 ; CHECK-LABEL: combine_pshufb_as_unpackhi_undef:
 470 ; CHECK:       # %bb.0:
 471 ; CHECK-NEXT:    retq
 472   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 8, i8 undef, i8 9, i8 undef, i8 10, i8 undef, i8 11, i8 undef, i8 12, i8 undef, i8 13, i8 undef, i8 14, i8 undef, i8 15, i8 undef>)
 473   %2 = shufflevector <16 x i8> %1, <16 x i8> undef, <16 x i32> <i32 1, i32 1, i32 3, i32 3, i32 5, i32 5, i32 7, i32 7, i32 9, i32 9, i32 11, i32 11, i32 13, i32 13, i32 15, i32 15>
 474   ret <16 x i8> %2
 475 }
 476
 477 define <16 x i8> @combine_pshufb_as_unpacklo_zero(<16 x i8> %a0) {
 478 ; SSE-LABEL: combine_pshufb_as_unpacklo_zero:
 479 ; SSE:       # %bb.0:
 480 ; SSE-NEXT:    xorps %xmm1, %xmm1
 481 ; SSE-NEXT:    unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
 482 ; SSE-NEXT:    movaps %xmm1, %xmm0
 483 ; SSE-NEXT:    retq
 484 ;
 485 ; AVX-LABEL: combine_pshufb_as_unpacklo_zero:
 486 ; AVX:       # %bb.0:
 487 ; AVX-NEXT:    vxorps %xmm1, %xmm1, %xmm1
 488 ; AVX-NEXT:    vunpcklps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
 489 ; AVX-NEXT:    retq
 490   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 -1, i8 -1, i8 -1, i8 -1, i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1, i8 4, i8 5, i8 6, i8 7>)
 491   ret <16 x i8> %1
 492 }
 493
 494 define <16 x i8> @combine_pshufb_as_unpackhi_zero(<16 x i8> %a0) {
 495 ; SSE-LABEL: combine_pshufb_as_unpackhi_zero:
 496 ; SSE:       # %bb.0:
 497 ; SSE-NEXT:    pxor %xmm1, %xmm1
 498 ; SSE-NEXT:    punpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
 499 ; SSE-NEXT:    retq
 500 ;
 501 ; AVX-LABEL: combine_pshufb_as_unpackhi_zero:
 502 ; AVX:       # %bb.0:
 503 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 504 ; AVX-NEXT:    vpunpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
 505 ; AVX-NEXT:    retq
 506   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 8, i8 -1, i8 9, i8 -1, i8 10, i8 -1, i8 11, i8 -1, i8 12, i8 -1, i8 13, i8 -1, i8 14, i8 -1, i8 15, i8 -1>)
 507   ret <16 x i8> %1
 508 }
 509
 510 define <16 x i8> @combine_psrlw_pshufb(<8 x i16> %a0) {
 511 ; SSE-LABEL: combine_psrlw_pshufb:
 512 ; SSE:       # %bb.0:
 513 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero
 514 ; SSE-NEXT:    retq
 515 ;
 516 ; AVX-LABEL: combine_psrlw_pshufb:
 517 ; AVX:       # %bb.0:
 518 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero
 519 ; AVX-NEXT:    retq
 520   %1 = lshr <8 x i16> %a0, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
 521   %2 = bitcast <8 x i16> %1 to <16 x i8>
 522   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1>)
 523   ret <16 x i8> %3
 524 }
 525
 526 define <16 x i8> @combine_pslld_pshufb(<4 x i32> %a0) {
 527 ; SSE-LABEL: combine_pslld_pshufb:
 528 ; SSE:       # %bb.0:
 529 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[2,1,0],zero,xmm0[6,5,4],zero,xmm0[10,9,8],zero,xmm0[14,13,12],zero
 530 ; SSE-NEXT:    retq
 531 ;
 532 ; AVX-LABEL: combine_pslld_pshufb:
 533 ; AVX:       # %bb.0:
 534 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[2,1,0],zero,xmm0[6,5,4],zero,xmm0[10,9,8],zero,xmm0[14,13,12],zero
 535 ; AVX-NEXT:    retq
 536   %1 = shl <4 x i32> %a0, <i32 8, i32 8, i32 8, i32 8>
 537   %2 = bitcast <4 x i32> %1 to <16 x i8>
 538   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 3, i8 2, i8 1, i8 0, i8 7, i8 6, i8 5, i8 4, i8 11, i8 10, i8 9, i8 8, i8 15, i8 14, i8 13, i8 12>)
 539   ret <16 x i8> %3
 540 }
 541
 542 define <16 x i8> @combine_psrlq_pshufb(<2 x i64> %a0) {
 543 ; SSE-LABEL: combine_psrlq_pshufb:
 544 ; SSE:       # %bb.0:
 545 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,xmm0[7,6],zero,zero,zero,zero,zero,zero,xmm0[15,14]
 546 ; SSE-NEXT:    retq
 547 ;
 548 ; AVX-LABEL: combine_psrlq_pshufb:
 549 ; AVX:       # %bb.0:
 550 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,xmm0[7,6],zero,zero,zero,zero,zero,zero,xmm0[15,14]
 551 ; AVX-NEXT:    retq
 552   %1 = lshr <2 x i64> %a0, <i64 48, i64 48>
 553   %2 = bitcast <2 x i64> %1 to <16 x i8>
 554   %3 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %2, <16 x i8> <i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8>)
 555   ret <16 x i8> %3
 556 }
 557
 558 define <16 x i8> @combine_unpckl_arg0_pshufb(<16 x i8> %a0, <16 x i8> %a1) {
 559 ; SSE-LABEL: combine_unpckl_arg0_pshufb:
 560 ; SSE:       # %bb.0:
 561 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero
 562 ; SSE-NEXT:    retq
 563 ;
 564 ; AVX-LABEL: combine_unpckl_arg0_pshufb:
 565 ; AVX:       # %bb.0:
 566 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero
 567 ; AVX-NEXT:    retq
 568   %1 = shufflevector <16 x i8> %a0, <16 x i8> %a1, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
 569   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 -1, i8 -1, i8 -1>)
 570   ret <16 x i8> %2
 571 }
 572
 573 define <16 x i8> @combine_unpckl_arg1_pshufb(<16 x i8> %a0, <16 x i8> %a1) {
 574 ; SSE-LABEL: combine_unpckl_arg1_pshufb:
 575 ; SSE:       # %bb.0:
 576 ; SSE-NEXT:    movdqa %xmm1, %xmm0
 577 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero,xmm0[0],zero,zero,zero
 578 ; SSE-NEXT:    retq
 579 ;
 580 ; AVX-LABEL: combine_unpckl_arg1_pshufb:
 581 ; AVX:       # %bb.0:
 582 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm1[0],zero,zero,zero,xmm1[0],zero,zero,zero,xmm1[0],zero,zero,zero,xmm1[0],zero,zero,zero
 583 ; AVX-NEXT:    retq
 584   %1 = shufflevector <16 x i8> %a0, <16 x i8> %a1, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
 585   %2 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %1, <16 x i8> <i8 1, i8 -1, i8 -1, i8 -1, i8 1, i8 -1, i8 -1, i8 -1, i8 1, i8 -1, i8 -1, i8 -1, i8 1, i8 -1, i8 -1, i8 -1>)
 586   ret <16 x i8> %2
 587 }
 588
 589 define <8 x i16> @shuffle_combine_unpack_insert(<8 x i16> %a0) {
 590 ; SSE-LABEL: shuffle_combine_unpack_insert:
 591 ; SSE:       # %bb.0:
 592 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[4,5,4,5,4,5,8,9,8,9,8,9,10,11,10,11]
 593 ; SSE-NEXT:    retq
 594 ;
 595 ; AVX-LABEL: shuffle_combine_unpack_insert:
 596 ; AVX:       # %bb.0:
 597 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[4,5,4,5,4,5,8,9,8,9,8,9,10,11,10,11]
 598 ; AVX-NEXT:    retq
 599   %1 = extractelement <8 x i16> %a0, i32 2
 600   %2 = extractelement <8 x i16> %a0, i32 4
 601   %3 = insertelement <8 x i16> %a0, i16 %1, i32 4
 602   %4 = insertelement <8 x i16> %a0, i16 %2, i32 2
 603   %5 = shufflevector <8 x i16> %3, <8 x i16> %4, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>
 604   %6 = shufflevector <8 x i16> %5, <8 x i16> %3, <8 x i32> <i32 4, i32 12, i32 5, i32 13, i32 undef, i32 undef, i32 undef, i32 undef>
 605   %7 = shufflevector <8 x i16> %5, <8 x i16> %a0, <8 x i32> <i32 4, i32 12, i32 5, i32 13, i32 undef, i32 undef, i32 undef, i32 undef>
 606   %8 = shufflevector <8 x i16> %6, <8 x i16> %7, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>
 607   ret <8 x i16> %8
 608 }
 609
 610 define <16 x i8> @shuffle_combine_packssdw_pshufb(<4 x i32> %a0) {
 611 ; SSE-LABEL: shuffle_combine_packssdw_pshufb:
 612 ; SSE:       # %bb.0:
 613 ; SSE-NEXT:    psrad $31, %xmm0
 614 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[13,12,9,8,5,4,1,0,13,12,9,8,5,4,1,0]
 615 ; SSE-NEXT:    retq
 616 ;
 617 ; AVX-LABEL: shuffle_combine_packssdw_pshufb:
 618 ; AVX:       # %bb.0:
 619 ; AVX-NEXT:    vpsrad $31, %xmm0, %xmm0
 620 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[13,12,9,8,5,4,1,0,13,12,9,8,5,4,1,0]
 621 ; AVX-NEXT:    retq
 622   %1 = ashr <4 x i32> %a0, <i32 31, i32 31, i32 31, i32 31>
 623   %2 = tail call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %1, <4 x i32> %1)
 624   %3 = bitcast <8 x i16> %2 to <16 x i8>
 625   %4 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %3, <16 x i8> <i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8>)
 626   ret <16 x i8> %4
 627 }
 628 declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>) nounwind readnone
 629
 630 define <16 x i8> @shuffle_combine_packsswb_pshufb(<8 x i16> %a0, <8 x i16> %a1) {
 631 ; SSE-LABEL: shuffle_combine_packsswb_pshufb:
 632 ; SSE:       # %bb.0:
 633 ; SSE-NEXT:    psraw $15, %xmm0
 634 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[14,12,10,8,6,4,2,0,14,12,10,8,6,4,2,0]
 635 ; SSE-NEXT:    retq
 636 ;
 637 ; AVX-LABEL: shuffle_combine_packsswb_pshufb:
 638 ; AVX:       # %bb.0:
 639 ; AVX-NEXT:    vpsraw $15, %xmm0, %xmm0
 640 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[14,12,10,8,6,4,2,0,14,12,10,8,6,4,2,0]
 641 ; AVX-NEXT:    retq
 642   %1 = ashr <8 x i16> %a0, <i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15>
 643   %2 = ashr <8 x i16> %a1, <i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15>
 644   %3 = tail call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %1, <8 x i16> %2)
 645   %4 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %3, <16 x i8> <i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
 646   ret <16 x i8> %4
 647 }
 648 declare <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16>, <8 x i16>) nounwind readnone
 649
 650 define <16 x i8> @shuffle_combine_packuswb_pshufb(<8 x i16> %a0, <8 x i16> %a1) {
 651 ; SSE-LABEL: shuffle_combine_packuswb_pshufb:
 652 ; SSE:       # %bb.0:
 653 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[15,13,11,9,7,5,3,1,15,13,11,9,7,5,3,1]
 654 ; SSE-NEXT:    retq
 655 ;
 656 ; AVX-LABEL: shuffle_combine_packuswb_pshufb:
 657 ; AVX:       # %bb.0:
 658 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[15,13,11,9,7,5,3,1,15,13,11,9,7,5,3,1]
 659 ; AVX-NEXT:    retq
 660   %1 = lshr <8 x i16> %a0, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
 661   %2 = lshr <8 x i16> %a1, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
 662   %3 = tail call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %1, <8 x i16> %2)
 663   %4 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %3, <16 x i8> <i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>)
 664   ret <16 x i8> %4
 665 }
 666 declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>) nounwind readnone
 667
 668 define <16 x i8> @combine_pshufb_pshufb_or_as_blend(<16 x i8> %a0, <16 x i8> %a1) {
 669 ; SSSE3-LABEL: combine_pshufb_pshufb_or_as_blend:
 670 ; SSSE3:       # %bb.0:
 671 ; SSSE3-NEXT:    shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
 672 ; SSSE3-NEXT:    retq
 673 ;
 674 ; SSE41-LABEL: combine_pshufb_pshufb_or_as_blend:
 675 ; SSE41:       # %bb.0:
 676 ; SSE41-NEXT:    blendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
 677 ; SSE41-NEXT:    retq
 678 ;
 679 ; AVX-LABEL: combine_pshufb_pshufb_or_as_blend:
 680 ; AVX:       # %bb.0:
 681 ; AVX-NEXT:    vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
 682 ; AVX-NEXT:    retq
 683   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>)
 684   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a1, <16 x i8> <i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>)
 685   %3 = or <16 x i8> %1, %2
 686   ret <16 x i8> %3
 687 }
 688
 689 define <16 x i8> @combine_pshufb_pshufb_or_as_unpcklbw(<16 x i8> %a0, <16 x i8> %a1) {
 690 ; SSE-LABEL: combine_pshufb_pshufb_or_as_unpcklbw:
 691 ; SSE:       # %bb.0:
 692 ; SSE-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 693 ; SSE-NEXT:    retq
 694 ;
 695 ; AVX-LABEL: combine_pshufb_pshufb_or_as_unpcklbw:
 696 ; AVX:       # %bb.0:
 697 ; AVX-NEXT:    vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
 698 ; AVX-NEXT:    retq
 699   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 -1, i8 1, i8 -1, i8 2, i8 -1, i8 3, i8 -1, i8 4, i8 -1, i8 5, i8 -1, i8 6, i8 -1, i8 7, i8 -1>)
 700   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a1, <16 x i8> <i8 -1, i8 0, i8 -1, i8 1, i8 -1, i8 2, i8 -1, i8 3, i8 -1, i8 4, i8 -1, i8 5, i8 -1, i8 6, i8 -1, i8 7>)
 701   %3 = or <16 x i8> %1, %2
 702   ret <16 x i8> %3
 703 }
 704
 705 define <16 x i8> @combine_pshufb_pshufb_or_pshufb(<16 x i8> %a0) {
 706 ; SSE-LABEL: combine_pshufb_pshufb_or_pshufb:
 707 ; SSE:       # %bb.0:
 708 ; SSE-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
 709 ; SSE-NEXT:    retq
 710 ;
 711 ; AVX1-LABEL: combine_pshufb_pshufb_or_pshufb:
 712 ; AVX1:       # %bb.0:
 713 ; AVX1-NEXT:    vpermilps {{.*#+}} xmm0 = xmm0[0,0,0,0]
 714 ; AVX1-NEXT:    retq
 715 ;
 716 ; AVX2-LABEL: combine_pshufb_pshufb_or_pshufb:
 717 ; AVX2:       # %bb.0:
 718 ; AVX2-NEXT:    vbroadcastss %xmm0, %xmm0
 719 ; AVX2-NEXT:    retq
 720 ;
 721 ; AVX512F-LABEL: combine_pshufb_pshufb_or_pshufb:
 722 ; AVX512F:       # %bb.0:
 723 ; AVX512F-NEXT:    vbroadcastss %xmm0, %xmm0
 724 ; AVX512F-NEXT:    retq
 725   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1, i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1>)
 726   %2 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 -1, i8 -1, i8 -1, i8 -1, i8 0, i8 1, i8 2, i8 3, i8 -1, i8 -1, i8 -1, i8 -1, i8 0, i8 1, i8 2, i8 3>)
 727   %3 = or <16 x i8> %1, %2
 728   %4 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %3, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>)
 729   ret <16 x i8> %4
 730 }
 731
 732 define <16 x i8> @constant_fold_pshufb() {
 733 ; SSE-LABEL: constant_fold_pshufb:
 734 ; SSE:       # %bb.0:
 735 ; SSE-NEXT:    movaps {{.*#+}} xmm0 = <14,0,0,0,u,u,0,0,0,0,0,0,0,0,8,9>
 736 ; SSE-NEXT:    retq
 737 ;
 738 ; AVX-LABEL: constant_fold_pshufb:
 739 ; AVX:       # %bb.0:
 740 ; AVX-NEXT:    vmovaps {{.*#+}} xmm0 = <14,0,0,0,u,u,0,0,0,0,0,0,0,0,8,9>
 741 ; AVX-NEXT:    retq
 742   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> <i8 1, i8 -1, i8 -1, i8 -1, i8 undef, i8 undef, i8 -1, i8 -1, i8 15, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 7, i8 6>)
 743   ret <16 x i8> %1
 744 }
 745
 746 define <16 x i8> @constant_fold_pshufb_2() {
 747 ; SSE-LABEL: constant_fold_pshufb_2:
 748 ; SSE:       # %bb.0:
 749 ; SSE-NEXT:    movl $2, %eax
 750 ; SSE-NEXT:    movd %eax, %xmm0
 751 ; SSE-NEXT:    retq
 752 ;
 753 ; AVX-LABEL: constant_fold_pshufb_2:
 754 ; AVX:       # %bb.0:
 755 ; AVX-NEXT:    movl $2, %eax
 756 ; AVX-NEXT:    vmovd %eax, %xmm0
 757 ; AVX-NEXT:    retq
 758   %1 = tail call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> <i8 2, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0>, <16 x i8> <i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>)
 759   ret <16 x i8> %1
 760 }
 761
 762 define i32 @mask_zzz3_v16i8(<16 x i8> %a0) {
 763 ; SSSE3-LABEL: mask_zzz3_v16i8:
 764 ; SSSE3:       # %bb.0:
 765 ; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = zero,zero,zero,xmm0[14,u,u,u,u,u,u,u,u,u,u,u,u]
 766 ; SSSE3-NEXT:    movd %xmm0, %eax
 767 ; SSSE3-NEXT:    retq
 768 ;
 769 ; SSE41-LABEL: mask_zzz3_v16i8:
 770 ; SSE41:       # %bb.0:
 771 ; SSE41-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,u,u,u,u,u,u],zero,zero,zero,xmm0[14]
 772 ; SSE41-NEXT:    pextrd $3, %xmm0, %eax
 773 ; SSE41-NEXT:    retq
 774 ;
 775 ; AVX-LABEL: mask_zzz3_v16i8:
 776 ; AVX:       # %bb.0:
 777 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,u,u,u,u,u,u],zero,zero,zero,xmm0[14]
 778 ; AVX-NEXT:    vpextrd $3, %xmm0, %eax
 779 ; AVX-NEXT:    retq
 780   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14, i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14>)
 781   %2 = bitcast <16 x i8> %1 to <4 x i32>
 782   %3 = extractelement <4 x i32> %2, i32 3
 783   %4 = and i32 %3, 4278190080
 784   ret i32 %4
 785 }
 786
 787 define i32 @mask_z1z3_v16i8(<16 x i8> %a0) {
 788 ; SSSE3-LABEL: mask_z1z3_v16i8:
 789 ; SSSE3:       # %bb.0:
 790 ; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = zero,xmm0[10],zero,xmm0[14,u,u,u,u,u,u,u,u,u,u,u,u]
 791 ; SSSE3-NEXT:    movd %xmm0, %eax
 792 ; SSSE3-NEXT:    retq
 793 ;
 794 ; SSE41-LABEL: mask_z1z3_v16i8:
 795 ; SSE41:       # %bb.0:
 796 ; SSE41-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,u,u,u,u,u,u],zero,xmm0[10],zero,xmm0[14]
 797 ; SSE41-NEXT:    pextrd $3, %xmm0, %eax
 798 ; SSE41-NEXT:    retq
 799 ;
 800 ; AVX-LABEL: mask_z1z3_v16i8:
 801 ; AVX:       # %bb.0:
 802 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,u,u,u,u,u,u,u,u],zero,xmm0[10],zero,xmm0[14]
 803 ; AVX-NEXT:    vpextrd $3, %xmm0, %eax
 804 ; AVX-NEXT:    retq
 805   %1 = call <16 x i8> @llvm.x86.ssse3.pshuf.b.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14, i8 0, i8 2, i8 4, i8 6, i8 8, i8 10, i8 12, i8 14>)
 806   %2 = bitcast <16 x i8> %1 to <4 x i32>
 807   %3 = extractelement <4 x i32> %2, i32 3
 808   %4 = and i32 %3, 4278255360
 809   ret i32 %4
 810 }
 811
 812 define i32 @PR22415(double %a0) {
 813 ; SSE-LABEL: PR22415:
 814 ; SSE:       # %bb.0:
 815 ; SSE-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0,2,4],zero,xmm0[u,u,u,u,u,u,u,u,u,u,u,u]
 816 ; SSE-NEXT:    movd %xmm0, %eax
 817 ; SSE-NEXT:    retq
 818 ;
 819 ; AVX-LABEL: PR22415:
 820 ; AVX:       # %bb.0:
 821 ; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4],zero,xmm0[u,u,u,u,u,u,u,u,u,u,u,u]
 822 ; AVX-NEXT:    vmovd %xmm0, %eax
 823 ; AVX-NEXT:    retq
 824   %1 = bitcast double %a0 to <8 x i8>
 825   %2 = shufflevector <8 x i8> %1, <8 x i8> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 undef>
 826   %3 = shufflevector <4 x i8> %2, <4 x i8> undef, <3 x i32> <i32 0, i32 1, i32 2>
 827   %4 = bitcast <3 x i8> %3 to i24
 828   %5 = zext i24 %4 to i32
 829   ret i32 %5
 830 }