llvm/test/CodeGen/X86/combine-mul.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefix=SSE
   3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefix=AVX
   4
   5 ; fold (mul x, 0) -> 0
   6 define <4 x i32> @combine_vec_mul_zero(<4 x i32> %x) {
   7 ; SSE-LABEL: combine_vec_mul_zero:
   8 ; SSE:       # %bb.0:
   9 ; SSE-NEXT:    xorps %xmm0, %xmm0
  10 ; SSE-NEXT:    retq
  11 ;
  12 ; AVX-LABEL: combine_vec_mul_zero:
  13 ; AVX:       # %bb.0:
  14 ; AVX-NEXT:    vxorps %xmm0, %xmm0, %xmm0
  15 ; AVX-NEXT:    retq
  16   %1 = mul <4 x i32> %x, zeroinitializer
  17   ret <4 x i32> %1
  18 }
  19
  20 ; fold (mul x, 1) -> x
  21 define <4 x i32> @combine_vec_mul_one(<4 x i32> %x) {
  22 ; SSE-LABEL: combine_vec_mul_one:
  23 ; SSE:       # %bb.0:
  24 ; SSE-NEXT:    retq
  25 ;
  26 ; AVX-LABEL: combine_vec_mul_one:
  27 ; AVX:       # %bb.0:
  28 ; AVX-NEXT:    retq
  29   %1 = mul <4 x i32> %x, <i32 1, i32 1, i32 1, i32 1>
  30   ret <4 x i32> %1
  31 }
  32
  33 ; fold (mul x, -1) -> 0-x
  34 define <4 x i32> @combine_vec_mul_negone(<4 x i32> %x) {
  35 ; SSE-LABEL: combine_vec_mul_negone:
  36 ; SSE:       # %bb.0:
  37 ; SSE-NEXT:    pxor %xmm1, %xmm1
  38 ; SSE-NEXT:    psubd %xmm0, %xmm1
  39 ; SSE-NEXT:    movdqa %xmm1, %xmm0
  40 ; SSE-NEXT:    retq
  41 ;
  42 ; AVX-LABEL: combine_vec_mul_negone:
  43 ; AVX:       # %bb.0:
  44 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
  45 ; AVX-NEXT:    vpsubd %xmm0, %xmm1, %xmm0
  46 ; AVX-NEXT:    retq
  47   %1 = mul <4 x i32> %x, <i32 -1, i32 -1, i32 -1, i32 -1>
  48   ret <4 x i32> %1
  49 }
  50
  51 ; fold (mul x, (1 << c)) -> x << c
  52 define <4 x i32> @combine_vec_mul_pow2a(<4 x i32> %x) {
  53 ; SSE-LABEL: combine_vec_mul_pow2a:
  54 ; SSE:       # %bb.0:
  55 ; SSE-NEXT:    paddd %xmm0, %xmm0
  56 ; SSE-NEXT:    retq
  57 ;
  58 ; AVX-LABEL: combine_vec_mul_pow2a:
  59 ; AVX:       # %bb.0:
  60 ; AVX-NEXT:    vpaddd %xmm0, %xmm0, %xmm0
  61 ; AVX-NEXT:    retq
  62   %1 = mul <4 x i32> %x, <i32 2, i32 2, i32 2, i32 2>
  63   ret <4 x i32> %1
  64 }
  65
  66 define <4 x i32> @combine_vec_mul_pow2b(<4 x i32> %x) {
  67 ; SSE-LABEL: combine_vec_mul_pow2b:
  68 ; SSE:       # %bb.0:
  69 ; SSE-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
  70 ; SSE-NEXT:    retq
  71 ;
  72 ; AVX-LABEL: combine_vec_mul_pow2b:
  73 ; AVX:       # %bb.0:
  74 ; AVX-NEXT:    vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
  75 ; AVX-NEXT:    retq
  76   %1 = mul <4 x i32> %x, <i32 1, i32 2, i32 4, i32 16>
  77   ret <4 x i32> %1
  78 }
  79
  80 define <4 x i64> @combine_vec_mul_pow2c(<4 x i64> %x) {
  81 ; SSE-LABEL: combine_vec_mul_pow2c:
  82 ; SSE:       # %bb.0:
  83 ; SSE-NEXT:    movdqa %xmm1, %xmm2
  84 ; SSE-NEXT:    psllq $4, %xmm2
  85 ; SSE-NEXT:    psllq $2, %xmm1
  86 ; SSE-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
  87 ; SSE-NEXT:    movdqa %xmm0, %xmm2
  88 ; SSE-NEXT:    paddq %xmm0, %xmm2
  89 ; SSE-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
  90 ; SSE-NEXT:    retq
  91 ;
  92 ; AVX-LABEL: combine_vec_mul_pow2c:
  93 ; AVX:       # %bb.0:
  94 ; AVX-NEXT:    vpsllvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
  95 ; AVX-NEXT:    retq
  96   %1 = mul <4 x i64> %x, <i64 1, i64 2, i64 4, i64 16>
  97   ret <4 x i64> %1
  98 }
  99
 100 ; fold (mul x, -(1 << c)) -> -(x << c) or (-x) << c
 101 define <4 x i32> @combine_vec_mul_negpow2a(<4 x i32> %x) {
 102 ; SSE-LABEL: combine_vec_mul_negpow2a:
 103 ; SSE:       # %bb.0:
 104 ; SSE-NEXT:    paddd %xmm0, %xmm0
 105 ; SSE-NEXT:    pxor %xmm1, %xmm1
 106 ; SSE-NEXT:    psubd %xmm0, %xmm1
 107 ; SSE-NEXT:    movdqa %xmm1, %xmm0
 108 ; SSE-NEXT:    retq
 109 ;
 110 ; AVX-LABEL: combine_vec_mul_negpow2a:
 111 ; AVX:       # %bb.0:
 112 ; AVX-NEXT:    vpaddd %xmm0, %xmm0, %xmm0
 113 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 114 ; AVX-NEXT:    vpsubd %xmm0, %xmm1, %xmm0
 115 ; AVX-NEXT:    retq
 116   %1 = mul <4 x i32> %x, <i32 -2, i32 -2, i32 -2, i32 -2>
 117   ret <4 x i32> %1
 118 }
 119
 120 define <4 x i32> @combine_vec_mul_negpow2b(<4 x i32> %x) {
 121 ; SSE-LABEL: combine_vec_mul_negpow2b:
 122 ; SSE:       # %bb.0:
 123 ; SSE-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 124 ; SSE-NEXT:    retq
 125 ;
 126 ; AVX-LABEL: combine_vec_mul_negpow2b:
 127 ; AVX:       # %bb.0:
 128 ; AVX-NEXT:    vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
 129 ; AVX-NEXT:    retq
 130   %1 = mul <4 x i32> %x, <i32 -1, i32 -2, i32 -4, i32 -16>
 131   ret <4 x i32> %1
 132 }
 133
 134 define <4 x i64> @combine_vec_mul_negpow2c(<4 x i64> %x) {
 135 ; SSE-LABEL: combine_vec_mul_negpow2c:
 136 ; SSE:       # %bb.0:
 137 ; SSE-NEXT:    movdqa {{.*#+}} xmm2 = [4294967295,4294967295]
 138 ; SSE-NEXT:    movdqa %xmm0, %xmm3
 139 ; SSE-NEXT:    pmuludq %xmm2, %xmm3
 140 ; SSE-NEXT:    movdqa %xmm0, %xmm4
 141 ; SSE-NEXT:    psrlq $32, %xmm4
 142 ; SSE-NEXT:    movdqa {{.*#+}} xmm5 = [18446744073709551615,18446744073709551614]
 143 ; SSE-NEXT:    pmuludq %xmm5, %xmm4
 144 ; SSE-NEXT:    paddq %xmm3, %xmm4
 145 ; SSE-NEXT:    psllq $32, %xmm4
 146 ; SSE-NEXT:    pmuludq %xmm5, %xmm0
 147 ; SSE-NEXT:    paddq %xmm4, %xmm0
 148 ; SSE-NEXT:    pmuludq %xmm1, %xmm2
 149 ; SSE-NEXT:    movdqa %xmm1, %xmm3
 150 ; SSE-NEXT:    psrlq $32, %xmm3
 151 ; SSE-NEXT:    movdqa {{.*#+}} xmm4 = [18446744073709551612,18446744073709551600]
 152 ; SSE-NEXT:    pmuludq %xmm4, %xmm3
 153 ; SSE-NEXT:    paddq %xmm2, %xmm3
 154 ; SSE-NEXT:    psllq $32, %xmm3
 155 ; SSE-NEXT:    pmuludq %xmm4, %xmm1
 156 ; SSE-NEXT:    paddq %xmm3, %xmm1
 157 ; SSE-NEXT:    retq
 158 ;
 159 ; AVX-LABEL: combine_vec_mul_negpow2c:
 160 ; AVX:       # %bb.0:
 161 ; AVX-NEXT:    vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]
 162 ; AVX-NEXT:    vpmuludq %ymm1, %ymm0, %ymm1
 163 ; AVX-NEXT:    vpsrlq $32, %ymm0, %ymm2
 164 ; AVX-NEXT:    vmovdqa {{.*#+}} ymm3 = [18446744073709551615,18446744073709551614,18446744073709551612,18446744073709551600]
 165 ; AVX-NEXT:    vpmuludq %ymm3, %ymm2, %ymm2
 166 ; AVX-NEXT:    vpaddq %ymm2, %ymm1, %ymm1
 167 ; AVX-NEXT:    vpsllq $32, %ymm1, %ymm1
 168 ; AVX-NEXT:    vpmuludq %ymm3, %ymm0, %ymm0
 169 ; AVX-NEXT:    vpaddq %ymm1, %ymm0, %ymm0
 170 ; AVX-NEXT:    retq
 171   %1 = mul <4 x i64> %x, <i64 -1, i64 -2, i64 -4, i64 -16>
 172   ret <4 x i64> %1
 173 }
 174
 175 ; (mul (shl X, c1), c2) -> (mul X, c2 << c1)
 176 define <4 x i32> @combine_vec_mul_shl_const(<4 x i32> %x) {
 177 ; SSE-LABEL: combine_vec_mul_shl_const:
 178 ; SSE:       # %bb.0:
 179 ; SSE-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 180 ; SSE-NEXT:    retq
 181 ;
 182 ; AVX-LABEL: combine_vec_mul_shl_const:
 183 ; AVX:       # %bb.0:
 184 ; AVX-NEXT:    vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
 185 ; AVX-NEXT:    retq
 186   %1 = shl <4 x i32> %x, <i32 1, i32 2, i32 8, i32 16>
 187   %2 = mul <4 x i32> %1, <i32 1, i32 3, i32 5, i32 7>
 188   ret <4 x i32> %2
 189 }
 190
 191 ; (mul (shl X, C), Y) -> (shl (mul X, Y), C) when the shift has one use.
 192 define <4 x i32> @combine_vec_mul_shl_oneuse0(<4 x i32> %x, <4 x i32> %y) {
 193 ; SSE-LABEL: combine_vec_mul_shl_oneuse0:
 194 ; SSE:       # %bb.0:
 195 ; SSE-NEXT:    pmulld %xmm1, %xmm0
 196 ; SSE-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 197 ; SSE-NEXT:    retq
 198 ;
 199 ; AVX-LABEL: combine_vec_mul_shl_oneuse0:
 200 ; AVX:       # %bb.0:
 201 ; AVX-NEXT:    vpmulld %xmm1, %xmm0, %xmm0
 202 ; AVX-NEXT:    vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
 203 ; AVX-NEXT:    retq
 204   %1 = shl <4 x i32> %x, <i32 1, i32 2, i32 8, i32 16>
 205   %2 = mul <4 x i32> %1, %y
 206   ret <4 x i32> %2
 207 }
 208
 209 define <4 x i32> @combine_vec_mul_shl_oneuse1(<4 x i32> %x, <4 x i32> %y) {
 210 ; SSE-LABEL: combine_vec_mul_shl_oneuse1:
 211 ; SSE:       # %bb.0:
 212 ; SSE-NEXT:    pmulld %xmm1, %xmm0
 213 ; SSE-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 214 ; SSE-NEXT:    retq
 215 ;
 216 ; AVX-LABEL: combine_vec_mul_shl_oneuse1:
 217 ; AVX:       # %bb.0:
 218 ; AVX-NEXT:    vpmulld %xmm1, %xmm0, %xmm0
 219 ; AVX-NEXT:    vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
 220 ; AVX-NEXT:    retq
 221   %1 = shl <4 x i32> %x, <i32 1, i32 2, i32 8, i32 16>
 222   %2 = mul <4 x i32> %y, %1
 223   ret <4 x i32> %2
 224 }
 225
 226 define <4 x i32> @combine_vec_mul_shl_multiuse0(<4 x i32> %x, <4 x i32> %y) {
 227 ; SSE-LABEL: combine_vec_mul_shl_multiuse0:
 228 ; SSE:       # %bb.0:
 229 ; SSE-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 230 ; SSE-NEXT:    pmulld %xmm0, %xmm1
 231 ; SSE-NEXT:    paddd %xmm1, %xmm0
 232 ; SSE-NEXT:    retq
 233 ;
 234 ; AVX-LABEL: combine_vec_mul_shl_multiuse0:
 235 ; AVX:       # %bb.0:
 236 ; AVX-NEXT:    vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
 237 ; AVX-NEXT:    vpmulld %xmm1, %xmm0, %xmm1
 238 ; AVX-NEXT:    vpaddd %xmm1, %xmm0, %xmm0
 239 ; AVX-NEXT:    retq
 240   %1 = shl <4 x i32> %x, <i32 1, i32 2, i32 8, i32 16>
 241   %2 = mul <4 x i32> %1, %y
 242   %3 = add <4 x i32> %1, %2
 243   ret <4 x i32> %3
 244 }
 245
 246 define <4 x i32> @combine_vec_mul_shl_multiuse1(<4 x i32> %x, <4 x i32> %y) {
 247 ; SSE-LABEL: combine_vec_mul_shl_multiuse1:
 248 ; SSE:       # %bb.0:
 249 ; SSE-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 250 ; SSE-NEXT:    pmulld %xmm0, %xmm1
 251 ; SSE-NEXT:    paddd %xmm1, %xmm0
 252 ; SSE-NEXT:    retq
 253 ;
 254 ; AVX-LABEL: combine_vec_mul_shl_multiuse1:
 255 ; AVX:       # %bb.0:
 256 ; AVX-NEXT:    vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
 257 ; AVX-NEXT:    vpmulld %xmm0, %xmm1, %xmm1
 258 ; AVX-NEXT:    vpaddd %xmm1, %xmm0, %xmm0
 259 ; AVX-NEXT:    retq
 260   %1 = shl <4 x i32> %x, <i32 1, i32 2, i32 8, i32 16>
 261   %2 = mul <4 x i32> %y, %1
 262   %3 = add <4 x i32> %1, %2
 263   ret <4 x i32> %3
 264 }
 265
 266 ; fold (mul (add x, c1), c2) -> (add (mul x, c2), c1*c2)
 267
 268 define <4 x i32> @combine_vec_mul_add(<4 x i32> %x) {
 269 ; SSE-LABEL: combine_vec_mul_add:
 270 ; SSE:       # %bb.0:
 271 ; SSE-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 272 ; SSE-NEXT:    paddd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 273 ; SSE-NEXT:    retq
 274 ;
 275 ; AVX-LABEL: combine_vec_mul_add:
 276 ; AVX:       # %bb.0:
 277 ; AVX-NEXT:    vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
 278 ; AVX-NEXT:    vpaddd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
 279 ; AVX-NEXT:    retq
 280   %1 = add <4 x i32> %x, <i32 1, i32 2, i32 8, i32 16>
 281   %2 = mul <4 x i32> %1, <i32 4, i32 6, i32 2, i32 0>
 282   ret <4 x i32> %2
 283 }
 284
 285 ; TODO fold Y = sra (X, size(X)-1); mul (or (Y, 1), X) -> (abs X)
 286
 287 define <16 x i8> @combine_mul_to_abs_v16i8(<16 x i8> %x) {
 288 ; SSE-LABEL: combine_mul_to_abs_v16i8:
 289 ; SSE:       # %bb.0:
 290 ; SSE-NEXT:    pxor %xmm2, %xmm2
 291 ; SSE-NEXT:    pcmpgtb %xmm0, %xmm2
 292 ; SSE-NEXT:    por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
 293 ; SSE-NEXT:    pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
 294 ; SSE-NEXT:    punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
 295 ; SSE-NEXT:    pmovzxbw {{.*#+}} xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
 296 ; SSE-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
 297 ; SSE-NEXT:    pmullw %xmm0, %xmm2
 298 ; SSE-NEXT:    movdqa {{.*#+}} xmm0 = [255,255,255,255,255,255,255,255]
 299 ; SSE-NEXT:    pand %xmm0, %xmm2
 300 ; SSE-NEXT:    pmullw %xmm3, %xmm1
 301 ; SSE-NEXT:    pand %xmm0, %xmm1
 302 ; SSE-NEXT:    packuswb %xmm2, %xmm1
 303 ; SSE-NEXT:    movdqa %xmm1, %xmm0
 304 ; SSE-NEXT:    retq
 305 ;
 306 ; AVX-LABEL: combine_mul_to_abs_v16i8:
 307 ; AVX:       # %bb.0:
 308 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 309 ; AVX-NEXT:    vpcmpgtb %xmm0, %xmm1, %xmm1
 310 ; AVX-NEXT:    vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
 311 ; AVX-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
 312 ; AVX-NEXT:    vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
 313 ; AVX-NEXT:    vpmullw %ymm0, %ymm1, %ymm0
 314 ; AVX-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 315 ; AVX-NEXT:    vextracti128 $1, %ymm0, %xmm1
 316 ; AVX-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
 317 ; AVX-NEXT:    vzeroupper
 318 ; AVX-NEXT:    retq
 319   %s = ashr <16 x i8> %x, <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>
 320   %o = or <16 x i8> %s, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
 321   %m = mul <16 x i8> %o, %x
 322   ret <16 x i8> %m
 323 }
 324
 325 define <2 x i64> @combine_mul_to_abs_v2i64(<2 x i64> %x) {
 326 ; SSE-LABEL: combine_mul_to_abs_v2i64:
 327 ; SSE:       # %bb.0:
 328 ; SSE-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
 329 ; SSE-NEXT:    psrad $31, %xmm1
 330 ; SSE-NEXT:    por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
 331 ; SSE-NEXT:    movdqa %xmm0, %xmm2
 332 ; SSE-NEXT:    psrlq $32, %xmm2
 333 ; SSE-NEXT:    pmuludq %xmm1, %xmm2
 334 ; SSE-NEXT:    movdqa %xmm1, %xmm3
 335 ; SSE-NEXT:    psrlq $32, %xmm3
 336 ; SSE-NEXT:    pmuludq %xmm0, %xmm3
 337 ; SSE-NEXT:    paddq %xmm2, %xmm3
 338 ; SSE-NEXT:    psllq $32, %xmm3
 339 ; SSE-NEXT:    pmuludq %xmm1, %xmm0
 340 ; SSE-NEXT:    paddq %xmm3, %xmm0
 341 ; SSE-NEXT:    retq
 342 ;
 343 ; AVX-LABEL: combine_mul_to_abs_v2i64:
 344 ; AVX:       # %bb.0:
 345 ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
 346 ; AVX-NEXT:    vpcmpgtq %xmm0, %xmm1, %xmm1
 347 ; AVX-NEXT:    vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
 348 ; AVX-NEXT:    vpsrlq $32, %xmm0, %xmm2
 349 ; AVX-NEXT:    vpmuludq %xmm1, %xmm2, %xmm2
 350 ; AVX-NEXT:    vpsrlq $32, %xmm1, %xmm3
 351 ; AVX-NEXT:    vpmuludq %xmm3, %xmm0, %xmm3
 352 ; AVX-NEXT:    vpaddq %xmm2, %xmm3, %xmm2
 353 ; AVX-NEXT:    vpsllq $32, %xmm2, %xmm2
 354 ; AVX-NEXT:    vpmuludq %xmm1, %xmm0, %xmm0
 355 ; AVX-NEXT:    vpaddq %xmm2, %xmm0, %xmm0
 356 ; AVX-NEXT:    retq
 357   %s = ashr <2 x i64> %x, <i64 63, i64 63>
 358   %o = or <2 x i64> %s, <i64 1, i64 1>
 359   %m = mul <2 x i64> %x, %o
 360   ret <2 x i64> %m
 361 }
 362
 363 ; 'Quadratic Reciprocity' - and(mul(x,x),2) -> 0
 364
 365 define i64 @combine_mul_self_knownbits(i64 %x) {
 366 ; SSE-LABEL: combine_mul_self_knownbits:
 367 ; SSE:       # %bb.0:
 368 ; SSE-NEXT:    xorl %eax, %eax
 369 ; SSE-NEXT:    retq
 370 ;
 371 ; AVX-LABEL: combine_mul_self_knownbits:
 372 ; AVX:       # %bb.0:
 373 ; AVX-NEXT:    xorl %eax, %eax
 374 ; AVX-NEXT:    retq
 375   %1 = mul i64 %x, %x
 376   %2 = and i64 %1, 2
 377   ret i64 %2
 378 }
 379
 380 define <4 x i32> @combine_mul_self_knownbits_vector(<4 x i32> %x) {
 381 ; SSE-LABEL: combine_mul_self_knownbits_vector:
 382 ; SSE:       # %bb.0:
 383 ; SSE-NEXT:    xorps %xmm0, %xmm0
 384 ; SSE-NEXT:    retq
 385 ;
 386 ; AVX-LABEL: combine_mul_self_knownbits_vector:
 387 ; AVX:       # %bb.0:
 388 ; AVX-NEXT:    vxorps %xmm0, %xmm0, %xmm0
 389 ; AVX-NEXT:    retq
 390   %1 = mul <4 x i32> %x, %x
 391   %2 = and <4 x i32> %1, <i32 2, i32 2, i32 2, i32 2>
 392   ret <4 x i32> %2
 393 }
 394
 395 ; mul(x,x) - bit[1] is 0, but if demanding the other bits the source must not be undef
 396
 397 define i64 @combine_mul_self_demandedbits(i64 %x) {
 398 ; SSE-LABEL: combine_mul_self_demandedbits:
 399 ; SSE:       # %bb.0:
 400 ; SSE-NEXT:    movq %rdi, %rax
 401 ; SSE-NEXT:    imulq %rdi, %rax
 402 ; SSE-NEXT:    andq $-3, %rax
 403 ; SSE-NEXT:    retq
 404 ;
 405 ; AVX-LABEL: combine_mul_self_demandedbits:
 406 ; AVX:       # %bb.0:
 407 ; AVX-NEXT:    movq %rdi, %rax
 408 ; AVX-NEXT:    imulq %rdi, %rax
 409 ; AVX-NEXT:    andq $-3, %rax
 410 ; AVX-NEXT:    retq
 411   %1 = mul i64 %x, %x
 412   %2 = and i64 %1, -3
 413   ret i64 %2
 414 }
 415
 416 define <4 x i32> @combine_mul_self_demandedbits_vector(<4 x i32> %x) {
 417 ; SSE-LABEL: combine_mul_self_demandedbits_vector:
 418 ; SSE:       # %bb.0:
 419 ; SSE-NEXT:    pmulld %xmm0, %xmm0
 420 ; SSE-NEXT:    retq
 421 ;
 422 ; AVX-LABEL: combine_mul_self_demandedbits_vector:
 423 ; AVX:       # %bb.0:
 424 ; AVX-NEXT:    vpmulld %xmm0, %xmm0, %xmm0
 425 ; AVX-NEXT:    retq
 426   %1 = freeze <4 x i32> %x
 427   %2 = mul <4 x i32> %1, %1
 428   %3 = and <4 x i32> %2, <i32 -3, i32 -3, i32 -3, i32 -3>
 429   ret <4 x i32> %3
 430 }
 431
 432 ; PR59217 - Reuse umul_lohi/smul_lohi node
 433
 434 define i64 @combine_mul_umul_lohi_i64(i64 %a, i64 %b) {
 435 ; SSE-LABEL: combine_mul_umul_lohi_i64:
 436 ; SSE:       # %bb.0:
 437 ; SSE-NEXT:    movq %rdi, %rax
 438 ; SSE-NEXT:    mulq %rsi
 439 ; SSE-NEXT:    xorq %rdx, %rax
 440 ; SSE-NEXT:    retq
 441 ;
 442 ; AVX-LABEL: combine_mul_umul_lohi_i64:
 443 ; AVX:       # %bb.0:
 444 ; AVX-NEXT:    movq %rdi, %rax
 445 ; AVX-NEXT:    mulq %rsi
 446 ; AVX-NEXT:    xorq %rdx, %rax
 447 ; AVX-NEXT:    retq
 448   %a128 = zext i64 %a to i128
 449   %b128 = zext i64 %b to i128
 450   %m128 = mul nuw i128 %a128, %b128
 451   %hi128 = lshr i128 %m128, 64
 452   %hi = trunc i128 %hi128 to i64
 453   %lo = mul i64 %a, %b
 454   %r = xor i64 %lo, %hi
 455   ret i64 %r
 456 }
 457
 458 define i64 @combine_mul_smul_lohi_commute_i64(i64 %a, i64 %b) {
 459 ; SSE-LABEL: combine_mul_smul_lohi_commute_i64:
 460 ; SSE:       # %bb.0:
 461 ; SSE-NEXT:    movq %rdi, %rax
 462 ; SSE-NEXT:    imulq %rsi
 463 ; SSE-NEXT:    xorq %rdx, %rax
 464 ; SSE-NEXT:    retq
 465 ;
 466 ; AVX-LABEL: combine_mul_smul_lohi_commute_i64:
 467 ; AVX:       # %bb.0:
 468 ; AVX-NEXT:    movq %rdi, %rax
 469 ; AVX-NEXT:    imulq %rsi
 470 ; AVX-NEXT:    xorq %rdx, %rax
 471 ; AVX-NEXT:    retq
 472   %a128 = sext i64 %a to i128
 473   %b128 = sext i64 %b to i128
 474   %m128 = mul nsw i128 %a128, %b128
 475   %hi128 = lshr i128 %m128, 64
 476   %hi = trunc i128 %hi128 to i64
 477   %lo = mul i64 %b, %a
 478   %r = xor i64 %lo, %hi
 479   ret i64 %r
 480 }
 481
 482 define i64 @combine_mul_umul_lohi_const_i64(i64 %h) {
 483 ; SSE-LABEL: combine_mul_umul_lohi_const_i64:
 484 ; SSE:       # %bb.0:
 485 ; SSE-NEXT:    movq %rdi, %rax
 486 ; SSE-NEXT:    movabsq $-4265267296055464877, %rcx # imm = 0xC4CEB9FE1A85EC53
 487 ; SSE-NEXT:    mulq %rcx
 488 ; SSE-NEXT:    xorq %rdx, %rax
 489 ; SSE-NEXT:    retq
 490 ;
 491 ; AVX-LABEL: combine_mul_umul_lohi_const_i64:
 492 ; AVX:       # %bb.0:
 493 ; AVX-NEXT:    movq %rdi, %rax
 494 ; AVX-NEXT:    movabsq $-4265267296055464877, %rcx # imm = 0xC4CEB9FE1A85EC53
 495 ; AVX-NEXT:    mulq %rcx
 496 ; AVX-NEXT:    xorq %rdx, %rax
 497 ; AVX-NEXT:    retq
 498   %h128 = zext i64 %h to i128
 499   %m128 = mul nuw i128 %h128, 14181476777654086739
 500   %hi128 = lshr i128 %m128, 64
 501   %hi = trunc i128 %hi128 to i64
 502   %lo = mul i64 %h, 14181476777654086739
 503   %r = xor i64 %lo, %hi
 504   ret i64 %r
 505 }
 506
 507 define i64 @combine_mul_smul_lohi_const_i64(i64 %h) {
 508 ; SSE-LABEL: combine_mul_smul_lohi_const_i64:
 509 ; SSE:       # %bb.0:
 510 ; SSE-NEXT:    movq %rdi, %rax
 511 ; SSE-NEXT:    movq %rdi, %rcx
 512 ; SSE-NEXT:    sarq $63, %rcx
 513 ; SSE-NEXT:    movabsq $-4265267296055464877, %rsi # imm = 0xC4CEB9FE1A85EC53
 514 ; SSE-NEXT:    mulq %rsi
 515 ; SSE-NEXT:    imulq %rsi, %rcx
 516 ; SSE-NEXT:    addq %rdx, %rcx
 517 ; SSE-NEXT:    xorq %rcx, %rax
 518 ; SSE-NEXT:    retq
 519 ;
 520 ; AVX-LABEL: combine_mul_smul_lohi_const_i64:
 521 ; AVX:       # %bb.0:
 522 ; AVX-NEXT:    movq %rdi, %rax
 523 ; AVX-NEXT:    movq %rdi, %rcx
 524 ; AVX-NEXT:    sarq $63, %rcx
 525 ; AVX-NEXT:    movabsq $-4265267296055464877, %rsi # imm = 0xC4CEB9FE1A85EC53
 526 ; AVX-NEXT:    mulq %rsi
 527 ; AVX-NEXT:    imulq %rsi, %rcx
 528 ; AVX-NEXT:    addq %rdx, %rcx
 529 ; AVX-NEXT:    xorq %rcx, %rax
 530 ; AVX-NEXT:    retq
 531   %h128 = sext i64 %h to i128
 532   %m128 = mul nsw i128 %h128, 14181476777654086739
 533   %hi128 = lshr i128 %m128, 64
 534   %hi = trunc i128 %hi128 to i64
 535   %lo = mul i64 %h, 14181476777654086739
 536   %r = xor i64 %lo, %hi
 537   ret i64 %r
 538 }
 539
 540 ; This would infinite loop because DAGCombiner wants to turn this into a shift,
 541 ; but x86 lowering wants to avoid non-uniform vector shift amounts.
 542
 543 define <16 x i8> @PR35579(<16 x i8> %x) {
 544 ; SSE-LABEL: PR35579:
 545 ; SSE:       # %bb.0:
 546 ; SSE-NEXT:    pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
 547 ; SSE-NEXT:    punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
 548 ; SSE-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
 549 ; SSE-NEXT:    movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
 550 ; SSE-NEXT:    pand %xmm2, %xmm0
 551 ; SSE-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
 552 ; SSE-NEXT:    pand %xmm2, %xmm1
 553 ; SSE-NEXT:    packuswb %xmm0, %xmm1
 554 ; SSE-NEXT:    movdqa %xmm1, %xmm0
 555 ; SSE-NEXT:    retq
 556 ;
 557 ; AVX-LABEL: PR35579:
 558 ; AVX:       # %bb.0:
 559 ; AVX-NEXT:    vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
 560 ; AVX-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 561 ; AVX-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 562 ; AVX-NEXT:    vextracti128 $1, %ymm0, %xmm1
 563 ; AVX-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
 564 ; AVX-NEXT:    vzeroupper
 565 ; AVX-NEXT:    retq
 566   %r = mul <16 x i8> %x, <i8 0, i8 1, i8 2, i8 1, i8 4, i8 1, i8 2, i8 1, i8 8, i8 1, i8 2, i8 1, i8 4, i8 1, i8 2, i8 1>
 567   ret <16 x i8> %r
 568 }
 569
 570 ; OSS Fuzz: https://bugs.chromium.org/p/oss-fuzz/issues/detail?id=15429
 571 define <4 x i64> @fuzz15429(<4 x i64> %InVec) {
 572 ; SSE-LABEL: fuzz15429:
 573 ; SSE:       # %bb.0:
 574 ; SSE-NEXT:    movdqa %xmm1, %xmm2
 575 ; SSE-NEXT:    psllq $3, %xmm2
 576 ; SSE-NEXT:    psllq $2, %xmm1
 577 ; SSE-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
 578 ; SSE-NEXT:    paddq %xmm0, %xmm0
 579 ; SSE-NEXT:    movabsq $9223372036854775807, %rax # imm = 0x7FFFFFFFFFFFFFFF
 580 ; SSE-NEXT:    pinsrq $0, %rax, %xmm0
 581 ; SSE-NEXT:    retq
 582 ;
 583 ; AVX-LABEL: fuzz15429:
 584 ; AVX:       # %bb.0:
 585 ; AVX-NEXT:    vpsllvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 586 ; AVX-NEXT:    movabsq $9223372036854775807, %rax # imm = 0x7FFFFFFFFFFFFFFF
 587 ; AVX-NEXT:    vmovq %rax, %xmm1
 588 ; AVX-NEXT:    vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3,4,5,6,7]
 589 ; AVX-NEXT:    retq
 590   %mul = mul <4 x i64> %InVec, <i64 1, i64 2, i64 4, i64 8>
 591   %I = insertelement <4 x i64> %mul, i64 9223372036854775807, i64 0
 592   ret <4 x i64> %I
 593 }