Run DCE after a LoopFlatten test to reduce spurious output [nfc]
[llvm-project.git] / llvm / test / CodeGen / X86 / omit-urem-of-power-of-two-or-zero-when-comparing-with-zero.ll
blob83dd0b5b9dbfd91a530df8cf9a07f924bbdbb260
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2   | FileCheck %s --check-prefixes=CHECK,SSE2
3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 | FileCheck %s --check-prefixes=CHECK,SSE4
4 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2   | FileCheck %s --check-prefixes=CHECK,AVX2
6 ; Given:
7 ;   icmp eq/ne (urem %x, C), 0
8 ; Iff C is not a power of two (those should not get to here though),
9 ; and %x may have at most one bit set, omit the 'urem':
10 ;   icmp eq/ne %x, 0
12 ;------------------------------------------------------------------------------;
13 ; Basic scalar tests
14 ;------------------------------------------------------------------------------;
16 define i1 @p0_scalar_urem_by_const(i32 %x, i32 %y) {
17 ; CHECK-LABEL: p0_scalar_urem_by_const:
18 ; CHECK:       # %bb.0:
19 ; CHECK-NEXT:    testb %dil, %dil
20 ; CHECK-NEXT:    setns %al
21 ; CHECK-NEXT:    retq
22   %t0 = and i32 %x, 128 ; clearly a power-of-two or zero
23   %t1 = urem i32 %t0, 6 ; '6' is clearly not a power of two
24   %t2 = icmp eq i32 %t1, 0
25   ret i1 %t2
28 define i1 @p1_scalar_urem_by_nonconst(i32 %x, i32 %y) {
29 ; CHECK-LABEL: p1_scalar_urem_by_nonconst:
30 ; CHECK:       # %bb.0:
31 ; CHECK-NEXT:    testb %dil, %dil
32 ; CHECK-NEXT:    setns %al
33 ; CHECK-NEXT:    retq
34   %t0 = and i32 %x, 128 ; clearly a power-of-two or zero
35   %t1 = or i32 %y, 6 ; two bits set, clearly not a power of two
36   %t2 = urem i32 %t0, %t1
37   %t3 = icmp eq i32 %t2, 0
38   ret i1 %t3
41 define i1 @p2_scalar_shifted_urem_by_const(i32 %x, i32 %y) {
42 ; CHECK-LABEL: p2_scalar_shifted_urem_by_const:
43 ; CHECK:       # %bb.0:
44 ; CHECK-NEXT:    movl %esi, %ecx
45 ; CHECK-NEXT:    andl $1, %edi
46 ; CHECK-NEXT:    # kill: def $cl killed $cl killed $ecx
47 ; CHECK-NEXT:    shll %cl, %edi
48 ; CHECK-NEXT:    imull $-1431655765, %edi, %eax # imm = 0xAAAAAAAB
49 ; CHECK-NEXT:    cmpl $1431655766, %eax # imm = 0x55555556
50 ; CHECK-NEXT:    setb %al
51 ; CHECK-NEXT:    retq
52   %t0 = and i32 %x, 1 ; clearly a power-of-two or zero
53   %t1 = shl i32 %t0, %y ; will still be a power-of-two or zero with any %y
54   %t2 = urem i32 %t1, 3 ; '3' is clearly not a power of two
55   %t3 = icmp eq i32 %t2, 0
56   ret i1 %t3
59 define i1 @p3_scalar_shifted2_urem_by_const(i32 %x, i32 %y) {
60 ; CHECK-LABEL: p3_scalar_shifted2_urem_by_const:
61 ; CHECK:       # %bb.0:
62 ; CHECK-NEXT:    movl %esi, %ecx
63 ; CHECK-NEXT:    andl $2, %edi
64 ; CHECK-NEXT:    # kill: def $cl killed $cl killed $ecx
65 ; CHECK-NEXT:    shll %cl, %edi
66 ; CHECK-NEXT:    imull $-1431655765, %edi, %eax # imm = 0xAAAAAAAB
67 ; CHECK-NEXT:    cmpl $1431655766, %eax # imm = 0x55555556
68 ; CHECK-NEXT:    setb %al
69 ; CHECK-NEXT:    retq
70   %t0 = and i32 %x, 2 ; clearly a power-of-two or zero
71   %t1 = shl i32 %t0, %y ; will still be a power-of-two or zero with any %y
72   %t2 = urem i32 %t1, 3 ; '3' is clearly not a power of two
73   %t3 = icmp eq i32 %t2, 0
74   ret i1 %t3
77 ;------------------------------------------------------------------------------;
78 ; Basic vector tests
79 ;------------------------------------------------------------------------------;
81 define <4 x i1> @p4_vector_urem_by_const__splat(<4 x i32> %x, <4 x i32> %y) {
82 ; SSE2-LABEL: p4_vector_urem_by_const__splat:
83 ; SSE2:       # %bb.0:
84 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
85 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [2863311531,2863311531,2863311531,2863311531]
86 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
87 ; SSE2-NEXT:    pmuludq %xmm1, %xmm0
88 ; SSE2-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[0,2,2,3]
89 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
90 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
91 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1]
92 ; SSE2-NEXT:    movdqa %xmm3, %xmm0
93 ; SSE2-NEXT:    psrld $1, %xmm0
94 ; SSE2-NEXT:    pslld $31, %xmm3
95 ; SSE2-NEXT:    por %xmm0, %xmm3
96 ; SSE2-NEXT:    pxor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
97 ; SSE2-NEXT:    pcmpgtd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
98 ; SSE2-NEXT:    pcmpeqd %xmm0, %xmm0
99 ; SSE2-NEXT:    pxor %xmm3, %xmm0
100 ; SSE2-NEXT:    retq
102 ; SSE4-LABEL: p4_vector_urem_by_const__splat:
103 ; SSE4:       # %bb.0:
104 ; SSE4-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
105 ; SSE4-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
106 ; SSE4-NEXT:    psrld $1, %xmm0
107 ; SSE4-NEXT:    movdqa {{.*#+}} xmm1 = [715827882,715827882,715827882,715827882]
108 ; SSE4-NEXT:    pminud %xmm0, %xmm1
109 ; SSE4-NEXT:    pcmpeqd %xmm1, %xmm0
110 ; SSE4-NEXT:    retq
112 ; AVX2-LABEL: p4_vector_urem_by_const__splat:
113 ; AVX2:       # %bb.0:
114 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm1 = [128,128,128,128]
115 ; AVX2-NEXT:    vpand %xmm1, %xmm0, %xmm0
116 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm1 = [2863311531,2863311531,2863311531,2863311531]
117 ; AVX2-NEXT:    vpmulld %xmm1, %xmm0, %xmm0
118 ; AVX2-NEXT:    vpsrld $1, %xmm0, %xmm0
119 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm1 = [715827882,715827882,715827882,715827882]
120 ; AVX2-NEXT:    vpminud %xmm1, %xmm0, %xmm1
121 ; AVX2-NEXT:    vpcmpeqd %xmm1, %xmm0, %xmm0
122 ; AVX2-NEXT:    retq
123   %t0 = and <4 x i32> %x, <i32 128, i32 128, i32 128, i32 128> ; clearly a power-of-two or zero
124   %t1 = urem <4 x i32> %t0, <i32 6, i32 6, i32 6, i32 6> ; '6' is clearly not a power of two
125   %t2 = icmp eq <4 x i32> %t1, <i32 0, i32 0, i32 0, i32 0>
126   ret <4 x i1> %t2
129 define <4 x i1> @p5_vector_urem_by_const__nonsplat(<4 x i32> %x, <4 x i32> %y) {
130 ; SSE2-LABEL: p5_vector_urem_by_const__nonsplat:
131 ; SSE2:       # %bb.0:
132 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
133 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
134 ; SSE2-NEXT:    pmuludq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
135 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
136 ; SSE2-NEXT:    pmuludq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
137 ; SSE2-NEXT:    pmuludq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
138 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[0,2,2,3]
139 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
140 ; SSE2-NEXT:    psrlq $32, %xmm0
141 ; SSE2-NEXT:    por %xmm2, %xmm0
142 ; SSE2-NEXT:    pxor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
143 ; SSE2-NEXT:    pcmpgtd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
144 ; SSE2-NEXT:    pcmpeqd %xmm1, %xmm1
145 ; SSE2-NEXT:    pxor %xmm1, %xmm0
146 ; SSE2-NEXT:    retq
148 ; SSE4-LABEL: p5_vector_urem_by_const__nonsplat:
149 ; SSE4:       # %bb.0:
150 ; SSE4-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
151 ; SSE4-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
152 ; SSE4-NEXT:    movdqa {{.*#+}} xmm1 = <1,u,2147483648,u>
153 ; SSE4-NEXT:    pmuludq %xmm0, %xmm1
154 ; SSE4-NEXT:    pblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
155 ; SSE4-NEXT:    psrlq $32, %xmm1
156 ; SSE4-NEXT:    por %xmm1, %xmm0
157 ; SSE4-NEXT:    movdqa {{.*#+}} xmm1 = [1431655765,858993459,715827882,477218588]
158 ; SSE4-NEXT:    pminud %xmm0, %xmm1
159 ; SSE4-NEXT:    pcmpeqd %xmm1, %xmm0
160 ; SSE4-NEXT:    retq
162 ; AVX2-LABEL: p5_vector_urem_by_const__nonsplat:
163 ; AVX2:       # %bb.0:
164 ; AVX2-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
165 ; AVX2-NEXT:    vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
166 ; AVX2-NEXT:    vpsrlvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
167 ; AVX2-NEXT:    vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
168 ; AVX2-NEXT:    vpor %xmm1, %xmm0, %xmm0
169 ; AVX2-NEXT:    vpminud {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
170 ; AVX2-NEXT:    vpcmpeqd %xmm1, %xmm0, %xmm0
171 ; AVX2-NEXT:    retq
172   %t0 = and <4 x i32> %x, <i32 128, i32 2, i32 4, i32 8>
173   %t1 = urem <4 x i32> %t0, <i32 3, i32 5, i32 6, i32 9>
174   %t2 = icmp eq <4 x i32> %t1, <i32 0, i32 0, i32 0, i32 0>
175   ret <4 x i1> %t2
178 define <4 x i1> @p6_vector_urem_by_const__nonsplat_undef0(<4 x i32> %x, <4 x i32> %y) {
179 ; SSE2-LABEL: p6_vector_urem_by_const__nonsplat_undef0:
180 ; SSE2:       # %bb.0:
181 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
182 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [2863311531,2863311531,2863311531,2863311531]
183 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
184 ; SSE2-NEXT:    pmuludq %xmm1, %xmm0
185 ; SSE2-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[0,2,2,3]
186 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
187 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
188 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1]
189 ; SSE2-NEXT:    movdqa %xmm3, %xmm0
190 ; SSE2-NEXT:    psrld $1, %xmm0
191 ; SSE2-NEXT:    pslld $31, %xmm3
192 ; SSE2-NEXT:    por %xmm0, %xmm3
193 ; SSE2-NEXT:    pxor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
194 ; SSE2-NEXT:    pcmpgtd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
195 ; SSE2-NEXT:    pcmpeqd %xmm0, %xmm0
196 ; SSE2-NEXT:    pxor %xmm3, %xmm0
197 ; SSE2-NEXT:    retq
199 ; SSE4-LABEL: p6_vector_urem_by_const__nonsplat_undef0:
200 ; SSE4:       # %bb.0:
201 ; SSE4-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
202 ; SSE4-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
203 ; SSE4-NEXT:    movdqa %xmm0, %xmm1
204 ; SSE4-NEXT:    psrld $1, %xmm1
205 ; SSE4-NEXT:    pslld $31, %xmm0
206 ; SSE4-NEXT:    por %xmm1, %xmm0
207 ; SSE4-NEXT:    movdqa {{.*#+}} xmm1 = [715827882,715827882,715827882,715827882]
208 ; SSE4-NEXT:    pminud %xmm0, %xmm1
209 ; SSE4-NEXT:    pcmpeqd %xmm1, %xmm0
210 ; SSE4-NEXT:    retq
212 ; AVX2-LABEL: p6_vector_urem_by_const__nonsplat_undef0:
213 ; AVX2:       # %bb.0:
214 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm1 = [128,128,128,128]
215 ; AVX2-NEXT:    vpand %xmm1, %xmm0, %xmm0
216 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm1 = [2863311531,2863311531,2863311531,2863311531]
217 ; AVX2-NEXT:    vpmulld %xmm1, %xmm0, %xmm0
218 ; AVX2-NEXT:    vpsrld $1, %xmm0, %xmm0
219 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm1 = [715827882,715827882,715827882,715827882]
220 ; AVX2-NEXT:    vpminud %xmm1, %xmm0, %xmm1
221 ; AVX2-NEXT:    vpcmpeqd %xmm1, %xmm0, %xmm0
222 ; AVX2-NEXT:    retq
223   %t0 = and <4 x i32> %x, <i32 128, i32 128, i32 undef, i32 128>
224   %t1 = urem <4 x i32> %t0, <i32 6, i32 6, i32 6, i32 6> ; '6' is clearly not a power of two
225   %t2 = icmp eq <4 x i32> %t1, <i32 0, i32 0, i32 0, i32 0>
226   ret <4 x i1> %t2
229 define <4 x i1> @p7_vector_urem_by_const__nonsplat_undef2(<4 x i32> %x, <4 x i32> %y) {
230 ; SSE2-LABEL: p7_vector_urem_by_const__nonsplat_undef2:
231 ; SSE2:       # %bb.0:
232 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
233 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [2863311531,2863311531,2863311531,2863311531]
234 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
235 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
236 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
237 ; SSE2-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
238 ; SSE2-NEXT:    pmuludq %xmm1, %xmm3
239 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
240 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
241 ; SSE2-NEXT:    psrld $2, %xmm2
242 ; SSE2-NEXT:    pmaddwd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
243 ; SSE2-NEXT:    psubd %xmm2, %xmm0
244 ; SSE2-NEXT:    pxor %xmm1, %xmm1
245 ; SSE2-NEXT:    pcmpeqd %xmm1, %xmm0
246 ; SSE2-NEXT:    retq
248 ; SSE4-LABEL: p7_vector_urem_by_const__nonsplat_undef2:
249 ; SSE4:       # %bb.0:
250 ; SSE4-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
251 ; SSE4-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
252 ; SSE4-NEXT:    movdqa {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]
253 ; SSE4-NEXT:    pmuludq %xmm2, %xmm1
254 ; SSE4-NEXT:    pmuludq %xmm0, %xmm2
255 ; SSE4-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
256 ; SSE4-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
257 ; SSE4-NEXT:    psrld $2, %xmm2
258 ; SSE4-NEXT:    pmaddwd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
259 ; SSE4-NEXT:    psubd %xmm2, %xmm0
260 ; SSE4-NEXT:    pxor %xmm1, %xmm1
261 ; SSE4-NEXT:    pcmpeqd %xmm1, %xmm0
262 ; SSE4-NEXT:    retq
264 ; AVX2-LABEL: p7_vector_urem_by_const__nonsplat_undef2:
265 ; AVX2:       # %bb.0:
266 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm1 = [128,128,128,128]
267 ; AVX2-NEXT:    vpand %xmm1, %xmm0, %xmm0
268 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
269 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]
270 ; AVX2-NEXT:    vpmuludq %xmm2, %xmm1, %xmm1
271 ; AVX2-NEXT:    vpmuludq %xmm2, %xmm0, %xmm2
272 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
273 ; AVX2-NEXT:    vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
274 ; AVX2-NEXT:    vpsrld $2, %xmm1, %xmm1
275 ; AVX2-NEXT:    vpmaddwd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
276 ; AVX2-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
277 ; AVX2-NEXT:    vpxor %xmm1, %xmm1, %xmm1
278 ; AVX2-NEXT:    vpcmpeqd %xmm1, %xmm0, %xmm0
279 ; AVX2-NEXT:    retq
280   %t0 = and <4 x i32> %x, <i32 128, i32 128, i32 128, i32 128> ; clearly a power-of-two or zero
281   %t1 = urem <4 x i32> %t0, <i32 6, i32 6, i32 6, i32 6> ; '6' is clearly not a power of two
282   %t2 = icmp eq <4 x i32> %t1, <i32 0, i32 0, i32 undef, i32 0>
283   ret <4 x i1> %t2
286 define <4 x i1> @p8_vector_urem_by_const__nonsplat_undef3(<4 x i32> %x, <4 x i32> %y) {
287 ; SSE2-LABEL: p8_vector_urem_by_const__nonsplat_undef3:
288 ; SSE2:       # %bb.0:
289 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
290 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [2863311531,2863311531,2863311531,2863311531]
291 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
292 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
293 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
294 ; SSE2-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
295 ; SSE2-NEXT:    pmuludq %xmm1, %xmm3
296 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
297 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
298 ; SSE2-NEXT:    psrld $2, %xmm2
299 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [6,6,6,6]
300 ; SSE2-NEXT:    pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
301 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
302 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
303 ; SSE2-NEXT:    pmuludq %xmm1, %xmm3
304 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm3[0,2,2,3]
305 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
306 ; SSE2-NEXT:    psubd %xmm2, %xmm0
307 ; SSE2-NEXT:    pxor %xmm1, %xmm1
308 ; SSE2-NEXT:    pcmpeqd %xmm1, %xmm0
309 ; SSE2-NEXT:    retq
311 ; SSE4-LABEL: p8_vector_urem_by_const__nonsplat_undef3:
312 ; SSE4:       # %bb.0:
313 ; SSE4-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
314 ; SSE4-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
315 ; SSE4-NEXT:    movdqa {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]
316 ; SSE4-NEXT:    pmuludq %xmm2, %xmm1
317 ; SSE4-NEXT:    pmuludq %xmm0, %xmm2
318 ; SSE4-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
319 ; SSE4-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
320 ; SSE4-NEXT:    psrld $2, %xmm2
321 ; SSE4-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
322 ; SSE4-NEXT:    psubd %xmm2, %xmm0
323 ; SSE4-NEXT:    pxor %xmm1, %xmm1
324 ; SSE4-NEXT:    pcmpeqd %xmm1, %xmm0
325 ; SSE4-NEXT:    retq
327 ; AVX2-LABEL: p8_vector_urem_by_const__nonsplat_undef3:
328 ; AVX2:       # %bb.0:
329 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm1 = [128,128,128,128]
330 ; AVX2-NEXT:    vpand %xmm1, %xmm0, %xmm0
331 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
332 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]
333 ; AVX2-NEXT:    vpmuludq %xmm2, %xmm1, %xmm1
334 ; AVX2-NEXT:    vpmuludq %xmm2, %xmm0, %xmm2
335 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
336 ; AVX2-NEXT:    vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
337 ; AVX2-NEXT:    vpsrld $2, %xmm1, %xmm1
338 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [6,6,6,6]
339 ; AVX2-NEXT:    vpmulld %xmm2, %xmm1, %xmm1
340 ; AVX2-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
341 ; AVX2-NEXT:    vpxor %xmm1, %xmm1, %xmm1
342 ; AVX2-NEXT:    vpcmpeqd %xmm1, %xmm0, %xmm0
343 ; AVX2-NEXT:    retq
344   %t0 = and <4 x i32> %x, <i32 128, i32 128, i32 undef, i32 128>
345   %t1 = urem <4 x i32> %t0, <i32 6, i32 6, i32 6, i32 6> ; '6' is clearly not a power of two
346   %t2 = icmp eq <4 x i32> %t1, <i32 0, i32 0, i32 undef, i32 0>
347   ret <4 x i1> %t2
350 ;------------------------------------------------------------------------------;
351 ; Basic negative tests
352 ;------------------------------------------------------------------------------;
354 define i1 @n0_urem_of_maybe_not_power_of_two(i32 %x, i32 %y) {
355 ; CHECK-LABEL: n0_urem_of_maybe_not_power_of_two:
356 ; CHECK:       # %bb.0:
357 ; CHECK-NEXT:    andl $3, %edi
358 ; CHECK-NEXT:    imull $-1431655765, %edi, %eax # imm = 0xAAAAAAAB
359 ; CHECK-NEXT:    cmpl $1431655766, %eax # imm = 0x55555556
360 ; CHECK-NEXT:    setb %al
361 ; CHECK-NEXT:    retq
362   %t0 = and i32 %x, 3 ; up to two bits set, not power-of-two
363   %t1 = urem i32 %t0, 3
364   %t2 = icmp eq i32 %t1, 0
365   ret i1 %t2
368 define i1 @n1_urem_by_maybe_power_of_two(i32 %x, i32 %y) {
369 ; CHECK-LABEL: n1_urem_by_maybe_power_of_two:
370 ; CHECK:       # %bb.0:
371 ; CHECK-NEXT:    movl %edi, %eax
372 ; CHECK-NEXT:    andl $128, %eax
373 ; CHECK-NEXT:    orl $1, %esi
374 ; CHECK-NEXT:    xorl %edx, %edx
375 ; CHECK-NEXT:    divl %esi
376 ; CHECK-NEXT:    testl %edx, %edx
377 ; CHECK-NEXT:    sete %al
378 ; CHECK-NEXT:    retq
379   %t0 = and i32 %x, 128 ; clearly a power-of-two or zero
380   %t1 = or i32 %y, 1 ; one low bit set, may be a power of two
381   %t2 = urem i32 %t0, %t1
382   %t3 = icmp eq i32 %t2, 0
383   ret i1 %t3