1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 | FileCheck %s --check-prefix=SSE --check-prefix=SSE2
3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefix=SSE --check-prefix=SSE41
4 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx | FileCheck %s --check-prefix=AVX --check-prefix=AVX1
5 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX2NOBW
6 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw | FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX512BW
12 define <2 x i64> @test_div7_2i64(<2 x i64> %a) nounwind {
13 ; SSE2-LABEL: test_div7_2i64:
15 ; SSE2-NEXT: movq %xmm0, %rcx
16 ; SSE2-NEXT: movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
17 ; SSE2-NEXT: movq %rcx, %rax
18 ; SSE2-NEXT: mulq %rsi
19 ; SSE2-NEXT: subq %rdx, %rcx
20 ; SSE2-NEXT: shrq %rcx
21 ; SSE2-NEXT: addq %rdx, %rcx
22 ; SSE2-NEXT: movq %rcx, %xmm1
23 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
24 ; SSE2-NEXT: movq %xmm0, %rcx
25 ; SSE2-NEXT: movq %rcx, %rax
26 ; SSE2-NEXT: mulq %rsi
27 ; SSE2-NEXT: subq %rdx, %rcx
28 ; SSE2-NEXT: shrq %rcx
29 ; SSE2-NEXT: addq %rdx, %rcx
30 ; SSE2-NEXT: movq %rcx, %xmm0
31 ; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
32 ; SSE2-NEXT: psrlq $2, %xmm1
33 ; SSE2-NEXT: movdqa %xmm1, %xmm0
36 ; SSE41-LABEL: test_div7_2i64:
38 ; SSE41-NEXT: pextrq $1, %xmm0, %rcx
39 ; SSE41-NEXT: movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
40 ; SSE41-NEXT: movq %rcx, %rax
41 ; SSE41-NEXT: mulq %rsi
42 ; SSE41-NEXT: subq %rdx, %rcx
43 ; SSE41-NEXT: shrq %rcx
44 ; SSE41-NEXT: addq %rdx, %rcx
45 ; SSE41-NEXT: movq %rcx, %xmm1
46 ; SSE41-NEXT: movq %xmm0, %rcx
47 ; SSE41-NEXT: movq %rcx, %rax
48 ; SSE41-NEXT: mulq %rsi
49 ; SSE41-NEXT: subq %rdx, %rcx
50 ; SSE41-NEXT: shrq %rcx
51 ; SSE41-NEXT: addq %rdx, %rcx
52 ; SSE41-NEXT: movq %rcx, %xmm0
53 ; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
54 ; SSE41-NEXT: psrlq $2, %xmm0
57 ; AVX-LABEL: test_div7_2i64:
59 ; AVX-NEXT: vpextrq $1, %xmm0, %rcx
60 ; AVX-NEXT: movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
61 ; AVX-NEXT: movq %rcx, %rax
63 ; AVX-NEXT: subq %rdx, %rcx
65 ; AVX-NEXT: addq %rdx, %rcx
66 ; AVX-NEXT: vmovq %rcx, %xmm1
67 ; AVX-NEXT: vmovq %xmm0, %rcx
68 ; AVX-NEXT: movq %rcx, %rax
70 ; AVX-NEXT: subq %rdx, %rcx
72 ; AVX-NEXT: addq %rdx, %rcx
73 ; AVX-NEXT: vmovq %rcx, %xmm0
74 ; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
75 ; AVX-NEXT: vpsrlq $2, %xmm0, %xmm0
77 %res = udiv <2 x i64> %a, <i64 7, i64 7>
81 define <4 x i32> @test_div7_4i32(<4 x i32> %a) nounwind {
82 ; SSE2-LABEL: test_div7_4i32:
84 ; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]
85 ; SSE2-NEXT: movdqa %xmm0, %xmm2
86 ; SSE2-NEXT: pmuludq %xmm1, %xmm2
87 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
88 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
89 ; SSE2-NEXT: pmuludq %xmm1, %xmm3
90 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
91 ; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
92 ; SSE2-NEXT: psubd %xmm2, %xmm0
93 ; SSE2-NEXT: psrld $1, %xmm0
94 ; SSE2-NEXT: paddd %xmm2, %xmm0
95 ; SSE2-NEXT: psrld $2, %xmm0
98 ; SSE41-LABEL: test_div7_4i32:
100 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
101 ; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
102 ; SSE41-NEXT: pmuludq %xmm2, %xmm1
103 ; SSE41-NEXT: pmuludq %xmm0, %xmm2
104 ; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
105 ; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
106 ; SSE41-NEXT: psubd %xmm2, %xmm0
107 ; SSE41-NEXT: psrld $1, %xmm0
108 ; SSE41-NEXT: paddd %xmm2, %xmm0
109 ; SSE41-NEXT: psrld $2, %xmm0
112 ; AVX1-LABEL: test_div7_4i32:
114 ; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
115 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
116 ; AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
117 ; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
118 ; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
119 ; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
120 ; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
121 ; AVX1-NEXT: vpsrld $1, %xmm0, %xmm0
122 ; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
123 ; AVX1-NEXT: vpsrld $2, %xmm0, %xmm0
126 ; AVX2-LABEL: test_div7_4i32:
128 ; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
129 ; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
130 ; AVX2-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
131 ; AVX2-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
132 ; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
133 ; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
134 ; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
135 ; AVX2-NEXT: vpsrld $1, %xmm0, %xmm0
136 ; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
137 ; AVX2-NEXT: vpsrld $2, %xmm0, %xmm0
139 %res = udiv <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>
143 define <8 x i16> @test_div7_8i16(<8 x i16> %a) nounwind {
144 ; SSE-LABEL: test_div7_8i16:
146 ; SSE-NEXT: movdqa {{.*#+}} xmm1 = [9363,9363,9363,9363,9363,9363,9363,9363]
147 ; SSE-NEXT: pmulhuw %xmm0, %xmm1
148 ; SSE-NEXT: psubw %xmm1, %xmm0
149 ; SSE-NEXT: psrlw $1, %xmm0
150 ; SSE-NEXT: paddw %xmm1, %xmm0
151 ; SSE-NEXT: psrlw $2, %xmm0
154 ; AVX-LABEL: test_div7_8i16:
156 ; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm1
157 ; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0
158 ; AVX-NEXT: vpsrlw $1, %xmm0, %xmm0
159 ; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
160 ; AVX-NEXT: vpsrlw $2, %xmm0, %xmm0
162 %res = udiv <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
166 define <16 x i8> @test_div7_16i8(<16 x i8> %a) nounwind {
167 ; SSE2-LABEL: test_div7_16i8:
169 ; SSE2-NEXT: pxor %xmm1, %xmm1
170 ; SSE2-NEXT: movdqa %xmm0, %xmm2
171 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
172 ; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [37,37,37,37,37,37,37,37]
173 ; SSE2-NEXT: pmullw %xmm3, %xmm2
174 ; SSE2-NEXT: psrlw $8, %xmm2
175 ; SSE2-NEXT: movdqa %xmm0, %xmm4
176 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
177 ; SSE2-NEXT: pmullw %xmm3, %xmm4
178 ; SSE2-NEXT: psrlw $8, %xmm4
179 ; SSE2-NEXT: packuswb %xmm2, %xmm4
180 ; SSE2-NEXT: psubb %xmm4, %xmm0
181 ; SSE2-NEXT: psrlw $1, %xmm0
182 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
183 ; SSE2-NEXT: paddb %xmm4, %xmm0
184 ; SSE2-NEXT: psrlw $2, %xmm0
185 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
188 ; SSE41-LABEL: test_div7_16i8:
190 ; SSE41-NEXT: pxor %xmm1, %xmm1
191 ; SSE41-NEXT: movdqa %xmm0, %xmm2
192 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
193 ; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [37,37,37,37,37,37,37,37]
194 ; SSE41-NEXT: pmullw %xmm1, %xmm2
195 ; SSE41-NEXT: psrlw $8, %xmm2
196 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
197 ; SSE41-NEXT: pmullw %xmm1, %xmm3
198 ; SSE41-NEXT: psrlw $8, %xmm3
199 ; SSE41-NEXT: packuswb %xmm2, %xmm3
200 ; SSE41-NEXT: psubb %xmm3, %xmm0
201 ; SSE41-NEXT: psrlw $1, %xmm0
202 ; SSE41-NEXT: pand {{.*}}(%rip), %xmm0
203 ; SSE41-NEXT: paddb %xmm3, %xmm0
204 ; SSE41-NEXT: psrlw $2, %xmm0
205 ; SSE41-NEXT: pand {{.*}}(%rip), %xmm0
208 ; AVX1-LABEL: test_div7_16i8:
210 ; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
211 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
212 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]
213 ; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
214 ; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
215 ; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
216 ; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
217 ; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
218 ; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1
219 ; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
220 ; AVX1-NEXT: vpsrlw $1, %xmm0, %xmm0
221 ; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
222 ; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
223 ; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0
224 ; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
227 ; AVX2NOBW-LABEL: test_div7_16i8:
229 ; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
230 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
231 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
232 ; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
233 ; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
234 ; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
235 ; AVX2NOBW-NEXT: vpsrlw $1, %xmm0, %xmm0
236 ; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
237 ; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
238 ; AVX2NOBW-NEXT: vpsrlw $2, %xmm0, %xmm0
239 ; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
240 ; AVX2NOBW-NEXT: vzeroupper
241 ; AVX2NOBW-NEXT: retq
243 ; AVX512BW-LABEL: test_div7_16i8:
245 ; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
246 ; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
247 ; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
248 ; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
249 ; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
250 ; AVX512BW-NEXT: vpsrlw $1, %xmm0, %xmm0
251 ; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
252 ; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
253 ; AVX512BW-NEXT: vpsrlw $2, %xmm0, %xmm0
254 ; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
255 ; AVX512BW-NEXT: vzeroupper
256 ; AVX512BW-NEXT: retq
257 %res = udiv <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
262 ; sdiv by non-splat constant
265 define <16 x i8> @test_divconstant_16i8(<16 x i8> %a) nounwind {
266 ; SSE2-LABEL: test_divconstant_16i8:
268 ; SSE2-NEXT: pxor %xmm1, %xmm1
269 ; SSE2-NEXT: movdqa %xmm0, %xmm2
270 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
271 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
272 ; SSE2-NEXT: psrlw $8, %xmm2
273 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
274 ; SSE2-NEXT: psrlw $8, %xmm2
275 ; SSE2-NEXT: movdqa %xmm0, %xmm3
276 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
277 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm3
278 ; SSE2-NEXT: psrlw $8, %xmm3
279 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm3
280 ; SSE2-NEXT: psrlw $8, %xmm3
281 ; SSE2-NEXT: packuswb %xmm2, %xmm3
282 ; SSE2-NEXT: psubb %xmm3, %xmm0
283 ; SSE2-NEXT: movdqa %xmm0, %xmm2
284 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
285 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
286 ; SSE2-NEXT: psrlw $8, %xmm2
287 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
288 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm0
289 ; SSE2-NEXT: psrlw $8, %xmm0
290 ; SSE2-NEXT: packuswb %xmm2, %xmm0
291 ; SSE2-NEXT: paddb %xmm3, %xmm0
292 ; SSE2-NEXT: movdqa %xmm0, %xmm2
293 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
294 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
295 ; SSE2-NEXT: psrlw $8, %xmm2
296 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
297 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm0
298 ; SSE2-NEXT: psrlw $8, %xmm0
299 ; SSE2-NEXT: packuswb %xmm2, %xmm0
302 ; SSE41-LABEL: test_divconstant_16i8:
304 ; SSE41-NEXT: pxor %xmm1, %xmm1
305 ; SSE41-NEXT: pxor %xmm2, %xmm2
306 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
307 ; SSE41-NEXT: movdqa %xmm0, %xmm3
308 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
309 ; SSE41-NEXT: psllw $7, %xmm3
310 ; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0],xmm2[1,2,3,4,5,6,7]
311 ; SSE41-NEXT: psrlw $8, %xmm3
312 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm3
313 ; SSE41-NEXT: psrlw $8, %xmm3
314 ; SSE41-NEXT: pxor %xmm2, %xmm2
315 ; SSE41-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
316 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
317 ; SSE41-NEXT: psllw $7, %xmm4
318 ; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm2[0,1,2,3,4,5,6],xmm4[7]
319 ; SSE41-NEXT: psrlw $8, %xmm4
320 ; SSE41-NEXT: packuswb %xmm0, %xmm4
321 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
322 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm2
323 ; SSE41-NEXT: psrlw $8, %xmm2
324 ; SSE41-NEXT: packuswb %xmm3, %xmm2
325 ; SSE41-NEXT: psubb %xmm2, %xmm0
326 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
327 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
328 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm0
329 ; SSE41-NEXT: psrlw $8, %xmm0
330 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm3
331 ; SSE41-NEXT: psrlw $8, %xmm3
332 ; SSE41-NEXT: packuswb %xmm0, %xmm3
333 ; SSE41-NEXT: paddb %xmm2, %xmm3
334 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm0 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
335 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
336 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm3
337 ; SSE41-NEXT: psrlw $8, %xmm3
338 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm0
339 ; SSE41-NEXT: psrlw $8, %xmm0
340 ; SSE41-NEXT: packuswb %xmm3, %xmm0
343 ; AVX1-LABEL: test_divconstant_16i8:
345 ; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
346 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
347 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
348 ; AVX1-NEXT: vpsllw $7, %xmm3, %xmm3
349 ; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0],xmm2[1,2,3,4,5,6,7]
350 ; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
351 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm2, %xmm2
352 ; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
353 ; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm3 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
354 ; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
355 ; AVX1-NEXT: vpsllw $7, %xmm4, %xmm4
356 ; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6],xmm4[7]
357 ; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
358 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm3, %xmm3
359 ; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
360 ; AVX1-NEXT: vpackuswb %xmm2, %xmm3, %xmm2
361 ; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0
362 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
363 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm3, %xmm3
364 ; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
365 ; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
366 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
367 ; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0
368 ; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
369 ; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
370 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
371 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1
372 ; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
373 ; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
374 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
375 ; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0
376 ; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
379 ; AVX2NOBW-LABEL: test_divconstant_16i8:
381 ; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
382 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
383 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
384 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
385 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
386 ; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
387 ; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
388 ; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
389 ; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
390 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
391 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm0, %ymm0
392 ; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm2
393 ; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
394 ; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
395 ; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
396 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
397 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm0, %ymm0
398 ; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
399 ; AVX2NOBW-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
400 ; AVX2NOBW-NEXT: vzeroupper
401 ; AVX2NOBW-NEXT: retq
403 ; AVX512BW-LABEL: test_divconstant_16i8:
405 ; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0]
406 ; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
407 ; AVX512BW-NEXT: vpsrlvw %zmm1, %zmm2, %zmm1
408 ; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
409 ; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
410 ; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
411 ; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
412 ; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
413 ; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
414 ; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
415 ; AVX512BW-NEXT: vpsrlw $8, %ymm0, %ymm0
416 ; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
417 ; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
418 ; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
419 ; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm1 = [2,0,1,3,3,3,2,2,2,2,3,3,3,1,1,2]
420 ; AVX512BW-NEXT: vpsrlvw %zmm1, %zmm0, %zmm0
421 ; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
422 ; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
423 ; AVX512BW-NEXT: vzeroupper
424 ; AVX512BW-NEXT: retq
425 %res = udiv <16 x i8> %a, <i8 7, i8 8, i8 9, i8 10,i8 11, i8 12, i8 13, i8 14, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9,i8 9, i8 7>
433 define <2 x i64> @test_rem7_2i64(<2 x i64> %a) nounwind {
434 ; SSE2-LABEL: test_rem7_2i64:
436 ; SSE2-NEXT: movq %xmm0, %rcx
437 ; SSE2-NEXT: movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
438 ; SSE2-NEXT: movq %rcx, %rax
439 ; SSE2-NEXT: mulq %rsi
440 ; SSE2-NEXT: movq %rcx, %rax
441 ; SSE2-NEXT: subq %rdx, %rax
442 ; SSE2-NEXT: shrq %rax
443 ; SSE2-NEXT: addq %rdx, %rax
444 ; SSE2-NEXT: shrq $2, %rax
445 ; SSE2-NEXT: leaq (,%rax,8), %rdx
446 ; SSE2-NEXT: subq %rdx, %rax
447 ; SSE2-NEXT: addq %rcx, %rax
448 ; SSE2-NEXT: movq %rax, %xmm1
449 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
450 ; SSE2-NEXT: movq %xmm0, %rcx
451 ; SSE2-NEXT: movq %rcx, %rax
452 ; SSE2-NEXT: mulq %rsi
453 ; SSE2-NEXT: movq %rcx, %rax
454 ; SSE2-NEXT: subq %rdx, %rax
455 ; SSE2-NEXT: shrq %rax
456 ; SSE2-NEXT: addq %rdx, %rax
457 ; SSE2-NEXT: shrq $2, %rax
458 ; SSE2-NEXT: leaq (,%rax,8), %rdx
459 ; SSE2-NEXT: subq %rdx, %rax
460 ; SSE2-NEXT: addq %rcx, %rax
461 ; SSE2-NEXT: movq %rax, %xmm0
462 ; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
463 ; SSE2-NEXT: movdqa %xmm1, %xmm0
466 ; SSE41-LABEL: test_rem7_2i64:
468 ; SSE41-NEXT: pextrq $1, %xmm0, %rcx
469 ; SSE41-NEXT: movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
470 ; SSE41-NEXT: movq %rcx, %rax
471 ; SSE41-NEXT: mulq %rsi
472 ; SSE41-NEXT: movq %rcx, %rax
473 ; SSE41-NEXT: subq %rdx, %rax
474 ; SSE41-NEXT: shrq %rax
475 ; SSE41-NEXT: addq %rdx, %rax
476 ; SSE41-NEXT: shrq $2, %rax
477 ; SSE41-NEXT: leaq (,%rax,8), %rdx
478 ; SSE41-NEXT: subq %rdx, %rax
479 ; SSE41-NEXT: addq %rcx, %rax
480 ; SSE41-NEXT: movq %rax, %xmm1
481 ; SSE41-NEXT: movq %xmm0, %rcx
482 ; SSE41-NEXT: movq %rcx, %rax
483 ; SSE41-NEXT: mulq %rsi
484 ; SSE41-NEXT: movq %rcx, %rax
485 ; SSE41-NEXT: subq %rdx, %rax
486 ; SSE41-NEXT: shrq %rax
487 ; SSE41-NEXT: addq %rdx, %rax
488 ; SSE41-NEXT: shrq $2, %rax
489 ; SSE41-NEXT: leaq (,%rax,8), %rdx
490 ; SSE41-NEXT: subq %rdx, %rax
491 ; SSE41-NEXT: addq %rcx, %rax
492 ; SSE41-NEXT: movq %rax, %xmm0
493 ; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
496 ; AVX-LABEL: test_rem7_2i64:
498 ; AVX-NEXT: vpextrq $1, %xmm0, %rcx
499 ; AVX-NEXT: movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
500 ; AVX-NEXT: movq %rcx, %rax
501 ; AVX-NEXT: mulq %rsi
502 ; AVX-NEXT: movq %rcx, %rax
503 ; AVX-NEXT: subq %rdx, %rax
504 ; AVX-NEXT: shrq %rax
505 ; AVX-NEXT: addq %rdx, %rax
506 ; AVX-NEXT: shrq $2, %rax
507 ; AVX-NEXT: leaq (,%rax,8), %rdx
508 ; AVX-NEXT: subq %rdx, %rax
509 ; AVX-NEXT: addq %rcx, %rax
510 ; AVX-NEXT: vmovq %rax, %xmm1
511 ; AVX-NEXT: vmovq %xmm0, %rcx
512 ; AVX-NEXT: movq %rcx, %rax
513 ; AVX-NEXT: mulq %rsi
514 ; AVX-NEXT: movq %rcx, %rax
515 ; AVX-NEXT: subq %rdx, %rax
516 ; AVX-NEXT: shrq %rax
517 ; AVX-NEXT: addq %rdx, %rax
518 ; AVX-NEXT: shrq $2, %rax
519 ; AVX-NEXT: leaq (,%rax,8), %rdx
520 ; AVX-NEXT: subq %rdx, %rax
521 ; AVX-NEXT: addq %rcx, %rax
522 ; AVX-NEXT: vmovq %rax, %xmm0
523 ; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
525 %res = urem <2 x i64> %a, <i64 7, i64 7>
529 define <4 x i32> @test_rem7_4i32(<4 x i32> %a) nounwind {
530 ; SSE2-LABEL: test_rem7_4i32:
532 ; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]
533 ; SSE2-NEXT: movdqa %xmm0, %xmm2
534 ; SSE2-NEXT: pmuludq %xmm1, %xmm2
535 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
536 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
537 ; SSE2-NEXT: pmuludq %xmm1, %xmm3
538 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
539 ; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
540 ; SSE2-NEXT: movdqa %xmm0, %xmm1
541 ; SSE2-NEXT: psubd %xmm2, %xmm1
542 ; SSE2-NEXT: psrld $1, %xmm1
543 ; SSE2-NEXT: paddd %xmm2, %xmm1
544 ; SSE2-NEXT: psrld $2, %xmm1
545 ; SSE2-NEXT: movdqa %xmm1, %xmm2
546 ; SSE2-NEXT: pslld $3, %xmm2
547 ; SSE2-NEXT: psubd %xmm2, %xmm1
548 ; SSE2-NEXT: paddd %xmm0, %xmm1
549 ; SSE2-NEXT: movdqa %xmm1, %xmm0
552 ; SSE41-LABEL: test_rem7_4i32:
554 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
555 ; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
556 ; SSE41-NEXT: pmuludq %xmm2, %xmm1
557 ; SSE41-NEXT: pmuludq %xmm0, %xmm2
558 ; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
559 ; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
560 ; SSE41-NEXT: movdqa %xmm0, %xmm1
561 ; SSE41-NEXT: psubd %xmm2, %xmm1
562 ; SSE41-NEXT: psrld $1, %xmm1
563 ; SSE41-NEXT: paddd %xmm2, %xmm1
564 ; SSE41-NEXT: psrld $2, %xmm1
565 ; SSE41-NEXT: pmulld {{.*}}(%rip), %xmm1
566 ; SSE41-NEXT: psubd %xmm1, %xmm0
569 ; AVX1-LABEL: test_rem7_4i32:
571 ; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
572 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
573 ; AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
574 ; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
575 ; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
576 ; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
577 ; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm2
578 ; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2
579 ; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
580 ; AVX1-NEXT: vpsrld $2, %xmm1, %xmm1
581 ; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
582 ; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
585 ; AVX2-LABEL: test_rem7_4i32:
587 ; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
588 ; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
589 ; AVX2-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
590 ; AVX2-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
591 ; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
592 ; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
593 ; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm2
594 ; AVX2-NEXT: vpsrld $1, %xmm2, %xmm2
595 ; AVX2-NEXT: vpaddd %xmm1, %xmm2, %xmm1
596 ; AVX2-NEXT: vpsrld $2, %xmm1, %xmm1
597 ; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [7,7,7,7]
598 ; AVX2-NEXT: vpmulld %xmm2, %xmm1, %xmm1
599 ; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
601 %res = urem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>
605 define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {
606 ; SSE-LABEL: test_rem7_8i16:
608 ; SSE-NEXT: movdqa {{.*#+}} xmm1 = [9363,9363,9363,9363,9363,9363,9363,9363]
609 ; SSE-NEXT: pmulhuw %xmm0, %xmm1
610 ; SSE-NEXT: movdqa %xmm0, %xmm2
611 ; SSE-NEXT: psubw %xmm1, %xmm2
612 ; SSE-NEXT: psrlw $1, %xmm2
613 ; SSE-NEXT: paddw %xmm1, %xmm2
614 ; SSE-NEXT: psrlw $2, %xmm2
615 ; SSE-NEXT: pmullw {{.*}}(%rip), %xmm2
616 ; SSE-NEXT: psubw %xmm2, %xmm0
619 ; AVX-LABEL: test_rem7_8i16:
621 ; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm1
622 ; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm2
623 ; AVX-NEXT: vpsrlw $1, %xmm2, %xmm2
624 ; AVX-NEXT: vpaddw %xmm1, %xmm2, %xmm1
625 ; AVX-NEXT: vpsrlw $2, %xmm1, %xmm1
626 ; AVX-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1
627 ; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0
629 %res = urem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
633 define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {
634 ; SSE2-LABEL: test_rem7_16i8:
636 ; SSE2-NEXT: pxor %xmm1, %xmm1
637 ; SSE2-NEXT: movdqa %xmm0, %xmm2
638 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
639 ; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [37,37,37,37,37,37,37,37]
640 ; SSE2-NEXT: pmullw %xmm3, %xmm2
641 ; SSE2-NEXT: psrlw $8, %xmm2
642 ; SSE2-NEXT: movdqa %xmm0, %xmm4
643 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
644 ; SSE2-NEXT: pmullw %xmm3, %xmm4
645 ; SSE2-NEXT: psrlw $8, %xmm4
646 ; SSE2-NEXT: packuswb %xmm2, %xmm4
647 ; SSE2-NEXT: movdqa %xmm0, %xmm1
648 ; SSE2-NEXT: psubb %xmm4, %xmm1
649 ; SSE2-NEXT: psrlw $1, %xmm1
650 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
651 ; SSE2-NEXT: paddb %xmm4, %xmm1
652 ; SSE2-NEXT: psrlw $2, %xmm1
653 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
654 ; SSE2-NEXT: movdqa %xmm1, %xmm2
655 ; SSE2-NEXT: psllw $3, %xmm2
656 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
657 ; SSE2-NEXT: psubb %xmm2, %xmm1
658 ; SSE2-NEXT: paddb %xmm0, %xmm1
659 ; SSE2-NEXT: movdqa %xmm1, %xmm0
662 ; SSE41-LABEL: test_rem7_16i8:
664 ; SSE41-NEXT: pxor %xmm1, %xmm1
665 ; SSE41-NEXT: movdqa %xmm0, %xmm2
666 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
667 ; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [37,37,37,37,37,37,37,37]
668 ; SSE41-NEXT: pmullw %xmm1, %xmm2
669 ; SSE41-NEXT: psrlw $8, %xmm2
670 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
671 ; SSE41-NEXT: pmullw %xmm1, %xmm3
672 ; SSE41-NEXT: psrlw $8, %xmm3
673 ; SSE41-NEXT: packuswb %xmm2, %xmm3
674 ; SSE41-NEXT: movdqa %xmm0, %xmm1
675 ; SSE41-NEXT: psubb %xmm3, %xmm1
676 ; SSE41-NEXT: psrlw $1, %xmm1
677 ; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
678 ; SSE41-NEXT: paddb %xmm3, %xmm1
679 ; SSE41-NEXT: psrlw $2, %xmm1
680 ; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
681 ; SSE41-NEXT: movdqa %xmm1, %xmm2
682 ; SSE41-NEXT: psllw $3, %xmm2
683 ; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
684 ; SSE41-NEXT: psubb %xmm2, %xmm1
685 ; SSE41-NEXT: paddb %xmm0, %xmm1
686 ; SSE41-NEXT: movdqa %xmm1, %xmm0
689 ; AVX1-LABEL: test_rem7_16i8:
691 ; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
692 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
693 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]
694 ; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
695 ; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
696 ; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
697 ; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
698 ; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
699 ; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1
700 ; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm2
701 ; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2
702 ; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
703 ; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
704 ; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
705 ; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
706 ; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2
707 ; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
708 ; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
709 ; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
712 ; AVX2NOBW-LABEL: test_rem7_16i8:
714 ; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
715 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
716 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
717 ; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
718 ; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
719 ; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm2
720 ; AVX2NOBW-NEXT: vpsrlw $1, %xmm2, %xmm2
721 ; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
722 ; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
723 ; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm1
724 ; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
725 ; AVX2NOBW-NEXT: vpsllw $3, %xmm1, %xmm2
726 ; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
727 ; AVX2NOBW-NEXT: vpsubb %xmm2, %xmm1, %xmm1
728 ; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
729 ; AVX2NOBW-NEXT: vzeroupper
730 ; AVX2NOBW-NEXT: retq
732 ; AVX512BW-LABEL: test_rem7_16i8:
734 ; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
735 ; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
736 ; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
737 ; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
738 ; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm2
739 ; AVX512BW-NEXT: vpsrlw $1, %xmm2, %xmm2
740 ; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
741 ; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
742 ; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm1
743 ; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
744 ; AVX512BW-NEXT: vpsllw $3, %xmm1, %xmm2
745 ; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
746 ; AVX512BW-NEXT: vpsubb %xmm2, %xmm1, %xmm1
747 ; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
748 ; AVX512BW-NEXT: vzeroupper
749 ; AVX512BW-NEXT: retq
750 %res = urem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
755 ; srem by non-splat constant
758 define <16 x i8> @test_remconstant_16i8(<16 x i8> %a) nounwind {
759 ; SSE2-LABEL: test_remconstant_16i8:
761 ; SSE2-NEXT: pxor %xmm1, %xmm1
762 ; SSE2-NEXT: movdqa %xmm0, %xmm2
763 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
764 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
765 ; SSE2-NEXT: psrlw $8, %xmm2
766 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
767 ; SSE2-NEXT: psrlw $8, %xmm2
768 ; SSE2-NEXT: movdqa %xmm0, %xmm3
769 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
770 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm3
771 ; SSE2-NEXT: psrlw $8, %xmm3
772 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm3
773 ; SSE2-NEXT: psrlw $8, %xmm3
774 ; SSE2-NEXT: packuswb %xmm2, %xmm3
775 ; SSE2-NEXT: movdqa %xmm0, %xmm2
776 ; SSE2-NEXT: psubb %xmm3, %xmm2
777 ; SSE2-NEXT: movdqa %xmm2, %xmm4
778 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm4 = xmm4[8],xmm1[8],xmm4[9],xmm1[9],xmm4[10],xmm1[10],xmm4[11],xmm1[11],xmm4[12],xmm1[12],xmm4[13],xmm1[13],xmm4[14],xmm1[14],xmm4[15],xmm1[15]
779 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm4
780 ; SSE2-NEXT: psrlw $8, %xmm4
781 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
782 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
783 ; SSE2-NEXT: psrlw $8, %xmm2
784 ; SSE2-NEXT: packuswb %xmm4, %xmm2
785 ; SSE2-NEXT: paddb %xmm3, %xmm2
786 ; SSE2-NEXT: movdqa %xmm2, %xmm3
787 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
788 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm3
789 ; SSE2-NEXT: psrlw $8, %xmm3
790 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm3
791 ; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
792 ; SSE2-NEXT: pand %xmm4, %xmm3
793 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
794 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
795 ; SSE2-NEXT: psrlw $8, %xmm2
796 ; SSE2-NEXT: pmullw {{.*}}(%rip), %xmm2
797 ; SSE2-NEXT: pand %xmm4, %xmm2
798 ; SSE2-NEXT: packuswb %xmm3, %xmm2
799 ; SSE2-NEXT: psubb %xmm2, %xmm0
802 ; SSE41-LABEL: test_remconstant_16i8:
804 ; SSE41-NEXT: pxor %xmm1, %xmm1
805 ; SSE41-NEXT: pxor %xmm2, %xmm2
806 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
807 ; SSE41-NEXT: movdqa %xmm0, %xmm3
808 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
809 ; SSE41-NEXT: psllw $7, %xmm3
810 ; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0],xmm2[1,2,3,4,5,6,7]
811 ; SSE41-NEXT: psrlw $8, %xmm3
812 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm3
813 ; SSE41-NEXT: psrlw $8, %xmm3
814 ; SSE41-NEXT: pxor %xmm2, %xmm2
815 ; SSE41-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
816 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
817 ; SSE41-NEXT: psllw $7, %xmm4
818 ; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm2[0,1,2,3,4,5,6],xmm4[7]
819 ; SSE41-NEXT: psrlw $8, %xmm4
820 ; SSE41-NEXT: packuswb %xmm0, %xmm4
821 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
822 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm4
823 ; SSE41-NEXT: psrlw $8, %xmm4
824 ; SSE41-NEXT: packuswb %xmm3, %xmm4
825 ; SSE41-NEXT: movdqa %xmm0, %xmm3
826 ; SSE41-NEXT: psubb %xmm4, %xmm3
827 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
828 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
829 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm3
830 ; SSE41-NEXT: psrlw $8, %xmm3
831 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm2
832 ; SSE41-NEXT: psrlw $8, %xmm2
833 ; SSE41-NEXT: packuswb %xmm3, %xmm2
834 ; SSE41-NEXT: paddb %xmm4, %xmm2
835 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
836 ; SSE41-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
837 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm2
838 ; SSE41-NEXT: psrlw $8, %xmm2
839 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm3
840 ; SSE41-NEXT: psrlw $8, %xmm3
841 ; SSE41-NEXT: packuswb %xmm2, %xmm3
842 ; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
843 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm1
844 ; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
845 ; SSE41-NEXT: pand %xmm3, %xmm1
846 ; SSE41-NEXT: pmullw {{.*}}(%rip), %xmm2
847 ; SSE41-NEXT: pand %xmm3, %xmm2
848 ; SSE41-NEXT: packuswb %xmm2, %xmm1
849 ; SSE41-NEXT: psubb %xmm1, %xmm0
852 ; AVX1-LABEL: test_remconstant_16i8:
854 ; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
855 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
856 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
857 ; AVX1-NEXT: vpsllw $7, %xmm3, %xmm3
858 ; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0],xmm2[1,2,3,4,5,6,7]
859 ; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
860 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm2, %xmm2
861 ; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
862 ; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm3 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
863 ; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
864 ; AVX1-NEXT: vpsllw $7, %xmm4, %xmm4
865 ; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6],xmm4[7]
866 ; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
867 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm3, %xmm3
868 ; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
869 ; AVX1-NEXT: vpackuswb %xmm2, %xmm3, %xmm2
870 ; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm3
871 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
872 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm4, %xmm4
873 ; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
874 ; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
875 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm3, %xmm3
876 ; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
877 ; AVX1-NEXT: vpackuswb %xmm4, %xmm3, %xmm3
878 ; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2
879 ; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
880 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1
881 ; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
882 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1
883 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
884 ; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
885 ; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
886 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm2, %xmm2
887 ; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
888 ; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm2, %xmm2
889 ; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
890 ; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1
891 ; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
894 ; AVX2NOBW-LABEL: test_remconstant_16i8:
896 ; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
897 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
898 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
899 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
900 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
901 ; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
902 ; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
903 ; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm2
904 ; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero,xmm2[8],zero,xmm2[9],zero,xmm2[10],zero,xmm2[11],zero,xmm2[12],zero,xmm2[13],zero,xmm2[14],zero,xmm2[15],zero
905 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm2, %ymm2
906 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2
907 ; AVX2NOBW-NEXT: vextracti128 $1, %ymm2, %xmm3
908 ; AVX2NOBW-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
909 ; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
910 ; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
911 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
912 ; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
913 ; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
914 ; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
915 ; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
916 ; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
917 ; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
918 ; AVX2NOBW-NEXT: vzeroupper
919 ; AVX2NOBW-NEXT: retq
921 ; AVX512BW-LABEL: test_remconstant_16i8:
923 ; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0]
924 ; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
925 ; AVX512BW-NEXT: vpsrlvw %zmm1, %zmm2, %zmm1
926 ; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
927 ; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
928 ; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
929 ; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
930 ; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm2
931 ; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero,xmm2[8],zero,xmm2[9],zero,xmm2[10],zero,xmm2[11],zero,xmm2[12],zero,xmm2[13],zero,xmm2[14],zero,xmm2[15],zero
932 ; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm2, %ymm2
933 ; AVX512BW-NEXT: vpsrlw $8, %ymm2, %ymm2
934 ; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2
935 ; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
936 ; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
937 ; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [2,0,1,3,3,3,2,2,2,2,3,3,3,1,1,2]
938 ; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm1, %zmm1
939 ; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
940 ; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
941 ; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
942 ; AVX512BW-NEXT: vzeroupper
943 ; AVX512BW-NEXT: retq
944 %res = urem <16 x i8> %a, <i8 7, i8 8, i8 9, i8 10,i8 11, i8 12, i8 13, i8 14, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9,i8 9, i8 7>