[ORC] Add std::tuple support to SimplePackedSerialization.
[llvm-project.git] / llvm / test / CodeGen / X86 / vector-idiv-udiv-128.ll
blob365e8fe1ff5a5f5d9c8fc2d16f95e00148a9440a
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 | FileCheck %s --check-prefix=SSE --check-prefix=SSE2
3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefix=SSE --check-prefix=SSE41
4 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx | FileCheck %s --check-prefix=AVX --check-prefix=AVX1
5 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX2NOBW
6 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw | FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX512BW
9 ; udiv by 7
12 define <2 x i64> @test_div7_2i64(<2 x i64> %a) nounwind {
13 ; SSE2-LABEL: test_div7_2i64:
14 ; SSE2:       # %bb.0:
15 ; SSE2-NEXT:    movq %xmm0, %rcx
16 ; SSE2-NEXT:    movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
17 ; SSE2-NEXT:    movq %rcx, %rax
18 ; SSE2-NEXT:    mulq %rsi
19 ; SSE2-NEXT:    subq %rdx, %rcx
20 ; SSE2-NEXT:    shrq %rcx
21 ; SSE2-NEXT:    addq %rdx, %rcx
22 ; SSE2-NEXT:    movq %rcx, %xmm1
23 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
24 ; SSE2-NEXT:    movq %xmm0, %rcx
25 ; SSE2-NEXT:    movq %rcx, %rax
26 ; SSE2-NEXT:    mulq %rsi
27 ; SSE2-NEXT:    subq %rdx, %rcx
28 ; SSE2-NEXT:    shrq %rcx
29 ; SSE2-NEXT:    addq %rdx, %rcx
30 ; SSE2-NEXT:    movq %rcx, %xmm0
31 ; SSE2-NEXT:    punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
32 ; SSE2-NEXT:    psrlq $2, %xmm1
33 ; SSE2-NEXT:    movdqa %xmm1, %xmm0
34 ; SSE2-NEXT:    retq
36 ; SSE41-LABEL: test_div7_2i64:
37 ; SSE41:       # %bb.0:
38 ; SSE41-NEXT:    pextrq $1, %xmm0, %rcx
39 ; SSE41-NEXT:    movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
40 ; SSE41-NEXT:    movq %rcx, %rax
41 ; SSE41-NEXT:    mulq %rsi
42 ; SSE41-NEXT:    subq %rdx, %rcx
43 ; SSE41-NEXT:    shrq %rcx
44 ; SSE41-NEXT:    addq %rdx, %rcx
45 ; SSE41-NEXT:    movq %rcx, %xmm1
46 ; SSE41-NEXT:    movq %xmm0, %rcx
47 ; SSE41-NEXT:    movq %rcx, %rax
48 ; SSE41-NEXT:    mulq %rsi
49 ; SSE41-NEXT:    subq %rdx, %rcx
50 ; SSE41-NEXT:    shrq %rcx
51 ; SSE41-NEXT:    addq %rdx, %rcx
52 ; SSE41-NEXT:    movq %rcx, %xmm0
53 ; SSE41-NEXT:    punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
54 ; SSE41-NEXT:    psrlq $2, %xmm0
55 ; SSE41-NEXT:    retq
57 ; AVX-LABEL: test_div7_2i64:
58 ; AVX:       # %bb.0:
59 ; AVX-NEXT:    vpextrq $1, %xmm0, %rcx
60 ; AVX-NEXT:    movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
61 ; AVX-NEXT:    movq %rcx, %rax
62 ; AVX-NEXT:    mulq %rsi
63 ; AVX-NEXT:    subq %rdx, %rcx
64 ; AVX-NEXT:    shrq %rcx
65 ; AVX-NEXT:    addq %rdx, %rcx
66 ; AVX-NEXT:    vmovq %rcx, %xmm1
67 ; AVX-NEXT:    vmovq %xmm0, %rcx
68 ; AVX-NEXT:    movq %rcx, %rax
69 ; AVX-NEXT:    mulq %rsi
70 ; AVX-NEXT:    subq %rdx, %rcx
71 ; AVX-NEXT:    shrq %rcx
72 ; AVX-NEXT:    addq %rdx, %rcx
73 ; AVX-NEXT:    vmovq %rcx, %xmm0
74 ; AVX-NEXT:    vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
75 ; AVX-NEXT:    vpsrlq $2, %xmm0, %xmm0
76 ; AVX-NEXT:    retq
77   %res = udiv <2 x i64> %a, <i64 7, i64 7>
78   ret <2 x i64> %res
81 define <4 x i32> @test_div7_4i32(<4 x i32> %a) nounwind {
82 ; SSE2-LABEL: test_div7_4i32:
83 ; SSE2:       # %bb.0:
84 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]
85 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
86 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
87 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
88 ; SSE2-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
89 ; SSE2-NEXT:    pmuludq %xmm1, %xmm3
90 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
91 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
92 ; SSE2-NEXT:    psubd %xmm2, %xmm0
93 ; SSE2-NEXT:    psrld $1, %xmm0
94 ; SSE2-NEXT:    paddd %xmm2, %xmm0
95 ; SSE2-NEXT:    psrld $2, %xmm0
96 ; SSE2-NEXT:    retq
98 ; SSE41-LABEL: test_div7_4i32:
99 ; SSE41:       # %bb.0:
100 ; SSE41-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
101 ; SSE41-NEXT:    movdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
102 ; SSE41-NEXT:    pmuludq %xmm2, %xmm1
103 ; SSE41-NEXT:    pmuludq %xmm0, %xmm2
104 ; SSE41-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
105 ; SSE41-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
106 ; SSE41-NEXT:    psubd %xmm2, %xmm0
107 ; SSE41-NEXT:    psrld $1, %xmm0
108 ; SSE41-NEXT:    paddd %xmm2, %xmm0
109 ; SSE41-NEXT:    psrld $2, %xmm0
110 ; SSE41-NEXT:    retq
112 ; AVX1-LABEL: test_div7_4i32:
113 ; AVX1:       # %bb.0:
114 ; AVX1-NEXT:    vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
115 ; AVX1-NEXT:    vmovdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
116 ; AVX1-NEXT:    vpmuludq %xmm2, %xmm1, %xmm1
117 ; AVX1-NEXT:    vpmuludq %xmm2, %xmm0, %xmm2
118 ; AVX1-NEXT:    vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
119 ; AVX1-NEXT:    vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
120 ; AVX1-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
121 ; AVX1-NEXT:    vpsrld $1, %xmm0, %xmm0
122 ; AVX1-NEXT:    vpaddd %xmm1, %xmm0, %xmm0
123 ; AVX1-NEXT:    vpsrld $2, %xmm0, %xmm0
124 ; AVX1-NEXT:    retq
126 ; AVX2-LABEL: test_div7_4i32:
127 ; AVX2:       # %bb.0:
128 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
129 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
130 ; AVX2-NEXT:    vpmuludq %xmm2, %xmm1, %xmm1
131 ; AVX2-NEXT:    vpmuludq %xmm2, %xmm0, %xmm2
132 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
133 ; AVX2-NEXT:    vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
134 ; AVX2-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
135 ; AVX2-NEXT:    vpsrld $1, %xmm0, %xmm0
136 ; AVX2-NEXT:    vpaddd %xmm1, %xmm0, %xmm0
137 ; AVX2-NEXT:    vpsrld $2, %xmm0, %xmm0
138 ; AVX2-NEXT:    retq
139   %res = udiv <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>
140   ret <4 x i32> %res
143 define <8 x i16> @test_div7_8i16(<8 x i16> %a) nounwind {
144 ; SSE-LABEL: test_div7_8i16:
145 ; SSE:       # %bb.0:
146 ; SSE-NEXT:    movdqa {{.*#+}} xmm1 = [9363,9363,9363,9363,9363,9363,9363,9363]
147 ; SSE-NEXT:    pmulhuw %xmm0, %xmm1
148 ; SSE-NEXT:    psubw %xmm1, %xmm0
149 ; SSE-NEXT:    psrlw $1, %xmm0
150 ; SSE-NEXT:    paddw %xmm1, %xmm0
151 ; SSE-NEXT:    psrlw $2, %xmm0
152 ; SSE-NEXT:    retq
154 ; AVX-LABEL: test_div7_8i16:
155 ; AVX:       # %bb.0:
156 ; AVX-NEXT:    vpmulhuw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
157 ; AVX-NEXT:    vpsubw %xmm1, %xmm0, %xmm0
158 ; AVX-NEXT:    vpsrlw $1, %xmm0, %xmm0
159 ; AVX-NEXT:    vpaddw %xmm1, %xmm0, %xmm0
160 ; AVX-NEXT:    vpsrlw $2, %xmm0, %xmm0
161 ; AVX-NEXT:    retq
162   %res = udiv <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
163   ret <8 x i16> %res
166 define <16 x i8> @test_div7_16i8(<16 x i8> %a) nounwind {
167 ; SSE2-LABEL: test_div7_16i8:
168 ; SSE2:       # %bb.0:
169 ; SSE2-NEXT:    pxor %xmm1, %xmm1
170 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
171 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
172 ; SSE2-NEXT:    movdqa {{.*#+}} xmm3 = [37,37,37,37,37,37,37,37]
173 ; SSE2-NEXT:    pmullw %xmm3, %xmm2
174 ; SSE2-NEXT:    psrlw $8, %xmm2
175 ; SSE2-NEXT:    movdqa %xmm0, %xmm4
176 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
177 ; SSE2-NEXT:    pmullw %xmm3, %xmm4
178 ; SSE2-NEXT:    psrlw $8, %xmm4
179 ; SSE2-NEXT:    packuswb %xmm2, %xmm4
180 ; SSE2-NEXT:    psubb %xmm4, %xmm0
181 ; SSE2-NEXT:    psrlw $1, %xmm0
182 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
183 ; SSE2-NEXT:    paddb %xmm4, %xmm0
184 ; SSE2-NEXT:    psrlw $2, %xmm0
185 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
186 ; SSE2-NEXT:    retq
188 ; SSE41-LABEL: test_div7_16i8:
189 ; SSE41:       # %bb.0:
190 ; SSE41-NEXT:    pxor %xmm1, %xmm1
191 ; SSE41-NEXT:    movdqa %xmm0, %xmm2
192 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
193 ; SSE41-NEXT:    movdqa {{.*#+}} xmm1 = [37,37,37,37,37,37,37,37]
194 ; SSE41-NEXT:    pmullw %xmm1, %xmm2
195 ; SSE41-NEXT:    psrlw $8, %xmm2
196 ; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
197 ; SSE41-NEXT:    pmullw %xmm1, %xmm3
198 ; SSE41-NEXT:    psrlw $8, %xmm3
199 ; SSE41-NEXT:    packuswb %xmm2, %xmm3
200 ; SSE41-NEXT:    psubb %xmm3, %xmm0
201 ; SSE41-NEXT:    psrlw $1, %xmm0
202 ; SSE41-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
203 ; SSE41-NEXT:    paddb %xmm3, %xmm0
204 ; SSE41-NEXT:    psrlw $2, %xmm0
205 ; SSE41-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
206 ; SSE41-NEXT:    retq
208 ; AVX1-LABEL: test_div7_16i8:
209 ; AVX1:       # %bb.0:
210 ; AVX1-NEXT:    vpxor %xmm1, %xmm1, %xmm1
211 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm1 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
212 ; AVX1-NEXT:    vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]
213 ; AVX1-NEXT:    vpmullw %xmm2, %xmm1, %xmm1
214 ; AVX1-NEXT:    vpsrlw $8, %xmm1, %xmm1
215 ; AVX1-NEXT:    vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
216 ; AVX1-NEXT:    vpmullw %xmm2, %xmm3, %xmm2
217 ; AVX1-NEXT:    vpsrlw $8, %xmm2, %xmm2
218 ; AVX1-NEXT:    vpackuswb %xmm1, %xmm2, %xmm1
219 ; AVX1-NEXT:    vpsubb %xmm1, %xmm0, %xmm0
220 ; AVX1-NEXT:    vpsrlw $1, %xmm0, %xmm0
221 ; AVX1-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
222 ; AVX1-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
223 ; AVX1-NEXT:    vpsrlw $2, %xmm0, %xmm0
224 ; AVX1-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
225 ; AVX1-NEXT:    retq
227 ; AVX2NOBW-LABEL: test_div7_16i8:
228 ; AVX2NOBW:       # %bb.0:
229 ; AVX2NOBW-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
230 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
231 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm1, %ymm1
232 ; AVX2NOBW-NEXT:    vextracti128 $1, %ymm1, %xmm2
233 ; AVX2NOBW-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
234 ; AVX2NOBW-NEXT:    vpsubb %xmm1, %xmm0, %xmm0
235 ; AVX2NOBW-NEXT:    vpsrlw $1, %xmm0, %xmm0
236 ; AVX2NOBW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
237 ; AVX2NOBW-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
238 ; AVX2NOBW-NEXT:    vpsrlw $2, %xmm0, %xmm0
239 ; AVX2NOBW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
240 ; AVX2NOBW-NEXT:    vzeroupper
241 ; AVX2NOBW-NEXT:    retq
243 ; AVX512BW-LABEL: test_div7_16i8:
244 ; AVX512BW:       # %bb.0:
245 ; AVX512BW-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
246 ; AVX512BW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
247 ; AVX512BW-NEXT:    vpsrlw $8, %ymm1, %ymm1
248 ; AVX512BW-NEXT:    vpmovwb %zmm1, %ymm1
249 ; AVX512BW-NEXT:    vpsubb %xmm1, %xmm0, %xmm0
250 ; AVX512BW-NEXT:    vpsrlw $1, %xmm0, %xmm0
251 ; AVX512BW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
252 ; AVX512BW-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
253 ; AVX512BW-NEXT:    vpsrlw $2, %xmm0, %xmm0
254 ; AVX512BW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
255 ; AVX512BW-NEXT:    vzeroupper
256 ; AVX512BW-NEXT:    retq
257   %res = udiv <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
258   ret <16 x i8> %res
262 ; sdiv by non-splat constant
265 define <16 x i8> @test_divconstant_16i8(<16 x i8> %a) nounwind {
266 ; SSE2-LABEL: test_divconstant_16i8:
267 ; SSE2:       # %bb.0:
268 ; SSE2-NEXT:    pxor %xmm1, %xmm1
269 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
270 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
271 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
272 ; SSE2-NEXT:    psrlw $8, %xmm2
273 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
274 ; SSE2-NEXT:    psrlw $8, %xmm2
275 ; SSE2-NEXT:    movdqa %xmm0, %xmm3
276 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
277 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
278 ; SSE2-NEXT:    psrlw $8, %xmm3
279 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
280 ; SSE2-NEXT:    psrlw $8, %xmm3
281 ; SSE2-NEXT:    packuswb %xmm2, %xmm3
282 ; SSE2-NEXT:    psubb %xmm3, %xmm0
283 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
284 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
285 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
286 ; SSE2-NEXT:    psrlw $8, %xmm2
287 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
288 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
289 ; SSE2-NEXT:    psrlw $8, %xmm0
290 ; SSE2-NEXT:    packuswb %xmm2, %xmm0
291 ; SSE2-NEXT:    paddb %xmm3, %xmm0
292 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
293 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
294 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
295 ; SSE2-NEXT:    psrlw $8, %xmm2
296 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
297 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
298 ; SSE2-NEXT:    psrlw $8, %xmm0
299 ; SSE2-NEXT:    packuswb %xmm2, %xmm0
300 ; SSE2-NEXT:    retq
302 ; SSE41-LABEL: test_divconstant_16i8:
303 ; SSE41:       # %bb.0:
304 ; SSE41-NEXT:    pxor %xmm1, %xmm1
305 ; SSE41-NEXT:    pxor %xmm2, %xmm2
306 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
307 ; SSE41-NEXT:    movdqa %xmm0, %xmm3
308 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
309 ; SSE41-NEXT:    psllw $7, %xmm3
310 ; SSE41-NEXT:    pblendw {{.*#+}} xmm3 = xmm3[0],xmm2[1,2,3,4,5,6,7]
311 ; SSE41-NEXT:    psrlw $8, %xmm3
312 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
313 ; SSE41-NEXT:    psrlw $8, %xmm3
314 ; SSE41-NEXT:    pxor %xmm2, %xmm2
315 ; SSE41-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
316 ; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
317 ; SSE41-NEXT:    psllw $7, %xmm4
318 ; SSE41-NEXT:    pblendw {{.*#+}} xmm4 = xmm2[0,1,2,3,4,5,6],xmm4[7]
319 ; SSE41-NEXT:    psrlw $8, %xmm4
320 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4
321 ; SSE41-NEXT:    psrlw $8, %xmm4
322 ; SSE41-NEXT:    packuswb %xmm3, %xmm4
323 ; SSE41-NEXT:    psubb %xmm4, %xmm0
324 ; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
325 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
326 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
327 ; SSE41-NEXT:    psrlw $8, %xmm0
328 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
329 ; SSE41-NEXT:    psrlw $8, %xmm2
330 ; SSE41-NEXT:    packuswb %xmm0, %xmm2
331 ; SSE41-NEXT:    paddb %xmm4, %xmm2
332 ; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm0 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
333 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
334 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
335 ; SSE41-NEXT:    psrlw $8, %xmm2
336 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
337 ; SSE41-NEXT:    psrlw $8, %xmm0
338 ; SSE41-NEXT:    packuswb %xmm2, %xmm0
339 ; SSE41-NEXT:    retq
341 ; AVX1-LABEL: test_divconstant_16i8:
342 ; AVX1:       # %bb.0:
343 ; AVX1-NEXT:    vpxor %xmm1, %xmm1, %xmm1
344 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm2 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
345 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm3 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
346 ; AVX1-NEXT:    vpsllw $7, %xmm3, %xmm3
347 ; AVX1-NEXT:    vpblendw {{.*#+}} xmm2 = xmm3[0],xmm2[1,2,3,4,5,6,7]
348 ; AVX1-NEXT:    vpsrlw $8, %xmm2, %xmm2
349 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
350 ; AVX1-NEXT:    vpsrlw $8, %xmm2, %xmm2
351 ; AVX1-NEXT:    vpunpcklbw {{.*#+}} xmm3 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
352 ; AVX1-NEXT:    vpmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
353 ; AVX1-NEXT:    vpsllw $7, %xmm4, %xmm4
354 ; AVX1-NEXT:    vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6],xmm4[7]
355 ; AVX1-NEXT:    vpsrlw $8, %xmm3, %xmm3
356 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3, %xmm3
357 ; AVX1-NEXT:    vpsrlw $8, %xmm3, %xmm3
358 ; AVX1-NEXT:    vpackuswb %xmm2, %xmm3, %xmm2
359 ; AVX1-NEXT:    vpsubb %xmm2, %xmm0, %xmm0
360 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm3 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
361 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3, %xmm3
362 ; AVX1-NEXT:    vpsrlw $8, %xmm3, %xmm3
363 ; AVX1-NEXT:    vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
364 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
365 ; AVX1-NEXT:    vpsrlw $8, %xmm0, %xmm0
366 ; AVX1-NEXT:    vpackuswb %xmm3, %xmm0, %xmm0
367 ; AVX1-NEXT:    vpaddb %xmm2, %xmm0, %xmm0
368 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm1 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
369 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
370 ; AVX1-NEXT:    vpsrlw $8, %xmm1, %xmm1
371 ; AVX1-NEXT:    vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
372 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
373 ; AVX1-NEXT:    vpsrlw $8, %xmm0, %xmm0
374 ; AVX1-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
375 ; AVX1-NEXT:    retq
377 ; AVX2NOBW-LABEL: test_divconstant_16i8:
378 ; AVX2NOBW:       # %bb.0:
379 ; AVX2NOBW-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
380 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
381 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm1, %ymm1
382 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
383 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm1, %ymm1
384 ; AVX2NOBW-NEXT:    vextracti128 $1, %ymm1, %xmm2
385 ; AVX2NOBW-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
386 ; AVX2NOBW-NEXT:    vpsubb %xmm1, %xmm0, %xmm0
387 ; AVX2NOBW-NEXT:    vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
388 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
389 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm0, %ymm0
390 ; AVX2NOBW-NEXT:    vextracti128 $1, %ymm0, %xmm2
391 ; AVX2NOBW-NEXT:    vpackuswb %xmm2, %xmm0, %xmm0
392 ; AVX2NOBW-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
393 ; AVX2NOBW-NEXT:    vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
394 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
395 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm0, %ymm0
396 ; AVX2NOBW-NEXT:    vextracti128 $1, %ymm0, %xmm1
397 ; AVX2NOBW-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
398 ; AVX2NOBW-NEXT:    vzeroupper
399 ; AVX2NOBW-NEXT:    retq
401 ; AVX512BW-LABEL: test_divconstant_16i8:
402 ; AVX512BW:       # %bb.0:
403 ; AVX512BW-NEXT:    vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0]
404 ; AVX512BW-NEXT:    vpmovzxbw {{.*#+}} ymm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
405 ; AVX512BW-NEXT:    vpsrlvw %zmm1, %zmm2, %zmm1
406 ; AVX512BW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
407 ; AVX512BW-NEXT:    vpsrlw $8, %ymm1, %ymm1
408 ; AVX512BW-NEXT:    vpmovwb %zmm1, %ymm1
409 ; AVX512BW-NEXT:    vpsubb %xmm1, %xmm0, %xmm0
410 ; AVX512BW-NEXT:    vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
411 ; AVX512BW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
412 ; AVX512BW-NEXT:    vpsrlw $8, %ymm0, %ymm0
413 ; AVX512BW-NEXT:    vpmovwb %zmm0, %ymm0
414 ; AVX512BW-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
415 ; AVX512BW-NEXT:    vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
416 ; AVX512BW-NEXT:    vmovdqa {{.*#+}} ymm1 = [2,0,1,3,3,3,2,2,2,2,3,3,3,1,1,2]
417 ; AVX512BW-NEXT:    vpsrlvw %zmm1, %zmm0, %zmm0
418 ; AVX512BW-NEXT:    vpmovwb %zmm0, %ymm0
419 ; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
420 ; AVX512BW-NEXT:    vzeroupper
421 ; AVX512BW-NEXT:    retq
422   %res = udiv <16 x i8> %a, <i8 7, i8 8, i8 9, i8 10,i8 11, i8 12, i8 13, i8 14, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9,i8 9, i8 7>
423   ret <16 x i8> %res
427 ; urem by 7
430 define <2 x i64> @test_rem7_2i64(<2 x i64> %a) nounwind {
431 ; SSE2-LABEL: test_rem7_2i64:
432 ; SSE2:       # %bb.0:
433 ; SSE2-NEXT:    movq %xmm0, %rcx
434 ; SSE2-NEXT:    movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
435 ; SSE2-NEXT:    movq %rcx, %rax
436 ; SSE2-NEXT:    mulq %rsi
437 ; SSE2-NEXT:    movq %rcx, %rax
438 ; SSE2-NEXT:    subq %rdx, %rax
439 ; SSE2-NEXT:    shrq %rax
440 ; SSE2-NEXT:    addq %rdx, %rax
441 ; SSE2-NEXT:    shrq $2, %rax
442 ; SSE2-NEXT:    leaq (,%rax,8), %rdx
443 ; SSE2-NEXT:    subq %rdx, %rax
444 ; SSE2-NEXT:    addq %rcx, %rax
445 ; SSE2-NEXT:    movq %rax, %xmm1
446 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
447 ; SSE2-NEXT:    movq %xmm0, %rcx
448 ; SSE2-NEXT:    movq %rcx, %rax
449 ; SSE2-NEXT:    mulq %rsi
450 ; SSE2-NEXT:    movq %rcx, %rax
451 ; SSE2-NEXT:    subq %rdx, %rax
452 ; SSE2-NEXT:    shrq %rax
453 ; SSE2-NEXT:    addq %rdx, %rax
454 ; SSE2-NEXT:    shrq $2, %rax
455 ; SSE2-NEXT:    leaq (,%rax,8), %rdx
456 ; SSE2-NEXT:    subq %rdx, %rax
457 ; SSE2-NEXT:    addq %rcx, %rax
458 ; SSE2-NEXT:    movq %rax, %xmm0
459 ; SSE2-NEXT:    punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
460 ; SSE2-NEXT:    movdqa %xmm1, %xmm0
461 ; SSE2-NEXT:    retq
463 ; SSE41-LABEL: test_rem7_2i64:
464 ; SSE41:       # %bb.0:
465 ; SSE41-NEXT:    pextrq $1, %xmm0, %rcx
466 ; SSE41-NEXT:    movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
467 ; SSE41-NEXT:    movq %rcx, %rax
468 ; SSE41-NEXT:    mulq %rsi
469 ; SSE41-NEXT:    movq %rcx, %rax
470 ; SSE41-NEXT:    subq %rdx, %rax
471 ; SSE41-NEXT:    shrq %rax
472 ; SSE41-NEXT:    addq %rdx, %rax
473 ; SSE41-NEXT:    shrq $2, %rax
474 ; SSE41-NEXT:    leaq (,%rax,8), %rdx
475 ; SSE41-NEXT:    subq %rdx, %rax
476 ; SSE41-NEXT:    addq %rcx, %rax
477 ; SSE41-NEXT:    movq %rax, %xmm1
478 ; SSE41-NEXT:    movq %xmm0, %rcx
479 ; SSE41-NEXT:    movq %rcx, %rax
480 ; SSE41-NEXT:    mulq %rsi
481 ; SSE41-NEXT:    movq %rcx, %rax
482 ; SSE41-NEXT:    subq %rdx, %rax
483 ; SSE41-NEXT:    shrq %rax
484 ; SSE41-NEXT:    addq %rdx, %rax
485 ; SSE41-NEXT:    shrq $2, %rax
486 ; SSE41-NEXT:    leaq (,%rax,8), %rdx
487 ; SSE41-NEXT:    subq %rdx, %rax
488 ; SSE41-NEXT:    addq %rcx, %rax
489 ; SSE41-NEXT:    movq %rax, %xmm0
490 ; SSE41-NEXT:    punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
491 ; SSE41-NEXT:    retq
493 ; AVX-LABEL: test_rem7_2i64:
494 ; AVX:       # %bb.0:
495 ; AVX-NEXT:    vpextrq $1, %xmm0, %rcx
496 ; AVX-NEXT:    movabsq $2635249153387078803, %rsi # imm = 0x2492492492492493
497 ; AVX-NEXT:    movq %rcx, %rax
498 ; AVX-NEXT:    mulq %rsi
499 ; AVX-NEXT:    movq %rcx, %rax
500 ; AVX-NEXT:    subq %rdx, %rax
501 ; AVX-NEXT:    shrq %rax
502 ; AVX-NEXT:    addq %rdx, %rax
503 ; AVX-NEXT:    shrq $2, %rax
504 ; AVX-NEXT:    leaq (,%rax,8), %rdx
505 ; AVX-NEXT:    subq %rdx, %rax
506 ; AVX-NEXT:    addq %rcx, %rax
507 ; AVX-NEXT:    vmovq %rax, %xmm1
508 ; AVX-NEXT:    vmovq %xmm0, %rcx
509 ; AVX-NEXT:    movq %rcx, %rax
510 ; AVX-NEXT:    mulq %rsi
511 ; AVX-NEXT:    movq %rcx, %rax
512 ; AVX-NEXT:    subq %rdx, %rax
513 ; AVX-NEXT:    shrq %rax
514 ; AVX-NEXT:    addq %rdx, %rax
515 ; AVX-NEXT:    shrq $2, %rax
516 ; AVX-NEXT:    leaq (,%rax,8), %rdx
517 ; AVX-NEXT:    subq %rdx, %rax
518 ; AVX-NEXT:    addq %rcx, %rax
519 ; AVX-NEXT:    vmovq %rax, %xmm0
520 ; AVX-NEXT:    vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
521 ; AVX-NEXT:    retq
522   %res = urem <2 x i64> %a, <i64 7, i64 7>
523   ret <2 x i64> %res
526 define <4 x i32> @test_rem7_4i32(<4 x i32> %a) nounwind {
527 ; SSE2-LABEL: test_rem7_4i32:
528 ; SSE2:       # %bb.0:
529 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]
530 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
531 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
532 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
533 ; SSE2-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
534 ; SSE2-NEXT:    pmuludq %xmm1, %xmm3
535 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
536 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
537 ; SSE2-NEXT:    movdqa %xmm0, %xmm1
538 ; SSE2-NEXT:    psubd %xmm2, %xmm1
539 ; SSE2-NEXT:    psrld $1, %xmm1
540 ; SSE2-NEXT:    paddd %xmm2, %xmm1
541 ; SSE2-NEXT:    psrld $2, %xmm1
542 ; SSE2-NEXT:    movdqa %xmm1, %xmm2
543 ; SSE2-NEXT:    pslld $3, %xmm2
544 ; SSE2-NEXT:    psubd %xmm2, %xmm1
545 ; SSE2-NEXT:    paddd %xmm0, %xmm1
546 ; SSE2-NEXT:    movdqa %xmm1, %xmm0
547 ; SSE2-NEXT:    retq
549 ; SSE41-LABEL: test_rem7_4i32:
550 ; SSE41:       # %bb.0:
551 ; SSE41-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
552 ; SSE41-NEXT:    movdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
553 ; SSE41-NEXT:    pmuludq %xmm2, %xmm1
554 ; SSE41-NEXT:    pmuludq %xmm0, %xmm2
555 ; SSE41-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
556 ; SSE41-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
557 ; SSE41-NEXT:    movdqa %xmm0, %xmm1
558 ; SSE41-NEXT:    psubd %xmm2, %xmm1
559 ; SSE41-NEXT:    psrld $1, %xmm1
560 ; SSE41-NEXT:    paddd %xmm2, %xmm1
561 ; SSE41-NEXT:    psrld $2, %xmm1
562 ; SSE41-NEXT:    pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
563 ; SSE41-NEXT:    psubd %xmm1, %xmm0
564 ; SSE41-NEXT:    retq
566 ; AVX1-LABEL: test_rem7_4i32:
567 ; AVX1:       # %bb.0:
568 ; AVX1-NEXT:    vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
569 ; AVX1-NEXT:    vmovdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
570 ; AVX1-NEXT:    vpmuludq %xmm2, %xmm1, %xmm1
571 ; AVX1-NEXT:    vpmuludq %xmm2, %xmm0, %xmm2
572 ; AVX1-NEXT:    vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
573 ; AVX1-NEXT:    vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
574 ; AVX1-NEXT:    vpsubd %xmm1, %xmm0, %xmm2
575 ; AVX1-NEXT:    vpsrld $1, %xmm2, %xmm2
576 ; AVX1-NEXT:    vpaddd %xmm1, %xmm2, %xmm1
577 ; AVX1-NEXT:    vpsrld $2, %xmm1, %xmm1
578 ; AVX1-NEXT:    vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
579 ; AVX1-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
580 ; AVX1-NEXT:    retq
582 ; AVX2-LABEL: test_rem7_4i32:
583 ; AVX2:       # %bb.0:
584 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
585 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
586 ; AVX2-NEXT:    vpmuludq %xmm2, %xmm1, %xmm1
587 ; AVX2-NEXT:    vpmuludq %xmm2, %xmm0, %xmm2
588 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
589 ; AVX2-NEXT:    vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
590 ; AVX2-NEXT:    vpsubd %xmm1, %xmm0, %xmm2
591 ; AVX2-NEXT:    vpsrld $1, %xmm2, %xmm2
592 ; AVX2-NEXT:    vpaddd %xmm1, %xmm2, %xmm1
593 ; AVX2-NEXT:    vpsrld $2, %xmm1, %xmm1
594 ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [7,7,7,7]
595 ; AVX2-NEXT:    vpmulld %xmm2, %xmm1, %xmm1
596 ; AVX2-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
597 ; AVX2-NEXT:    retq
598   %res = urem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>
599   ret <4 x i32> %res
602 define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {
603 ; SSE-LABEL: test_rem7_8i16:
604 ; SSE:       # %bb.0:
605 ; SSE-NEXT:    movdqa {{.*#+}} xmm1 = [9363,9363,9363,9363,9363,9363,9363,9363]
606 ; SSE-NEXT:    pmulhuw %xmm0, %xmm1
607 ; SSE-NEXT:    movdqa %xmm0, %xmm2
608 ; SSE-NEXT:    psubw %xmm1, %xmm2
609 ; SSE-NEXT:    psrlw $1, %xmm2
610 ; SSE-NEXT:    paddw %xmm1, %xmm2
611 ; SSE-NEXT:    psrlw $2, %xmm2
612 ; SSE-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
613 ; SSE-NEXT:    psubw %xmm2, %xmm0
614 ; SSE-NEXT:    retq
616 ; AVX-LABEL: test_rem7_8i16:
617 ; AVX:       # %bb.0:
618 ; AVX-NEXT:    vpmulhuw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
619 ; AVX-NEXT:    vpsubw %xmm1, %xmm0, %xmm2
620 ; AVX-NEXT:    vpsrlw $1, %xmm2, %xmm2
621 ; AVX-NEXT:    vpaddw %xmm1, %xmm2, %xmm1
622 ; AVX-NEXT:    vpsrlw $2, %xmm1, %xmm1
623 ; AVX-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
624 ; AVX-NEXT:    vpsubw %xmm1, %xmm0, %xmm0
625 ; AVX-NEXT:    retq
626   %res = urem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
627   ret <8 x i16> %res
630 define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {
631 ; SSE2-LABEL: test_rem7_16i8:
632 ; SSE2:       # %bb.0:
633 ; SSE2-NEXT:    pxor %xmm1, %xmm1
634 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
635 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
636 ; SSE2-NEXT:    movdqa {{.*#+}} xmm3 = [37,37,37,37,37,37,37,37]
637 ; SSE2-NEXT:    pmullw %xmm3, %xmm2
638 ; SSE2-NEXT:    psrlw $8, %xmm2
639 ; SSE2-NEXT:    movdqa %xmm0, %xmm4
640 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
641 ; SSE2-NEXT:    pmullw %xmm3, %xmm4
642 ; SSE2-NEXT:    psrlw $8, %xmm4
643 ; SSE2-NEXT:    packuswb %xmm2, %xmm4
644 ; SSE2-NEXT:    movdqa %xmm0, %xmm1
645 ; SSE2-NEXT:    psubb %xmm4, %xmm1
646 ; SSE2-NEXT:    psrlw $1, %xmm1
647 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
648 ; SSE2-NEXT:    paddb %xmm4, %xmm1
649 ; SSE2-NEXT:    psrlw $2, %xmm1
650 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
651 ; SSE2-NEXT:    movdqa %xmm1, %xmm2
652 ; SSE2-NEXT:    psllw $3, %xmm2
653 ; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
654 ; SSE2-NEXT:    psubb %xmm2, %xmm1
655 ; SSE2-NEXT:    paddb %xmm0, %xmm1
656 ; SSE2-NEXT:    movdqa %xmm1, %xmm0
657 ; SSE2-NEXT:    retq
659 ; SSE41-LABEL: test_rem7_16i8:
660 ; SSE41:       # %bb.0:
661 ; SSE41-NEXT:    pxor %xmm1, %xmm1
662 ; SSE41-NEXT:    movdqa %xmm0, %xmm2
663 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
664 ; SSE41-NEXT:    movdqa {{.*#+}} xmm1 = [37,37,37,37,37,37,37,37]
665 ; SSE41-NEXT:    pmullw %xmm1, %xmm2
666 ; SSE41-NEXT:    psrlw $8, %xmm2
667 ; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
668 ; SSE41-NEXT:    pmullw %xmm1, %xmm3
669 ; SSE41-NEXT:    psrlw $8, %xmm3
670 ; SSE41-NEXT:    packuswb %xmm2, %xmm3
671 ; SSE41-NEXT:    movdqa %xmm0, %xmm1
672 ; SSE41-NEXT:    psubb %xmm3, %xmm1
673 ; SSE41-NEXT:    psrlw $1, %xmm1
674 ; SSE41-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
675 ; SSE41-NEXT:    paddb %xmm3, %xmm1
676 ; SSE41-NEXT:    psrlw $2, %xmm1
677 ; SSE41-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
678 ; SSE41-NEXT:    movdqa %xmm1, %xmm2
679 ; SSE41-NEXT:    psllw $3, %xmm2
680 ; SSE41-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
681 ; SSE41-NEXT:    psubb %xmm2, %xmm1
682 ; SSE41-NEXT:    paddb %xmm0, %xmm1
683 ; SSE41-NEXT:    movdqa %xmm1, %xmm0
684 ; SSE41-NEXT:    retq
686 ; AVX1-LABEL: test_rem7_16i8:
687 ; AVX1:       # %bb.0:
688 ; AVX1-NEXT:    vpxor %xmm1, %xmm1, %xmm1
689 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm1 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
690 ; AVX1-NEXT:    vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]
691 ; AVX1-NEXT:    vpmullw %xmm2, %xmm1, %xmm1
692 ; AVX1-NEXT:    vpsrlw $8, %xmm1, %xmm1
693 ; AVX1-NEXT:    vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
694 ; AVX1-NEXT:    vpmullw %xmm2, %xmm3, %xmm2
695 ; AVX1-NEXT:    vpsrlw $8, %xmm2, %xmm2
696 ; AVX1-NEXT:    vpackuswb %xmm1, %xmm2, %xmm1
697 ; AVX1-NEXT:    vpsubb %xmm1, %xmm0, %xmm2
698 ; AVX1-NEXT:    vpsrlw $1, %xmm2, %xmm2
699 ; AVX1-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
700 ; AVX1-NEXT:    vpaddb %xmm1, %xmm2, %xmm1
701 ; AVX1-NEXT:    vpsrlw $2, %xmm1, %xmm1
702 ; AVX1-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
703 ; AVX1-NEXT:    vpsllw $3, %xmm1, %xmm2
704 ; AVX1-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
705 ; AVX1-NEXT:    vpsubb %xmm2, %xmm1, %xmm1
706 ; AVX1-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
707 ; AVX1-NEXT:    retq
709 ; AVX2NOBW-LABEL: test_rem7_16i8:
710 ; AVX2NOBW:       # %bb.0:
711 ; AVX2NOBW-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
712 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
713 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm1, %ymm1
714 ; AVX2NOBW-NEXT:    vextracti128 $1, %ymm1, %xmm2
715 ; AVX2NOBW-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
716 ; AVX2NOBW-NEXT:    vpsubb %xmm1, %xmm0, %xmm2
717 ; AVX2NOBW-NEXT:    vpsrlw $1, %xmm2, %xmm2
718 ; AVX2NOBW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
719 ; AVX2NOBW-NEXT:    vpaddb %xmm1, %xmm2, %xmm1
720 ; AVX2NOBW-NEXT:    vpsrlw $2, %xmm1, %xmm1
721 ; AVX2NOBW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
722 ; AVX2NOBW-NEXT:    vpsllw $3, %xmm1, %xmm2
723 ; AVX2NOBW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
724 ; AVX2NOBW-NEXT:    vpsubb %xmm2, %xmm1, %xmm1
725 ; AVX2NOBW-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
726 ; AVX2NOBW-NEXT:    vzeroupper
727 ; AVX2NOBW-NEXT:    retq
729 ; AVX512BW-LABEL: test_rem7_16i8:
730 ; AVX512BW:       # %bb.0:
731 ; AVX512BW-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
732 ; AVX512BW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
733 ; AVX512BW-NEXT:    vpsrlw $8, %ymm1, %ymm1
734 ; AVX512BW-NEXT:    vpmovwb %zmm1, %ymm1
735 ; AVX512BW-NEXT:    vpsubb %xmm1, %xmm0, %xmm2
736 ; AVX512BW-NEXT:    vpsrlw $1, %xmm2, %xmm2
737 ; AVX512BW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
738 ; AVX512BW-NEXT:    vpaddb %xmm1, %xmm2, %xmm1
739 ; AVX512BW-NEXT:    vpsrlw $2, %xmm1, %xmm1
740 ; AVX512BW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
741 ; AVX512BW-NEXT:    vpsllw $3, %xmm1, %xmm2
742 ; AVX512BW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
743 ; AVX512BW-NEXT:    vpsubb %xmm2, %xmm1, %xmm1
744 ; AVX512BW-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
745 ; AVX512BW-NEXT:    vzeroupper
746 ; AVX512BW-NEXT:    retq
747   %res = urem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
748   ret <16 x i8> %res
752 ; srem by non-splat constant
755 define <16 x i8> @test_remconstant_16i8(<16 x i8> %a) nounwind {
756 ; SSE2-LABEL: test_remconstant_16i8:
757 ; SSE2:       # %bb.0:
758 ; SSE2-NEXT:    pxor %xmm1, %xmm1
759 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
760 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
761 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
762 ; SSE2-NEXT:    psrlw $8, %xmm2
763 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
764 ; SSE2-NEXT:    psrlw $8, %xmm2
765 ; SSE2-NEXT:    movdqa %xmm0, %xmm3
766 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
767 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
768 ; SSE2-NEXT:    psrlw $8, %xmm3
769 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
770 ; SSE2-NEXT:    psrlw $8, %xmm3
771 ; SSE2-NEXT:    packuswb %xmm2, %xmm3
772 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
773 ; SSE2-NEXT:    psubb %xmm3, %xmm2
774 ; SSE2-NEXT:    movdqa %xmm2, %xmm4
775 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm4 = xmm4[8],xmm1[8],xmm4[9],xmm1[9],xmm4[10],xmm1[10],xmm4[11],xmm1[11],xmm4[12],xmm1[12],xmm4[13],xmm1[13],xmm4[14],xmm1[14],xmm4[15],xmm1[15]
776 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4
777 ; SSE2-NEXT:    psrlw $8, %xmm4
778 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
779 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
780 ; SSE2-NEXT:    psrlw $8, %xmm2
781 ; SSE2-NEXT:    packuswb %xmm4, %xmm2
782 ; SSE2-NEXT:    paddb %xmm3, %xmm2
783 ; SSE2-NEXT:    movdqa %xmm2, %xmm3
784 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
785 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
786 ; SSE2-NEXT:    psrlw $8, %xmm3
787 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
788 ; SSE2-NEXT:    movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
789 ; SSE2-NEXT:    pand %xmm4, %xmm3
790 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
791 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
792 ; SSE2-NEXT:    psrlw $8, %xmm2
793 ; SSE2-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
794 ; SSE2-NEXT:    pand %xmm4, %xmm2
795 ; SSE2-NEXT:    packuswb %xmm3, %xmm2
796 ; SSE2-NEXT:    psubb %xmm2, %xmm0
797 ; SSE2-NEXT:    retq
799 ; SSE41-LABEL: test_remconstant_16i8:
800 ; SSE41:       # %bb.0:
801 ; SSE41-NEXT:    pxor %xmm1, %xmm1
802 ; SSE41-NEXT:    pxor %xmm2, %xmm2
803 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
804 ; SSE41-NEXT:    movdqa %xmm0, %xmm3
805 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
806 ; SSE41-NEXT:    psllw $7, %xmm3
807 ; SSE41-NEXT:    pblendw {{.*#+}} xmm3 = xmm3[0],xmm2[1,2,3,4,5,6,7]
808 ; SSE41-NEXT:    psrlw $8, %xmm3
809 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
810 ; SSE41-NEXT:    psrlw $8, %xmm3
811 ; SSE41-NEXT:    pxor %xmm2, %xmm2
812 ; SSE41-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
813 ; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
814 ; SSE41-NEXT:    psllw $7, %xmm4
815 ; SSE41-NEXT:    pblendw {{.*#+}} xmm4 = xmm2[0,1,2,3,4,5,6],xmm4[7]
816 ; SSE41-NEXT:    psrlw $8, %xmm4
817 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4
818 ; SSE41-NEXT:    psrlw $8, %xmm4
819 ; SSE41-NEXT:    packuswb %xmm3, %xmm4
820 ; SSE41-NEXT:    movdqa %xmm0, %xmm3
821 ; SSE41-NEXT:    psubb %xmm4, %xmm3
822 ; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
823 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
824 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
825 ; SSE41-NEXT:    psrlw $8, %xmm3
826 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
827 ; SSE41-NEXT:    psrlw $8, %xmm2
828 ; SSE41-NEXT:    packuswb %xmm3, %xmm2
829 ; SSE41-NEXT:    paddb %xmm4, %xmm2
830 ; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
831 ; SSE41-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
832 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
833 ; SSE41-NEXT:    psrlw $8, %xmm2
834 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2
835 ; SSE41-NEXT:    movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
836 ; SSE41-NEXT:    pand %xmm1, %xmm2
837 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
838 ; SSE41-NEXT:    psrlw $8, %xmm3
839 ; SSE41-NEXT:    pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3
840 ; SSE41-NEXT:    pand %xmm1, %xmm3
841 ; SSE41-NEXT:    packuswb %xmm2, %xmm3
842 ; SSE41-NEXT:    psubb %xmm3, %xmm0
843 ; SSE41-NEXT:    retq
845 ; AVX1-LABEL: test_remconstant_16i8:
846 ; AVX1:       # %bb.0:
847 ; AVX1-NEXT:    vpxor %xmm1, %xmm1, %xmm1
848 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm2 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
849 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm3 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
850 ; AVX1-NEXT:    vpsllw $7, %xmm3, %xmm3
851 ; AVX1-NEXT:    vpblendw {{.*#+}} xmm2 = xmm3[0],xmm2[1,2,3,4,5,6,7]
852 ; AVX1-NEXT:    vpsrlw $8, %xmm2, %xmm2
853 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
854 ; AVX1-NEXT:    vpsrlw $8, %xmm2, %xmm2
855 ; AVX1-NEXT:    vpunpcklbw {{.*#+}} xmm3 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
856 ; AVX1-NEXT:    vpmovzxbw {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
857 ; AVX1-NEXT:    vpsllw $7, %xmm4, %xmm4
858 ; AVX1-NEXT:    vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6],xmm4[7]
859 ; AVX1-NEXT:    vpsrlw $8, %xmm3, %xmm3
860 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3, %xmm3
861 ; AVX1-NEXT:    vpsrlw $8, %xmm3, %xmm3
862 ; AVX1-NEXT:    vpackuswb %xmm2, %xmm3, %xmm2
863 ; AVX1-NEXT:    vpsubb %xmm2, %xmm0, %xmm3
864 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm4 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
865 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm4
866 ; AVX1-NEXT:    vpsrlw $8, %xmm4, %xmm4
867 ; AVX1-NEXT:    vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
868 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm3, %xmm3
869 ; AVX1-NEXT:    vpsrlw $8, %xmm3, %xmm3
870 ; AVX1-NEXT:    vpackuswb %xmm4, %xmm3, %xmm3
871 ; AVX1-NEXT:    vpaddb %xmm2, %xmm3, %xmm2
872 ; AVX1-NEXT:    vpunpckhbw {{.*#+}} xmm1 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
873 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
874 ; AVX1-NEXT:    vpsrlw $8, %xmm1, %xmm1
875 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
876 ; AVX1-NEXT:    vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
877 ; AVX1-NEXT:    vpand %xmm3, %xmm1, %xmm1
878 ; AVX1-NEXT:    vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
879 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
880 ; AVX1-NEXT:    vpsrlw $8, %xmm2, %xmm2
881 ; AVX1-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm2
882 ; AVX1-NEXT:    vpand %xmm3, %xmm2, %xmm2
883 ; AVX1-NEXT:    vpackuswb %xmm1, %xmm2, %xmm1
884 ; AVX1-NEXT:    vpsubb %xmm1, %xmm0, %xmm0
885 ; AVX1-NEXT:    retq
887 ; AVX2NOBW-LABEL: test_remconstant_16i8:
888 ; AVX2NOBW:       # %bb.0:
889 ; AVX2NOBW-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
890 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
891 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm1, %ymm1
892 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
893 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm1, %ymm1
894 ; AVX2NOBW-NEXT:    vextracti128 $1, %ymm1, %xmm2
895 ; AVX2NOBW-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
896 ; AVX2NOBW-NEXT:    vpsubb %xmm1, %xmm0, %xmm2
897 ; AVX2NOBW-NEXT:    vpmovzxbw {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero,xmm2[8],zero,xmm2[9],zero,xmm2[10],zero,xmm2[11],zero,xmm2[12],zero,xmm2[13],zero,xmm2[14],zero,xmm2[15],zero
898 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm2, %ymm2
899 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm2, %ymm2
900 ; AVX2NOBW-NEXT:    vextracti128 $1, %ymm2, %xmm3
901 ; AVX2NOBW-NEXT:    vpackuswb %xmm3, %xmm2, %xmm2
902 ; AVX2NOBW-NEXT:    vpaddb %xmm1, %xmm2, %xmm1
903 ; AVX2NOBW-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
904 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
905 ; AVX2NOBW-NEXT:    vpsrlw $8, %ymm1, %ymm1
906 ; AVX2NOBW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
907 ; AVX2NOBW-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
908 ; AVX2NOBW-NEXT:    vextracti128 $1, %ymm1, %xmm2
909 ; AVX2NOBW-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
910 ; AVX2NOBW-NEXT:    vpsubb %xmm1, %xmm0, %xmm0
911 ; AVX2NOBW-NEXT:    vzeroupper
912 ; AVX2NOBW-NEXT:    retq
914 ; AVX512BW-LABEL: test_remconstant_16i8:
915 ; AVX512BW:       # %bb.0:
916 ; AVX512BW-NEXT:    vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0]
917 ; AVX512BW-NEXT:    vpmovzxbw {{.*#+}} ymm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
918 ; AVX512BW-NEXT:    vpsrlvw %zmm1, %zmm2, %zmm1
919 ; AVX512BW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
920 ; AVX512BW-NEXT:    vpsrlw $8, %ymm1, %ymm1
921 ; AVX512BW-NEXT:    vpmovwb %zmm1, %ymm1
922 ; AVX512BW-NEXT:    vpsubb %xmm1, %xmm0, %xmm2
923 ; AVX512BW-NEXT:    vpmovzxbw {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero,xmm2[8],zero,xmm2[9],zero,xmm2[10],zero,xmm2[11],zero,xmm2[12],zero,xmm2[13],zero,xmm2[14],zero,xmm2[15],zero
924 ; AVX512BW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm2, %ymm2
925 ; AVX512BW-NEXT:    vpsrlw $8, %ymm2, %ymm2
926 ; AVX512BW-NEXT:    vpmovwb %zmm2, %ymm2
927 ; AVX512BW-NEXT:    vpaddb %xmm1, %xmm2, %xmm1
928 ; AVX512BW-NEXT:    vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
929 ; AVX512BW-NEXT:    vmovdqa {{.*#+}} ymm2 = [2,0,1,3,3,3,2,2,2,2,3,3,3,1,1,2]
930 ; AVX512BW-NEXT:    vpsrlvw %zmm2, %zmm1, %zmm1
931 ; AVX512BW-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
932 ; AVX512BW-NEXT:    vpmovwb %zmm1, %ymm1
933 ; AVX512BW-NEXT:    vpsubb %xmm1, %xmm0, %xmm0
934 ; AVX512BW-NEXT:    vzeroupper
935 ; AVX512BW-NEXT:    retq
936   %res = urem <16 x i8> %a, <i8 7, i8 8, i8 9, i8 10,i8 11, i8 12, i8 13, i8 14, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9,i8 9, i8 7>
937   ret <16 x i8> %res