[llvm-objdump] - Remove one overload of reportError. NFCI.
[llvm-complete.git] / test / CodeGen / X86 / div-rem-pair-recomposition-signed.ll
blob6ad13d04f888004e4bb53150f60015762288abe6
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -mtriple=i686-unknown-unknown   -mattr=+sse,+sse2 | FileCheck %s --check-prefixes=ALL,X86
3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse,+sse2 | FileCheck %s --check-prefixes=ALL,X64
5 ; If the target does not have a single div/rem operation,
6 ; -div-rem-pairs pass will decompose the remainder calculation as:
7 ;   X % Y --> X - ((X / Y) * Y)
8 ; But if the target does have a single div/rem operation,
9 ; the opposite transform is likely beneficial.
11 define i8 @scalar_i8(i8 %x, i8 %y, i8* %divdst) nounwind {
12 ; X86-LABEL: scalar_i8:
13 ; X86:       # %bb.0:
14 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
15 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %cl
16 ; X86-NEXT:    movl %ecx, %eax
17 ; X86-NEXT:    cbtw
18 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %ch
19 ; X86-NEXT:    idivb %ch
20 ; X86-NEXT:    movb %al, (%edx)
21 ; X86-NEXT:    mulb %ch
22 ; X86-NEXT:    subb %al, %cl
23 ; X86-NEXT:    movl %ecx, %eax
24 ; X86-NEXT:    retl
26 ; X64-LABEL: scalar_i8:
27 ; X64:       # %bb.0:
28 ; X64-NEXT:    movl %edi, %eax
29 ; X64-NEXT:    cbtw
30 ; X64-NEXT:    idivb %sil
31 ; X64-NEXT:    movb %al, (%rdx)
32 ; X64-NEXT:    mulb %sil
33 ; X64-NEXT:    subb %al, %dil
34 ; X64-NEXT:    movl %edi, %eax
35 ; X64-NEXT:    retq
36   %div = sdiv i8 %x, %y
37   store i8 %div, i8* %divdst, align 4
38   %t1 = mul i8 %div, %y
39   %t2 = sub i8 %x, %t1
40   ret i8 %t2
43 define i16 @scalar_i16(i16 %x, i16 %y, i16* %divdst) nounwind {
44 ; X86-LABEL: scalar_i16:
45 ; X86:       # %bb.0:
46 ; X86-NEXT:    pushl %edi
47 ; X86-NEXT:    pushl %esi
48 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
49 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
50 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
51 ; X86-NEXT:    movl %ecx, %eax
52 ; X86-NEXT:    cwtd
53 ; X86-NEXT:    idivw %si
54 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
55 ; X86-NEXT:    movw %ax, (%edi)
56 ; X86-NEXT:    imull %eax, %esi
57 ; X86-NEXT:    subl %esi, %ecx
58 ; X86-NEXT:    movl %ecx, %eax
59 ; X86-NEXT:    popl %esi
60 ; X86-NEXT:    popl %edi
61 ; X86-NEXT:    retl
63 ; X64-LABEL: scalar_i16:
64 ; X64:       # %bb.0:
65 ; X64-NEXT:    movq %rdx, %rcx
66 ; X64-NEXT:    movl %edi, %eax
67 ; X64-NEXT:    cwtd
68 ; X64-NEXT:    idivw %si
69 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
70 ; X64-NEXT:    movw %ax, (%rcx)
71 ; X64-NEXT:    imull %eax, %esi
72 ; X64-NEXT:    subl %esi, %edi
73 ; X64-NEXT:    movl %edi, %eax
74 ; X64-NEXT:    retq
75   %div = sdiv i16 %x, %y
76   store i16 %div, i16* %divdst, align 4
77   %t1 = mul i16 %div, %y
78   %t2 = sub i16 %x, %t1
79   ret i16 %t2
82 define i32 @scalar_i32(i32 %x, i32 %y, i32* %divdst) nounwind {
83 ; X86-LABEL: scalar_i32:
84 ; X86:       # %bb.0:
85 ; X86-NEXT:    pushl %edi
86 ; X86-NEXT:    pushl %esi
87 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
88 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
89 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
90 ; X86-NEXT:    movl %ecx, %eax
91 ; X86-NEXT:    cltd
92 ; X86-NEXT:    idivl %edi
93 ; X86-NEXT:    movl %eax, (%esi)
94 ; X86-NEXT:    imull %edi, %eax
95 ; X86-NEXT:    subl %eax, %ecx
96 ; X86-NEXT:    movl %ecx, %eax
97 ; X86-NEXT:    popl %esi
98 ; X86-NEXT:    popl %edi
99 ; X86-NEXT:    retl
101 ; X64-LABEL: scalar_i32:
102 ; X64:       # %bb.0:
103 ; X64-NEXT:    movq %rdx, %rcx
104 ; X64-NEXT:    movl %edi, %eax
105 ; X64-NEXT:    cltd
106 ; X64-NEXT:    idivl %esi
107 ; X64-NEXT:    movl %eax, (%rcx)
108 ; X64-NEXT:    imull %esi, %eax
109 ; X64-NEXT:    subl %eax, %edi
110 ; X64-NEXT:    movl %edi, %eax
111 ; X64-NEXT:    retq
112   %div = sdiv i32 %x, %y
113   store i32 %div, i32* %divdst, align 4
114   %t1 = mul i32 %div, %y
115   %t2 = sub i32 %x, %t1
116   ret i32 %t2
119 define i64 @scalar_i64(i64 %x, i64 %y, i64* %divdst) nounwind {
120 ; X86-LABEL: scalar_i64:
121 ; X86:       # %bb.0:
122 ; X86-NEXT:    pushl %ebp
123 ; X86-NEXT:    pushl %ebx
124 ; X86-NEXT:    pushl %edi
125 ; X86-NEXT:    pushl %esi
126 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
127 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
128 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
129 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
130 ; X86-NEXT:    pushl %ebx
131 ; X86-NEXT:    pushl %ebp
132 ; X86-NEXT:    pushl %edi
133 ; X86-NEXT:    pushl %esi
134 ; X86-NEXT:    calll __divdi3
135 ; X86-NEXT:    addl $16, %esp
136 ; X86-NEXT:    movl %edx, %ecx
137 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
138 ; X86-NEXT:    movl %ecx, 4(%edx)
139 ; X86-NEXT:    movl %eax, (%edx)
140 ; X86-NEXT:    imull %eax, %ebx
141 ; X86-NEXT:    mull %ebp
142 ; X86-NEXT:    addl %ebx, %edx
143 ; X86-NEXT:    imull %ebp, %ecx
144 ; X86-NEXT:    addl %edx, %ecx
145 ; X86-NEXT:    subl %eax, %esi
146 ; X86-NEXT:    sbbl %ecx, %edi
147 ; X86-NEXT:    movl %esi, %eax
148 ; X86-NEXT:    movl %edi, %edx
149 ; X86-NEXT:    popl %esi
150 ; X86-NEXT:    popl %edi
151 ; X86-NEXT:    popl %ebx
152 ; X86-NEXT:    popl %ebp
153 ; X86-NEXT:    retl
155 ; X64-LABEL: scalar_i64:
156 ; X64:       # %bb.0:
157 ; X64-NEXT:    movq %rdx, %rcx
158 ; X64-NEXT:    movq %rdi, %rax
159 ; X64-NEXT:    cqto
160 ; X64-NEXT:    idivq %rsi
161 ; X64-NEXT:    movq %rax, (%rcx)
162 ; X64-NEXT:    imulq %rsi, %rax
163 ; X64-NEXT:    subq %rax, %rdi
164 ; X64-NEXT:    movq %rdi, %rax
165 ; X64-NEXT:    retq
166   %div = sdiv i64 %x, %y
167   store i64 %div, i64* %divdst, align 4
168   %t1 = mul i64 %div, %y
169   %t2 = sub i64 %x, %t1
170   ret i64 %t2
173 define <16 x i8> @vector_i128_i8(<16 x i8> %x, <16 x i8> %y, <16 x i8>* %divdst) nounwind {
174 ; X86-LABEL: vector_i128_i8:
175 ; X86:       # %bb.0:
176 ; X86-NEXT:    pushl %ebp
177 ; X86-NEXT:    movl %esp, %ebp
178 ; X86-NEXT:    pushl %ebx
179 ; X86-NEXT:    pushl %edi
180 ; X86-NEXT:    pushl %esi
181 ; X86-NEXT:    andl $-16, %esp
182 ; X86-NEXT:    subl $48, %esp
183 ; X86-NEXT:    movdqa %xmm0, (%esp)
184 ; X86-NEXT:    movdqa %xmm1, {{[0-9]+}}(%esp)
185 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
186 ; X86-NEXT:    cbtw
187 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
188 ; X86-NEXT:    movzbl %al, %eax
189 ; X86-NEXT:    movd %eax, %xmm2
190 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
191 ; X86-NEXT:    cbtw
192 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
193 ; X86-NEXT:    movzbl %al, %eax
194 ; X86-NEXT:    movd %eax, %xmm3
195 ; X86-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
196 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
197 ; X86-NEXT:    cbtw
198 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
199 ; X86-NEXT:    movzbl %al, %eax
200 ; X86-NEXT:    movd %eax, %xmm4
201 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
202 ; X86-NEXT:    cbtw
203 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
204 ; X86-NEXT:    movzbl %al, %eax
205 ; X86-NEXT:    movd %eax, %xmm2
206 ; X86-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3],xmm2[4],xmm4[4],xmm2[5],xmm4[5],xmm2[6],xmm4[6],xmm2[7],xmm4[7]
207 ; X86-NEXT:    punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]
208 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
209 ; X86-NEXT:    cbtw
210 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
211 ; X86-NEXT:    movzbl %al, %eax
212 ; X86-NEXT:    movd %eax, %xmm3
213 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
214 ; X86-NEXT:    cbtw
215 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
216 ; X86-NEXT:    movzbl %al, %eax
217 ; X86-NEXT:    movd %eax, %xmm4
218 ; X86-NEXT:    punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
219 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
220 ; X86-NEXT:    cbtw
221 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
222 ; X86-NEXT:    movzbl %al, %eax
223 ; X86-NEXT:    movd %eax, %xmm5
224 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
225 ; X86-NEXT:    cbtw
226 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
227 ; X86-NEXT:    movzbl %al, %eax
228 ; X86-NEXT:    movd %eax, %xmm3
229 ; X86-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1],xmm3[2],xmm5[2],xmm3[3],xmm5[3],xmm3[4],xmm5[4],xmm3[5],xmm5[5],xmm3[6],xmm5[6],xmm3[7],xmm5[7]
230 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
231 ; X86-NEXT:    cbtw
232 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
233 ; X86-NEXT:    movzbl %al, %eax
234 ; X86-NEXT:    movd %eax, %xmm5
235 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
236 ; X86-NEXT:    cbtw
237 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
238 ; X86-NEXT:    movzbl %al, %eax
239 ; X86-NEXT:    movd %eax, %xmm6
240 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
241 ; X86-NEXT:    cbtw
242 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
243 ; X86-NEXT:    movzbl %al, %esi
244 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
245 ; X86-NEXT:    cbtw
246 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
247 ; X86-NEXT:    movzbl %al, %edi
248 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
249 ; X86-NEXT:    cbtw
250 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
251 ; X86-NEXT:    movzbl %al, %ebx
252 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
253 ; X86-NEXT:    cbtw
254 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
255 ; X86-NEXT:    movl %eax, %ecx
256 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %al
257 ; X86-NEXT:    cbtw
258 ; X86-NEXT:    movb (%esp), %dl
259 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
260 ; X86-NEXT:    punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]
261 ; X86-NEXT:    movd %esi, %xmm4
262 ; X86-NEXT:    punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
263 ; X86-NEXT:    movd %edi, %xmm2
264 ; X86-NEXT:    punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3],xmm6[4],xmm5[4],xmm6[5],xmm5[5],xmm6[6],xmm5[6],xmm6[7],xmm5[7]
265 ; X86-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3],xmm2[4],xmm4[4],xmm2[5],xmm4[5],xmm2[6],xmm4[6],xmm2[7],xmm4[7]
266 ; X86-NEXT:    movd %ebx, %xmm4
267 ; X86-NEXT:    movzbl %cl, %ecx
268 ; X86-NEXT:    movd %ecx, %xmm5
269 ; X86-NEXT:    movl 8(%ebp), %ecx
270 ; X86-NEXT:    punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3]
271 ; X86-NEXT:    punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]
272 ; X86-NEXT:    movzbl %al, %eax
273 ; X86-NEXT:    movd %eax, %xmm4
274 ; X86-NEXT:    movl %edx, %eax
275 ; X86-NEXT:    cbtw
276 ; X86-NEXT:    idivb {{[0-9]+}}(%esp)
277 ; X86-NEXT:    movzbl %al, %eax
278 ; X86-NEXT:    movd %eax, %xmm6
279 ; X86-NEXT:    punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm4[0],xmm6[1],xmm4[1],xmm6[2],xmm4[2],xmm6[3],xmm4[3],xmm6[4],xmm4[4],xmm6[5],xmm4[5],xmm6[6],xmm4[6],xmm6[7],xmm4[7]
280 ; X86-NEXT:    punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3]
281 ; X86-NEXT:    punpckldq {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1]
282 ; X86-NEXT:    movdqa %xmm6, %xmm2
283 ; X86-NEXT:    punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
284 ; X86-NEXT:    movdqa %xmm2, (%ecx)
285 ; X86-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
286 ; X86-NEXT:    movdqa %xmm1, %xmm2
287 ; X86-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
288 ; X86-NEXT:    pmullw %xmm3, %xmm2
289 ; X86-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
290 ; X86-NEXT:    pand %xmm3, %xmm2
291 ; X86-NEXT:    punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm0[0],xmm6[1],xmm0[1],xmm6[2],xmm0[2],xmm6[3],xmm0[3],xmm6[4],xmm0[4],xmm6[5],xmm0[5],xmm6[6],xmm0[6],xmm6[7],xmm0[7]
292 ; X86-NEXT:    punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
293 ; X86-NEXT:    pmullw %xmm6, %xmm1
294 ; X86-NEXT:    pand %xmm3, %xmm1
295 ; X86-NEXT:    packuswb %xmm2, %xmm1
296 ; X86-NEXT:    psubb %xmm1, %xmm0
297 ; X86-NEXT:    leal -12(%ebp), %esp
298 ; X86-NEXT:    popl %esi
299 ; X86-NEXT:    popl %edi
300 ; X86-NEXT:    popl %ebx
301 ; X86-NEXT:    popl %ebp
302 ; X86-NEXT:    retl
304 ; X64-LABEL: vector_i128_i8:
305 ; X64:       # %bb.0:
306 ; X64-NEXT:    pushq %rbp
307 ; X64-NEXT:    pushq %r15
308 ; X64-NEXT:    pushq %r14
309 ; X64-NEXT:    pushq %r13
310 ; X64-NEXT:    pushq %r12
311 ; X64-NEXT:    pushq %rbx
312 ; X64-NEXT:    movq %rdi, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
313 ; X64-NEXT:    movdqa %xmm0, -{{[0-9]+}}(%rsp)
314 ; X64-NEXT:    movdqa %xmm1, -{{[0-9]+}}(%rsp)
315 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
316 ; X64-NEXT:    cbtw
317 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
318 ; X64-NEXT:    movzbl %al, %eax
319 ; X64-NEXT:    movd %eax, %xmm2
320 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
321 ; X64-NEXT:    cbtw
322 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
323 ; X64-NEXT:    movzbl %al, %r8d
324 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
325 ; X64-NEXT:    cbtw
326 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
327 ; X64-NEXT:    movzbl %al, %r9d
328 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
329 ; X64-NEXT:    cbtw
330 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
331 ; X64-NEXT:    movzbl %al, %r10d
332 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
333 ; X64-NEXT:    cbtw
334 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
335 ; X64-NEXT:    movzbl %al, %r11d
336 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
337 ; X64-NEXT:    cbtw
338 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
339 ; X64-NEXT:    movzbl %al, %r14d
340 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
341 ; X64-NEXT:    cbtw
342 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
343 ; X64-NEXT:    movzbl %al, %r15d
344 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
345 ; X64-NEXT:    cbtw
346 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
347 ; X64-NEXT:    movzbl %al, %r12d
348 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
349 ; X64-NEXT:    cbtw
350 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
351 ; X64-NEXT:    movzbl %al, %r13d
352 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
353 ; X64-NEXT:    cbtw
354 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
355 ; X64-NEXT:    movzbl %al, %ebx
356 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
357 ; X64-NEXT:    cbtw
358 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
359 ; X64-NEXT:    movzbl %al, %ebp
360 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
361 ; X64-NEXT:    cbtw
362 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
363 ; X64-NEXT:    movzbl %al, %edi
364 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
365 ; X64-NEXT:    cbtw
366 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
367 ; X64-NEXT:    movzbl %al, %esi
368 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
369 ; X64-NEXT:    cbtw
370 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
371 ; X64-NEXT:    movl %eax, %ecx
372 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %al
373 ; X64-NEXT:    cbtw
374 ; X64-NEXT:    movb -{{[0-9]+}}(%rsp), %dl
375 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
376 ; X64-NEXT:    movd %r8d, %xmm3
377 ; X64-NEXT:    movd %r9d, %xmm4
378 ; X64-NEXT:    movd %r10d, %xmm5
379 ; X64-NEXT:    movd %r11d, %xmm6
380 ; X64-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
381 ; X64-NEXT:    movd %r14d, %xmm2
382 ; X64-NEXT:    punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]
383 ; X64-NEXT:    movd %r15d, %xmm4
384 ; X64-NEXT:    punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1],xmm5[2],xmm3[2],xmm5[3],xmm3[3]
385 ; X64-NEXT:    movd %r12d, %xmm3
386 ; X64-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3],xmm2[4],xmm6[4],xmm2[5],xmm6[5],xmm2[6],xmm6[6],xmm2[7],xmm6[7]
387 ; X64-NEXT:    movd %r13d, %xmm6
388 ; X64-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]
389 ; X64-NEXT:    movd %ebx, %xmm4
390 ; X64-NEXT:    punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
391 ; X64-NEXT:    movd %ebp, %xmm2
392 ; X64-NEXT:    punpckldq {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
393 ; X64-NEXT:    movd %edi, %xmm5
394 ; X64-NEXT:    punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1],xmm4[2],xmm6[2],xmm4[3],xmm6[3],xmm4[4],xmm6[4],xmm4[5],xmm6[5],xmm4[6],xmm6[6],xmm4[7],xmm6[7]
395 ; X64-NEXT:    movd %esi, %xmm6
396 ; X64-NEXT:    punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm2[0],xmm5[1],xmm2[1],xmm5[2],xmm2[2],xmm5[3],xmm2[3],xmm5[4],xmm2[4],xmm5[5],xmm2[5],xmm5[6],xmm2[6],xmm5[7],xmm2[7]
397 ; X64-NEXT:    movzbl %cl, %ecx
398 ; X64-NEXT:    movd %ecx, %xmm2
399 ; X64-NEXT:    punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3]
400 ; X64-NEXT:    punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3],xmm2[4],xmm6[4],xmm2[5],xmm6[5],xmm2[6],xmm6[6],xmm2[7],xmm6[7]
401 ; X64-NEXT:    movzbl %al, %eax
402 ; X64-NEXT:    movd %eax, %xmm4
403 ; X64-NEXT:    movl %edx, %eax
404 ; X64-NEXT:    cbtw
405 ; X64-NEXT:    idivb -{{[0-9]+}}(%rsp)
406 ; X64-NEXT:    movzbl %al, %eax
407 ; X64-NEXT:    movd %eax, %xmm6
408 ; X64-NEXT:    punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm4[0],xmm6[1],xmm4[1],xmm6[2],xmm4[2],xmm6[3],xmm4[3],xmm6[4],xmm4[4],xmm6[5],xmm4[5],xmm6[6],xmm4[6],xmm6[7],xmm4[7]
409 ; X64-NEXT:    punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3]
410 ; X64-NEXT:    punpckldq {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1]
411 ; X64-NEXT:    movdqa %xmm6, %xmm2
412 ; X64-NEXT:    punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
413 ; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
414 ; X64-NEXT:    movdqa %xmm2, (%rax)
415 ; X64-NEXT:    punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
416 ; X64-NEXT:    movdqa %xmm1, %xmm2
417 ; X64-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
418 ; X64-NEXT:    pmullw %xmm3, %xmm2
419 ; X64-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
420 ; X64-NEXT:    pand %xmm3, %xmm2
421 ; X64-NEXT:    punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm0[0],xmm6[1],xmm0[1],xmm6[2],xmm0[2],xmm6[3],xmm0[3],xmm6[4],xmm0[4],xmm6[5],xmm0[5],xmm6[6],xmm0[6],xmm6[7],xmm0[7]
422 ; X64-NEXT:    punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
423 ; X64-NEXT:    pmullw %xmm6, %xmm1
424 ; X64-NEXT:    pand %xmm3, %xmm1
425 ; X64-NEXT:    packuswb %xmm2, %xmm1
426 ; X64-NEXT:    psubb %xmm1, %xmm0
427 ; X64-NEXT:    popq %rbx
428 ; X64-NEXT:    popq %r12
429 ; X64-NEXT:    popq %r13
430 ; X64-NEXT:    popq %r14
431 ; X64-NEXT:    popq %r15
432 ; X64-NEXT:    popq %rbp
433 ; X64-NEXT:    retq
434   %div = sdiv <16 x i8> %x, %y
435   store <16 x i8> %div, <16 x i8>* %divdst, align 16
436   %t1 = mul <16 x i8> %div, %y
437   %t2 = sub <16 x i8> %x, %t1
438   ret <16 x i8> %t2
441 define <8 x i16> @vector_i128_i16(<8 x i16> %x, <8 x i16> %y, <8 x i16>* %divdst) nounwind {
442 ; X86-LABEL: vector_i128_i16:
443 ; X86:       # %bb.0:
444 ; X86-NEXT:    pushl %esi
445 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
446 ; X86-NEXT:    pextrw $7, %xmm0, %eax
447 ; X86-NEXT:    pextrw $7, %xmm1, %esi
448 ; X86-NEXT:    # kill: def $ax killed $ax killed $eax
449 ; X86-NEXT:    cwtd
450 ; X86-NEXT:    idivw %si
451 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
452 ; X86-NEXT:    movd %eax, %xmm2
453 ; X86-NEXT:    pextrw $6, %xmm0, %eax
454 ; X86-NEXT:    pextrw $6, %xmm1, %esi
455 ; X86-NEXT:    # kill: def $ax killed $ax killed $eax
456 ; X86-NEXT:    cwtd
457 ; X86-NEXT:    idivw %si
458 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
459 ; X86-NEXT:    movd %eax, %xmm3
460 ; X86-NEXT:    punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
461 ; X86-NEXT:    pextrw $5, %xmm0, %eax
462 ; X86-NEXT:    pextrw $5, %xmm1, %esi
463 ; X86-NEXT:    # kill: def $ax killed $ax killed $eax
464 ; X86-NEXT:    cwtd
465 ; X86-NEXT:    idivw %si
466 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
467 ; X86-NEXT:    movd %eax, %xmm4
468 ; X86-NEXT:    pextrw $4, %xmm0, %eax
469 ; X86-NEXT:    pextrw $4, %xmm1, %esi
470 ; X86-NEXT:    # kill: def $ax killed $ax killed $eax
471 ; X86-NEXT:    cwtd
472 ; X86-NEXT:    idivw %si
473 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
474 ; X86-NEXT:    movd %eax, %xmm2
475 ; X86-NEXT:    punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3]
476 ; X86-NEXT:    punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
477 ; X86-NEXT:    pextrw $3, %xmm0, %eax
478 ; X86-NEXT:    pextrw $3, %xmm1, %esi
479 ; X86-NEXT:    # kill: def $ax killed $ax killed $eax
480 ; X86-NEXT:    cwtd
481 ; X86-NEXT:    idivw %si
482 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
483 ; X86-NEXT:    movd %eax, %xmm3
484 ; X86-NEXT:    pextrw $2, %xmm0, %eax
485 ; X86-NEXT:    pextrw $2, %xmm1, %esi
486 ; X86-NEXT:    # kill: def $ax killed $ax killed $eax
487 ; X86-NEXT:    cwtd
488 ; X86-NEXT:    idivw %si
489 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
490 ; X86-NEXT:    movd %eax, %xmm4
491 ; X86-NEXT:    punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
492 ; X86-NEXT:    pextrw $1, %xmm0, %eax
493 ; X86-NEXT:    pextrw $1, %xmm1, %esi
494 ; X86-NEXT:    # kill: def $ax killed $ax killed $eax
495 ; X86-NEXT:    cwtd
496 ; X86-NEXT:    idivw %si
497 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
498 ; X86-NEXT:    movd %eax, %xmm3
499 ; X86-NEXT:    movd %xmm0, %eax
500 ; X86-NEXT:    movd %xmm1, %esi
501 ; X86-NEXT:    # kill: def $ax killed $ax killed $eax
502 ; X86-NEXT:    cwtd
503 ; X86-NEXT:    idivw %si
504 ; X86-NEXT:    # kill: def $ax killed $ax def $eax
505 ; X86-NEXT:    movd %eax, %xmm5
506 ; X86-NEXT:    punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1],xmm5[2],xmm3[2],xmm5[3],xmm3[3]
507 ; X86-NEXT:    punpckldq {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
508 ; X86-NEXT:    punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm2[0]
509 ; X86-NEXT:    movdqa %xmm5, (%ecx)
510 ; X86-NEXT:    pmullw %xmm1, %xmm5
511 ; X86-NEXT:    psubw %xmm5, %xmm0
512 ; X86-NEXT:    popl %esi
513 ; X86-NEXT:    retl
515 ; X64-LABEL: vector_i128_i16:
516 ; X64:       # %bb.0:
517 ; X64-NEXT:    pextrw $7, %xmm0, %eax
518 ; X64-NEXT:    pextrw $7, %xmm1, %ecx
519 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
520 ; X64-NEXT:    cwtd
521 ; X64-NEXT:    idivw %cx
522 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
523 ; X64-NEXT:    movd %eax, %xmm2
524 ; X64-NEXT:    pextrw $6, %xmm0, %eax
525 ; X64-NEXT:    pextrw $6, %xmm1, %ecx
526 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
527 ; X64-NEXT:    cwtd
528 ; X64-NEXT:    idivw %cx
529 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
530 ; X64-NEXT:    movd %eax, %xmm3
531 ; X64-NEXT:    punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
532 ; X64-NEXT:    pextrw $5, %xmm0, %eax
533 ; X64-NEXT:    pextrw $5, %xmm1, %ecx
534 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
535 ; X64-NEXT:    cwtd
536 ; X64-NEXT:    idivw %cx
537 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
538 ; X64-NEXT:    movd %eax, %xmm4
539 ; X64-NEXT:    pextrw $4, %xmm0, %eax
540 ; X64-NEXT:    pextrw $4, %xmm1, %ecx
541 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
542 ; X64-NEXT:    cwtd
543 ; X64-NEXT:    idivw %cx
544 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
545 ; X64-NEXT:    movd %eax, %xmm2
546 ; X64-NEXT:    punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3]
547 ; X64-NEXT:    punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
548 ; X64-NEXT:    pextrw $3, %xmm0, %eax
549 ; X64-NEXT:    pextrw $3, %xmm1, %ecx
550 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
551 ; X64-NEXT:    cwtd
552 ; X64-NEXT:    idivw %cx
553 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
554 ; X64-NEXT:    movd %eax, %xmm3
555 ; X64-NEXT:    pextrw $2, %xmm0, %eax
556 ; X64-NEXT:    pextrw $2, %xmm1, %ecx
557 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
558 ; X64-NEXT:    cwtd
559 ; X64-NEXT:    idivw %cx
560 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
561 ; X64-NEXT:    movd %eax, %xmm4
562 ; X64-NEXT:    punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
563 ; X64-NEXT:    pextrw $1, %xmm0, %eax
564 ; X64-NEXT:    pextrw $1, %xmm1, %ecx
565 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
566 ; X64-NEXT:    cwtd
567 ; X64-NEXT:    idivw %cx
568 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
569 ; X64-NEXT:    movd %eax, %xmm3
570 ; X64-NEXT:    movd %xmm0, %eax
571 ; X64-NEXT:    movd %xmm1, %ecx
572 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
573 ; X64-NEXT:    cwtd
574 ; X64-NEXT:    idivw %cx
575 ; X64-NEXT:    # kill: def $ax killed $ax def $eax
576 ; X64-NEXT:    movd %eax, %xmm5
577 ; X64-NEXT:    punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1],xmm5[2],xmm3[2],xmm5[3],xmm3[3]
578 ; X64-NEXT:    punpckldq {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
579 ; X64-NEXT:    punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm2[0]
580 ; X64-NEXT:    movdqa %xmm5, (%rdi)
581 ; X64-NEXT:    pmullw %xmm1, %xmm5
582 ; X64-NEXT:    psubw %xmm5, %xmm0
583 ; X64-NEXT:    retq
584   %div = sdiv <8 x i16> %x, %y
585   store <8 x i16> %div, <8 x i16>* %divdst, align 16
586   %t1 = mul <8 x i16> %div, %y
587   %t2 = sub <8 x i16> %x, %t1
588   ret <8 x i16> %t2
591 define <4 x i32> @vector_i128_i32(<4 x i32> %x, <4 x i32> %y, <4 x i32>* %divdst) nounwind {
592 ; X86-LABEL: vector_i128_i32:
593 ; X86:       # %bb.0:
594 ; X86-NEXT:    pushl %esi
595 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
596 ; X86-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]
597 ; X86-NEXT:    movd %xmm2, %eax
598 ; X86-NEXT:    pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]
599 ; X86-NEXT:    movd %xmm2, %esi
600 ; X86-NEXT:    cltd
601 ; X86-NEXT:    idivl %esi
602 ; X86-NEXT:    movd %eax, %xmm2
603 ; X86-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
604 ; X86-NEXT:    movd %xmm3, %eax
605 ; X86-NEXT:    pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
606 ; X86-NEXT:    movd %xmm3, %esi
607 ; X86-NEXT:    cltd
608 ; X86-NEXT:    idivl %esi
609 ; X86-NEXT:    movd %eax, %xmm3
610 ; X86-NEXT:    punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
611 ; X86-NEXT:    movd %xmm0, %eax
612 ; X86-NEXT:    movd %xmm1, %esi
613 ; X86-NEXT:    cltd
614 ; X86-NEXT:    idivl %esi
615 ; X86-NEXT:    movd %eax, %xmm4
616 ; X86-NEXT:    pshufd {{.*#+}} xmm5 = xmm0[1,1,2,3]
617 ; X86-NEXT:    movd %xmm5, %eax
618 ; X86-NEXT:    pshufd {{.*#+}} xmm5 = xmm1[1,1,2,3]
619 ; X86-NEXT:    movd %xmm5, %esi
620 ; X86-NEXT:    cltd
621 ; X86-NEXT:    idivl %esi
622 ; X86-NEXT:    movd %eax, %xmm5
623 ; X86-NEXT:    punpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
624 ; X86-NEXT:    punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm3[0]
625 ; X86-NEXT:    movdqa %xmm4, (%ecx)
626 ; X86-NEXT:    pmuludq %xmm1, %xmm4
627 ; X86-NEXT:    pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]
628 ; X86-NEXT:    shufps {{.*#+}} xmm5 = xmm5[0,0],xmm2[0,0]
629 ; X86-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
630 ; X86-NEXT:    pmuludq %xmm5, %xmm1
631 ; X86-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
632 ; X86-NEXT:    punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
633 ; X86-NEXT:    psubd %xmm3, %xmm0
634 ; X86-NEXT:    popl %esi
635 ; X86-NEXT:    retl
637 ; X64-LABEL: vector_i128_i32:
638 ; X64:       # %bb.0:
639 ; X64-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]
640 ; X64-NEXT:    movd %xmm2, %eax
641 ; X64-NEXT:    pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]
642 ; X64-NEXT:    movd %xmm2, %ecx
643 ; X64-NEXT:    cltd
644 ; X64-NEXT:    idivl %ecx
645 ; X64-NEXT:    movd %eax, %xmm2
646 ; X64-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
647 ; X64-NEXT:    movd %xmm3, %eax
648 ; X64-NEXT:    pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
649 ; X64-NEXT:    movd %xmm3, %ecx
650 ; X64-NEXT:    cltd
651 ; X64-NEXT:    idivl %ecx
652 ; X64-NEXT:    movd %eax, %xmm3
653 ; X64-NEXT:    punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
654 ; X64-NEXT:    movd %xmm0, %eax
655 ; X64-NEXT:    movd %xmm1, %ecx
656 ; X64-NEXT:    cltd
657 ; X64-NEXT:    idivl %ecx
658 ; X64-NEXT:    movd %eax, %xmm4
659 ; X64-NEXT:    pshufd {{.*#+}} xmm5 = xmm0[1,1,2,3]
660 ; X64-NEXT:    movd %xmm5, %eax
661 ; X64-NEXT:    pshufd {{.*#+}} xmm5 = xmm1[1,1,2,3]
662 ; X64-NEXT:    movd %xmm5, %ecx
663 ; X64-NEXT:    cltd
664 ; X64-NEXT:    idivl %ecx
665 ; X64-NEXT:    movd %eax, %xmm5
666 ; X64-NEXT:    punpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
667 ; X64-NEXT:    punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm3[0]
668 ; X64-NEXT:    movdqa %xmm4, (%rdi)
669 ; X64-NEXT:    pmuludq %xmm1, %xmm4
670 ; X64-NEXT:    pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]
671 ; X64-NEXT:    shufps {{.*#+}} xmm5 = xmm5[0,0],xmm2[0,0]
672 ; X64-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
673 ; X64-NEXT:    pmuludq %xmm5, %xmm1
674 ; X64-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
675 ; X64-NEXT:    punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
676 ; X64-NEXT:    psubd %xmm3, %xmm0
677 ; X64-NEXT:    retq
678   %div = sdiv <4 x i32> %x, %y
679   store <4 x i32> %div, <4 x i32>* %divdst, align 16
680   %t1 = mul <4 x i32> %div, %y
681   %t2 = sub <4 x i32> %x, %t1
682   ret <4 x i32> %t2
685 define <2 x i64> @vector_i128_i64(<2 x i64> %x, <2 x i64> %y, <2 x i64>* %divdst) nounwind {
686 ; X86-LABEL: vector_i128_i64:
687 ; X86:       # %bb.0:
688 ; X86-NEXT:    pushl %esi
689 ; X86-NEXT:    subl $72, %esp
690 ; X86-NEXT:    movdqu %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
691 ; X86-NEXT:    movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
692 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
693 ; X86-NEXT:    pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]
694 ; X86-NEXT:    movd %xmm2, {{[0-9]+}}(%esp)
695 ; X86-NEXT:    pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
696 ; X86-NEXT:    movd %xmm2, {{[0-9]+}}(%esp)
697 ; X86-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]
698 ; X86-NEXT:    movd %xmm1, {{[0-9]+}}(%esp)
699 ; X86-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
700 ; X86-NEXT:    movd %xmm1, (%esp)
701 ; X86-NEXT:    calll __divdi3
702 ; X86-NEXT:    movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm1 # 16-byte Reload
703 ; X86-NEXT:    pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
704 ; X86-NEXT:    movd %xmm0, {{[0-9]+}}(%esp)
705 ; X86-NEXT:    movd %xmm1, {{[0-9]+}}(%esp)
706 ; X86-NEXT:    movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm1 # 16-byte Reload
707 ; X86-NEXT:    pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
708 ; X86-NEXT:    movd %xmm0, {{[0-9]+}}(%esp)
709 ; X86-NEXT:    movd %xmm1, (%esp)
710 ; X86-NEXT:    movd %edx, %xmm0
711 ; X86-NEXT:    movd %eax, %xmm1
712 ; X86-NEXT:    punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
713 ; X86-NEXT:    movdqu %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
714 ; X86-NEXT:    calll __divdi3
715 ; X86-NEXT:    movd %edx, %xmm0
716 ; X86-NEXT:    movd %eax, %xmm1
717 ; X86-NEXT:    punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
718 ; X86-NEXT:    movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
719 ; X86-NEXT:    punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
720 ; X86-NEXT:    movdqa %xmm1, (%esi)
721 ; X86-NEXT:    movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm3 # 16-byte Reload
722 ; X86-NEXT:    movdqa %xmm3, %xmm0
723 ; X86-NEXT:    psrlq $32, %xmm0
724 ; X86-NEXT:    pmuludq %xmm1, %xmm0
725 ; X86-NEXT:    movdqa %xmm1, %xmm2
726 ; X86-NEXT:    psrlq $32, %xmm2
727 ; X86-NEXT:    pmuludq %xmm3, %xmm2
728 ; X86-NEXT:    paddq %xmm0, %xmm2
729 ; X86-NEXT:    psllq $32, %xmm2
730 ; X86-NEXT:    pmuludq %xmm3, %xmm1
731 ; X86-NEXT:    paddq %xmm2, %xmm1
732 ; X86-NEXT:    movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
733 ; X86-NEXT:    psubq %xmm1, %xmm0
734 ; X86-NEXT:    addl $72, %esp
735 ; X86-NEXT:    popl %esi
736 ; X86-NEXT:    retl
738 ; X64-LABEL: vector_i128_i64:
739 ; X64:       # %bb.0:
740 ; X64-NEXT:    movq %xmm0, %rax
741 ; X64-NEXT:    movq %xmm1, %rcx
742 ; X64-NEXT:    cqto
743 ; X64-NEXT:    idivq %rcx
744 ; X64-NEXT:    movq %rax, %xmm2
745 ; X64-NEXT:    pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
746 ; X64-NEXT:    movq %xmm3, %rax
747 ; X64-NEXT:    pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
748 ; X64-NEXT:    movq %xmm3, %rcx
749 ; X64-NEXT:    cqto
750 ; X64-NEXT:    idivq %rcx
751 ; X64-NEXT:    movq %rax, %xmm3
752 ; X64-NEXT:    punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
753 ; X64-NEXT:    movdqa %xmm2, (%rdi)
754 ; X64-NEXT:    movdqa %xmm1, %xmm3
755 ; X64-NEXT:    psrlq $32, %xmm3
756 ; X64-NEXT:    pmuludq %xmm2, %xmm3
757 ; X64-NEXT:    movdqa %xmm2, %xmm4
758 ; X64-NEXT:    psrlq $32, %xmm4
759 ; X64-NEXT:    pmuludq %xmm1, %xmm4
760 ; X64-NEXT:    paddq %xmm3, %xmm4
761 ; X64-NEXT:    psllq $32, %xmm4
762 ; X64-NEXT:    pmuludq %xmm1, %xmm2
763 ; X64-NEXT:    paddq %xmm4, %xmm2
764 ; X64-NEXT:    psubq %xmm2, %xmm0
765 ; X64-NEXT:    retq
766   %div = sdiv <2 x i64> %x, %y
767   store <2 x i64> %div, <2 x i64>* %divdst, align 16
768   %t1 = mul <2 x i64> %div, %y
769   %t2 = sub <2 x i64> %x, %t1
770   ret <2 x i64> %t2
773 ; Special tests.
775 define i32 @scalar_i32_commutative(i32 %x, i32* %ysrc, i32* %divdst) nounwind {
776 ; X86-LABEL: scalar_i32_commutative:
777 ; X86:       # %bb.0:
778 ; X86-NEXT:    pushl %edi
779 ; X86-NEXT:    pushl %esi
780 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
781 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
782 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
783 ; X86-NEXT:    movl (%eax), %edi
784 ; X86-NEXT:    movl %ecx, %eax
785 ; X86-NEXT:    cltd
786 ; X86-NEXT:    idivl %edi
787 ; X86-NEXT:    movl %eax, (%esi)
788 ; X86-NEXT:    imull %eax, %edi
789 ; X86-NEXT:    subl %edi, %ecx
790 ; X86-NEXT:    movl %ecx, %eax
791 ; X86-NEXT:    popl %esi
792 ; X86-NEXT:    popl %edi
793 ; X86-NEXT:    retl
795 ; X64-LABEL: scalar_i32_commutative:
796 ; X64:       # %bb.0:
797 ; X64-NEXT:    movq %rdx, %rcx
798 ; X64-NEXT:    movl (%rsi), %esi
799 ; X64-NEXT:    movl %edi, %eax
800 ; X64-NEXT:    cltd
801 ; X64-NEXT:    idivl %esi
802 ; X64-NEXT:    movl %eax, (%rcx)
803 ; X64-NEXT:    imull %eax, %esi
804 ; X64-NEXT:    subl %esi, %edi
805 ; X64-NEXT:    movl %edi, %eax
806 ; X64-NEXT:    retq
807   %y = load i32, i32* %ysrc, align 4
808   %div = sdiv i32 %x, %y
809   store i32 %div, i32* %divdst, align 4
810   %t1 = mul i32 %y, %div ; commutative
811   %t2 = sub i32 %x, %t1
812   ret i32 %t2
815 ; We do not care about extra uses.
816 define i32 @extrause(i32 %x, i32 %y, i32* %divdst, i32* %t1dst) nounwind {
817 ; X86-LABEL: extrause:
818 ; X86:       # %bb.0:
819 ; X86-NEXT:    pushl %ebx
820 ; X86-NEXT:    pushl %edi
821 ; X86-NEXT:    pushl %esi
822 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
823 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
824 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
825 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
826 ; X86-NEXT:    movl %ecx, %eax
827 ; X86-NEXT:    cltd
828 ; X86-NEXT:    idivl %ebx
829 ; X86-NEXT:    movl %eax, (%edi)
830 ; X86-NEXT:    imull %ebx, %eax
831 ; X86-NEXT:    movl %eax, (%esi)
832 ; X86-NEXT:    subl %eax, %ecx
833 ; X86-NEXT:    movl %ecx, %eax
834 ; X86-NEXT:    popl %esi
835 ; X86-NEXT:    popl %edi
836 ; X86-NEXT:    popl %ebx
837 ; X86-NEXT:    retl
839 ; X64-LABEL: extrause:
840 ; X64:       # %bb.0:
841 ; X64-NEXT:    movq %rdx, %r8
842 ; X64-NEXT:    movl %edi, %eax
843 ; X64-NEXT:    cltd
844 ; X64-NEXT:    idivl %esi
845 ; X64-NEXT:    movl %eax, (%r8)
846 ; X64-NEXT:    imull %esi, %eax
847 ; X64-NEXT:    movl %eax, (%rcx)
848 ; X64-NEXT:    subl %eax, %edi
849 ; X64-NEXT:    movl %edi, %eax
850 ; X64-NEXT:    retq
851   %div = sdiv i32 %x, %y
852   store i32 %div, i32* %divdst, align 4
853   %t1 = mul i32 %div, %y
854   store i32 %t1, i32* %t1dst, align 4
855   %t2 = sub i32 %x, %t1
856   ret i32 %t2
859 ; 'rem' should appear next to 'div'.
860 define i32 @multiple_bb(i32 %x, i32 %y, i32* %divdst, i1 zeroext %store_srem, i32* %sremdst) nounwind {
861 ; X86-LABEL: multiple_bb:
862 ; X86:       # %bb.0:
863 ; X86-NEXT:    pushl %ebx
864 ; X86-NEXT:    pushl %edi
865 ; X86-NEXT:    pushl %esi
866 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
867 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
868 ; X86-NEXT:    movb {{[0-9]+}}(%esp), %bl
869 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
870 ; X86-NEXT:    movl %ecx, %eax
871 ; X86-NEXT:    cltd
872 ; X86-NEXT:    idivl %esi
873 ; X86-NEXT:    movl %eax, (%edi)
874 ; X86-NEXT:    testb %bl, %bl
875 ; X86-NEXT:    je .LBB10_2
876 ; X86-NEXT:  # %bb.1: # %do_srem
877 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
878 ; X86-NEXT:    movl %eax, %edi
879 ; X86-NEXT:    imull %esi, %edi
880 ; X86-NEXT:    subl %edi, %ecx
881 ; X86-NEXT:    movl %ecx, (%edx)
882 ; X86-NEXT:  .LBB10_2: # %end
883 ; X86-NEXT:    popl %esi
884 ; X86-NEXT:    popl %edi
885 ; X86-NEXT:    popl %ebx
886 ; X86-NEXT:    retl
888 ; X64-LABEL: multiple_bb:
889 ; X64:       # %bb.0:
890 ; X64-NEXT:    movq %rdx, %r9
891 ; X64-NEXT:    movl %edi, %eax
892 ; X64-NEXT:    cltd
893 ; X64-NEXT:    idivl %esi
894 ; X64-NEXT:    movl %eax, (%r9)
895 ; X64-NEXT:    testb %cl, %cl
896 ; X64-NEXT:    je .LBB10_2
897 ; X64-NEXT:  # %bb.1: # %do_srem
898 ; X64-NEXT:    movl %eax, %ecx
899 ; X64-NEXT:    imull %esi, %ecx
900 ; X64-NEXT:    subl %ecx, %edi
901 ; X64-NEXT:    movl %edi, (%r8)
902 ; X64-NEXT:  .LBB10_2: # %end
903 ; X64-NEXT:    retq
904   %div = sdiv i32 %x, %y
905   store i32 %div, i32* %divdst, align 4
906   br i1 %store_srem, label %do_srem, label %end
907 do_srem:
908   %t1 = mul i32 %div, %y
909   %t2 = sub i32 %x, %t1
910   store i32 %t2, i32* %sremdst, align 4
911   br label %end
912 end:
913   ret i32 %div
916 define i32 @negative_different_x(i32 %x0, i32 %x1, i32 %y, i32* %divdst) nounwind {
917 ; X86-LABEL: negative_different_x:
918 ; X86:       # %bb.0:
919 ; X86-NEXT:    pushl %edi
920 ; X86-NEXT:    pushl %esi
921 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
922 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
923 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
924 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
925 ; X86-NEXT:    cltd
926 ; X86-NEXT:    idivl %edi
927 ; X86-NEXT:    movl %eax, (%esi)
928 ; X86-NEXT:    imull %edi, %eax
929 ; X86-NEXT:    subl %eax, %ecx
930 ; X86-NEXT:    movl %ecx, %eax
931 ; X86-NEXT:    popl %esi
932 ; X86-NEXT:    popl %edi
933 ; X86-NEXT:    retl
935 ; X64-LABEL: negative_different_x:
936 ; X64:       # %bb.0:
937 ; X64-NEXT:    movl %edx, %r8d
938 ; X64-NEXT:    movl %edi, %eax
939 ; X64-NEXT:    cltd
940 ; X64-NEXT:    idivl %r8d
941 ; X64-NEXT:    movl %eax, (%rcx)
942 ; X64-NEXT:    imull %r8d, %eax
943 ; X64-NEXT:    subl %eax, %esi
944 ; X64-NEXT:    movl %esi, %eax
945 ; X64-NEXT:    retq
946   %div = sdiv i32 %x0, %y ; not %x1
947   store i32 %div, i32* %divdst, align 4
948   %t1 = mul i32 %div, %y
949   %t2 = sub i32 %x1, %t1 ; not %x0
950   ret i32 %t2