Run DCE after a LoopFlatten test to reduce spurious output [nfc]
[llvm-project.git] / llvm / test / CodeGen / X86 / fma-intrinsics-phi-213-to-231.ll
bloba509e93ef3f83fd2aaa98d5c73718afdf3934e6f
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+fma | FileCheck %s
4 define <2 x double> @fmaddsubpd_loop_128(i32 %iter, <2 x double> %a, <2 x double> %b, <2 x double> %c) {
5 ; CHECK-LABEL: fmaddsubpd_loop_128:
6 ; CHECK:       # %bb.0: # %entry
7 ; CHECK-NEXT:    xorl %eax, %eax
8 ; CHECK-NEXT:    cmpl %edi, %eax
9 ; CHECK-NEXT:    jge .LBB0_3
10 ; CHECK-NEXT:    .p2align 4, 0x90
11 ; CHECK-NEXT:  .LBB0_2: # %for.body
12 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
13 ; CHECK-NEXT:    vfmaddsub231pd {{.*#+}} xmm2 = (xmm0 * xmm1) +/- xmm2
14 ; CHECK-NEXT:    incl %eax
15 ; CHECK-NEXT:    cmpl %edi, %eax
16 ; CHECK-NEXT:    jl .LBB0_2
17 ; CHECK-NEXT:  .LBB0_3: # %for.end
18 ; CHECK-NEXT:    vmovapd %xmm2, %xmm0
19 ; CHECK-NEXT:    retq
20 entry:
21   br label %for.cond
23 for.cond:
24   %c.addr.0 = phi <2 x double> [ %c, %entry ], [ %0, %for.inc ]
25   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
26   %cmp = icmp slt i32 %i.0, %iter
27   br i1 %cmp, label %for.body, label %for.end
29 for.body:
30   br label %for.inc
32 for.inc:
33   %0 = call <2 x double> @llvm.x86.fma.vfmaddsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %c.addr.0)
34   %inc = add nsw i32 %i.0, 1
35   br label %for.cond
37 for.end:
38   ret <2 x double> %c.addr.0
41 define <2 x double> @fmsubaddpd_loop_128(i32 %iter, <2 x double> %a, <2 x double> %b, <2 x double> %c) {
42 ; CHECK-LABEL: fmsubaddpd_loop_128:
43 ; CHECK:       # %bb.0: # %entry
44 ; CHECK-NEXT:    xorl %eax, %eax
45 ; CHECK-NEXT:    cmpl %edi, %eax
46 ; CHECK-NEXT:    jge .LBB1_3
47 ; CHECK-NEXT:    .p2align 4, 0x90
48 ; CHECK-NEXT:  .LBB1_2: # %for.body
49 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
50 ; CHECK-NEXT:    vfmsubadd231pd {{.*#+}} xmm2 = (xmm0 * xmm1) -/+ xmm2
51 ; CHECK-NEXT:    incl %eax
52 ; CHECK-NEXT:    cmpl %edi, %eax
53 ; CHECK-NEXT:    jl .LBB1_2
54 ; CHECK-NEXT:  .LBB1_3: # %for.end
55 ; CHECK-NEXT:    vmovapd %xmm2, %xmm0
56 ; CHECK-NEXT:    retq
57 entry:
58   br label %for.cond
60 for.cond:
61   %c.addr.0 = phi <2 x double> [ %c, %entry ], [ %0, %for.inc ]
62   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
63   %cmp = icmp slt i32 %i.0, %iter
64   br i1 %cmp, label %for.body, label %for.end
66 for.body:
67   br label %for.inc
69 for.inc:
70   %0 = call <2 x double> @llvm.x86.fma.vfmsubadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %c.addr.0)
71   %inc = add nsw i32 %i.0, 1
72   br label %for.cond
74 for.end:
75   ret <2 x double> %c.addr.0
78 define <2 x double> @fmaddpd_loop_128(i32 %iter, <2 x double> %a, <2 x double> %b, <2 x double> %c) {
79 ; CHECK-LABEL: fmaddpd_loop_128:
80 ; CHECK:       # %bb.0: # %entry
81 ; CHECK-NEXT:    xorl %eax, %eax
82 ; CHECK-NEXT:    cmpl %edi, %eax
83 ; CHECK-NEXT:    jge .LBB2_3
84 ; CHECK-NEXT:    .p2align 4, 0x90
85 ; CHECK-NEXT:  .LBB2_2: # %for.body
86 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
87 ; CHECK-NEXT:    vfmadd231pd {{.*#+}} xmm2 = (xmm0 * xmm1) + xmm2
88 ; CHECK-NEXT:    incl %eax
89 ; CHECK-NEXT:    cmpl %edi, %eax
90 ; CHECK-NEXT:    jl .LBB2_2
91 ; CHECK-NEXT:  .LBB2_3: # %for.end
92 ; CHECK-NEXT:    vmovapd %xmm2, %xmm0
93 ; CHECK-NEXT:    retq
94 entry:
95   br label %for.cond
97 for.cond:
98   %c.addr.0 = phi <2 x double> [ %c, %entry ], [ %0, %for.inc ]
99   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
100   %cmp = icmp slt i32 %i.0, %iter
101   br i1 %cmp, label %for.body, label %for.end
103 for.body:
104   br label %for.inc
106 for.inc:
107   %0 = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %c.addr.0)
108   %inc = add nsw i32 %i.0, 1
109   br label %for.cond
111 for.end:
112   ret <2 x double> %c.addr.0
115 define <2 x double> @fmsubpd_loop_128(i32 %iter, <2 x double> %a, <2 x double> %b, <2 x double> %c) {
116 ; CHECK-LABEL: fmsubpd_loop_128:
117 ; CHECK:       # %bb.0: # %entry
118 ; CHECK-NEXT:    xorl %eax, %eax
119 ; CHECK-NEXT:    cmpl %edi, %eax
120 ; CHECK-NEXT:    jge .LBB3_3
121 ; CHECK-NEXT:    .p2align 4, 0x90
122 ; CHECK-NEXT:  .LBB3_2: # %for.body
123 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
124 ; CHECK-NEXT:    vfmsub231pd {{.*#+}} xmm2 = (xmm0 * xmm1) - xmm2
125 ; CHECK-NEXT:    incl %eax
126 ; CHECK-NEXT:    cmpl %edi, %eax
127 ; CHECK-NEXT:    jl .LBB3_2
128 ; CHECK-NEXT:  .LBB3_3: # %for.end
129 ; CHECK-NEXT:    vmovapd %xmm2, %xmm0
130 ; CHECK-NEXT:    retq
131 entry:
132   br label %for.cond
134 for.cond:
135   %c.addr.0 = phi <2 x double> [ %c, %entry ], [ %0, %for.inc ]
136   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
137   %cmp = icmp slt i32 %i.0, %iter
138   br i1 %cmp, label %for.body, label %for.end
140 for.body:
141   br label %for.inc
143 for.inc:
144   %0 = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %c.addr.0)
145   %inc = add nsw i32 %i.0, 1
146   br label %for.cond
148 for.end:
149   ret <2 x double> %c.addr.0
152 define <2 x double> @fnmaddpd_loop_128(i32 %iter, <2 x double> %a, <2 x double> %b, <2 x double> %c) {
153 ; CHECK-LABEL: fnmaddpd_loop_128:
154 ; CHECK:       # %bb.0: # %entry
155 ; CHECK-NEXT:    xorl %eax, %eax
156 ; CHECK-NEXT:    cmpl %edi, %eax
157 ; CHECK-NEXT:    jge .LBB4_3
158 ; CHECK-NEXT:    .p2align 4, 0x90
159 ; CHECK-NEXT:  .LBB4_2: # %for.body
160 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
161 ; CHECK-NEXT:    vfnmadd231pd {{.*#+}} xmm2 = -(xmm0 * xmm1) + xmm2
162 ; CHECK-NEXT:    incl %eax
163 ; CHECK-NEXT:    cmpl %edi, %eax
164 ; CHECK-NEXT:    jl .LBB4_2
165 ; CHECK-NEXT:  .LBB4_3: # %for.end
166 ; CHECK-NEXT:    vmovapd %xmm2, %xmm0
167 ; CHECK-NEXT:    retq
168 entry:
169   br label %for.cond
171 for.cond:
172   %c.addr.0 = phi <2 x double> [ %c, %entry ], [ %0, %for.inc ]
173   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
174   %cmp = icmp slt i32 %i.0, %iter
175   br i1 %cmp, label %for.body, label %for.end
177 for.body:
178   br label %for.inc
180 for.inc:
181   %0 = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %c.addr.0)
182   %inc = add nsw i32 %i.0, 1
183   br label %for.cond
185 for.end:
186   ret <2 x double> %c.addr.0
189 define <2 x double> @fnmsubpd_loop_128(i32 %iter, <2 x double> %a, <2 x double> %b, <2 x double> %c) {
190 ; CHECK-LABEL: fnmsubpd_loop_128:
191 ; CHECK:       # %bb.0: # %entry
192 ; CHECK-NEXT:    xorl %eax, %eax
193 ; CHECK-NEXT:    cmpl %edi, %eax
194 ; CHECK-NEXT:    jge .LBB5_3
195 ; CHECK-NEXT:    .p2align 4, 0x90
196 ; CHECK-NEXT:  .LBB5_2: # %for.body
197 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
198 ; CHECK-NEXT:    vfnmsub231pd {{.*#+}} xmm2 = -(xmm0 * xmm1) - xmm2
199 ; CHECK-NEXT:    incl %eax
200 ; CHECK-NEXT:    cmpl %edi, %eax
201 ; CHECK-NEXT:    jl .LBB5_2
202 ; CHECK-NEXT:  .LBB5_3: # %for.end
203 ; CHECK-NEXT:    vmovapd %xmm2, %xmm0
204 ; CHECK-NEXT:    retq
205 entry:
206   br label %for.cond
208 for.cond:
209   %c.addr.0 = phi <2 x double> [ %c, %entry ], [ %0, %for.inc ]
210   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
211   %cmp = icmp slt i32 %i.0, %iter
212   br i1 %cmp, label %for.body, label %for.end
214 for.body:
215   br label %for.inc
217 for.inc:
218   %0 = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %c.addr.0)
219   %inc = add nsw i32 %i.0, 1
220   br label %for.cond
222 for.end:
223   ret <2 x double> %c.addr.0
226 declare <2 x double> @llvm.x86.fma.vfmaddsub.pd(<2 x double>, <2 x double>, <2 x double>)
227 declare <2 x double> @llvm.x86.fma.vfmsubadd.pd(<2 x double>, <2 x double>, <2 x double>)
228 declare <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double>, <2 x double>, <2 x double>)
229 declare <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double>, <2 x double>, <2 x double>)
230 declare <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double>, <2 x double>, <2 x double>)
231 declare <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double>, <2 x double>, <2 x double>)
233 define <4 x float> @fmaddsubps_loop_128(i32 %iter, <4 x float> %a, <4 x float> %b, <4 x float> %c) {
234 ; CHECK-LABEL: fmaddsubps_loop_128:
235 ; CHECK:       # %bb.0: # %entry
236 ; CHECK-NEXT:    xorl %eax, %eax
237 ; CHECK-NEXT:    cmpl %edi, %eax
238 ; CHECK-NEXT:    jge .LBB6_3
239 ; CHECK-NEXT:    .p2align 4, 0x90
240 ; CHECK-NEXT:  .LBB6_2: # %for.body
241 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
242 ; CHECK-NEXT:    vfmaddsub231ps {{.*#+}} xmm2 = (xmm0 * xmm1) +/- xmm2
243 ; CHECK-NEXT:    incl %eax
244 ; CHECK-NEXT:    cmpl %edi, %eax
245 ; CHECK-NEXT:    jl .LBB6_2
246 ; CHECK-NEXT:  .LBB6_3: # %for.end
247 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
248 ; CHECK-NEXT:    retq
249 entry:
250   br label %for.cond
252 for.cond:
253   %c.addr.0 = phi <4 x float> [ %c, %entry ], [ %0, %for.inc ]
254   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
255   %cmp = icmp slt i32 %i.0, %iter
256   br i1 %cmp, label %for.body, label %for.end
258 for.body:
259   br label %for.inc
261 for.inc:
262   %0 = call <4 x float> @llvm.x86.fma.vfmaddsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %c.addr.0)
263   %inc = add nsw i32 %i.0, 1
264   br label %for.cond
266 for.end:
267   ret <4 x float> %c.addr.0
270 define <4 x float> @fmsubaddps_loop_128(i32 %iter, <4 x float> %a, <4 x float> %b, <4 x float> %c) {
271 ; CHECK-LABEL: fmsubaddps_loop_128:
272 ; CHECK:       # %bb.0: # %entry
273 ; CHECK-NEXT:    xorl %eax, %eax
274 ; CHECK-NEXT:    cmpl %edi, %eax
275 ; CHECK-NEXT:    jge .LBB7_3
276 ; CHECK-NEXT:    .p2align 4, 0x90
277 ; CHECK-NEXT:  .LBB7_2: # %for.body
278 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
279 ; CHECK-NEXT:    vfmsubadd231ps {{.*#+}} xmm2 = (xmm0 * xmm1) -/+ xmm2
280 ; CHECK-NEXT:    incl %eax
281 ; CHECK-NEXT:    cmpl %edi, %eax
282 ; CHECK-NEXT:    jl .LBB7_2
283 ; CHECK-NEXT:  .LBB7_3: # %for.end
284 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
285 ; CHECK-NEXT:    retq
286 entry:
287   br label %for.cond
289 for.cond:
290   %c.addr.0 = phi <4 x float> [ %c, %entry ], [ %0, %for.inc ]
291   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
292   %cmp = icmp slt i32 %i.0, %iter
293   br i1 %cmp, label %for.body, label %for.end
295 for.body:
296   br label %for.inc
298 for.inc:
299   %0 = call <4 x float> @llvm.x86.fma.vfmsubadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %c.addr.0)
300   %inc = add nsw i32 %i.0, 1
301   br label %for.cond
303 for.end:
304   ret <4 x float> %c.addr.0
307 define <4 x float> @fmaddps_loop_128(i32 %iter, <4 x float> %a, <4 x float> %b, <4 x float> %c) {
308 ; CHECK-LABEL: fmaddps_loop_128:
309 ; CHECK:       # %bb.0: # %entry
310 ; CHECK-NEXT:    xorl %eax, %eax
311 ; CHECK-NEXT:    cmpl %edi, %eax
312 ; CHECK-NEXT:    jge .LBB8_3
313 ; CHECK-NEXT:    .p2align 4, 0x90
314 ; CHECK-NEXT:  .LBB8_2: # %for.body
315 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
316 ; CHECK-NEXT:    vfmadd231ps {{.*#+}} xmm2 = (xmm0 * xmm1) + xmm2
317 ; CHECK-NEXT:    incl %eax
318 ; CHECK-NEXT:    cmpl %edi, %eax
319 ; CHECK-NEXT:    jl .LBB8_2
320 ; CHECK-NEXT:  .LBB8_3: # %for.end
321 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
322 ; CHECK-NEXT:    retq
323 entry:
324   br label %for.cond
326 for.cond:
327   %c.addr.0 = phi <4 x float> [ %c, %entry ], [ %0, %for.inc ]
328   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
329   %cmp = icmp slt i32 %i.0, %iter
330   br i1 %cmp, label %for.body, label %for.end
332 for.body:
333   br label %for.inc
335 for.inc:
336   %0 = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %c.addr.0)
337   %inc = add nsw i32 %i.0, 1
338   br label %for.cond
340 for.end:
341   ret <4 x float> %c.addr.0
344 define <4 x float> @fmsubps_loop_128(i32 %iter, <4 x float> %a, <4 x float> %b, <4 x float> %c) {
345 ; CHECK-LABEL: fmsubps_loop_128:
346 ; CHECK:       # %bb.0: # %entry
347 ; CHECK-NEXT:    xorl %eax, %eax
348 ; CHECK-NEXT:    cmpl %edi, %eax
349 ; CHECK-NEXT:    jge .LBB9_3
350 ; CHECK-NEXT:    .p2align 4, 0x90
351 ; CHECK-NEXT:  .LBB9_2: # %for.body
352 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
353 ; CHECK-NEXT:    vfmsub231ps {{.*#+}} xmm2 = (xmm0 * xmm1) - xmm2
354 ; CHECK-NEXT:    incl %eax
355 ; CHECK-NEXT:    cmpl %edi, %eax
356 ; CHECK-NEXT:    jl .LBB9_2
357 ; CHECK-NEXT:  .LBB9_3: # %for.end
358 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
359 ; CHECK-NEXT:    retq
360 entry:
361   br label %for.cond
363 for.cond:
364   %c.addr.0 = phi <4 x float> [ %c, %entry ], [ %0, %for.inc ]
365   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
366   %cmp = icmp slt i32 %i.0, %iter
367   br i1 %cmp, label %for.body, label %for.end
369 for.body:
370   br label %for.inc
372 for.inc:
373   %0 = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %c.addr.0)
374   %inc = add nsw i32 %i.0, 1
375   br label %for.cond
377 for.end:
378   ret <4 x float> %c.addr.0
381 define <4 x float> @fnmaddps_loop_128(i32 %iter, <4 x float> %a, <4 x float> %b, <4 x float> %c) {
382 ; CHECK-LABEL: fnmaddps_loop_128:
383 ; CHECK:       # %bb.0: # %entry
384 ; CHECK-NEXT:    xorl %eax, %eax
385 ; CHECK-NEXT:    cmpl %edi, %eax
386 ; CHECK-NEXT:    jge .LBB10_3
387 ; CHECK-NEXT:    .p2align 4, 0x90
388 ; CHECK-NEXT:  .LBB10_2: # %for.body
389 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
390 ; CHECK-NEXT:    vfnmadd231ps {{.*#+}} xmm2 = -(xmm0 * xmm1) + xmm2
391 ; CHECK-NEXT:    incl %eax
392 ; CHECK-NEXT:    cmpl %edi, %eax
393 ; CHECK-NEXT:    jl .LBB10_2
394 ; CHECK-NEXT:  .LBB10_3: # %for.end
395 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
396 ; CHECK-NEXT:    retq
397 entry:
398   br label %for.cond
400 for.cond:
401   %c.addr.0 = phi <4 x float> [ %c, %entry ], [ %0, %for.inc ]
402   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
403   %cmp = icmp slt i32 %i.0, %iter
404   br i1 %cmp, label %for.body, label %for.end
406 for.body:
407   br label %for.inc
409 for.inc:
410   %0 = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %c.addr.0)
411   %inc = add nsw i32 %i.0, 1
412   br label %for.cond
414 for.end:
415   ret <4 x float> %c.addr.0
418 define <4 x float> @fnmsubps_loop_128(i32 %iter, <4 x float> %a, <4 x float> %b, <4 x float> %c) {
419 ; CHECK-LABEL: fnmsubps_loop_128:
420 ; CHECK:       # %bb.0: # %entry
421 ; CHECK-NEXT:    xorl %eax, %eax
422 ; CHECK-NEXT:    cmpl %edi, %eax
423 ; CHECK-NEXT:    jge .LBB11_3
424 ; CHECK-NEXT:    .p2align 4, 0x90
425 ; CHECK-NEXT:  .LBB11_2: # %for.body
426 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
427 ; CHECK-NEXT:    vfnmsub231ps {{.*#+}} xmm2 = -(xmm0 * xmm1) - xmm2
428 ; CHECK-NEXT:    incl %eax
429 ; CHECK-NEXT:    cmpl %edi, %eax
430 ; CHECK-NEXT:    jl .LBB11_2
431 ; CHECK-NEXT:  .LBB11_3: # %for.end
432 ; CHECK-NEXT:    vmovaps %xmm2, %xmm0
433 ; CHECK-NEXT:    retq
434 entry:
435   br label %for.cond
437 for.cond:
438   %c.addr.0 = phi <4 x float> [ %c, %entry ], [ %0, %for.inc ]
439   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
440   %cmp = icmp slt i32 %i.0, %iter
441   br i1 %cmp, label %for.body, label %for.end
443 for.body:
444   br label %for.inc
446 for.inc:
447   %0 = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %c.addr.0)
448   %inc = add nsw i32 %i.0, 1
449   br label %for.cond
451 for.end:
452   ret <4 x float> %c.addr.0
455 declare <4 x float> @llvm.x86.fma.vfmaddsub.ps(<4 x float>, <4 x float>, <4 x float>)
456 declare <4 x float> @llvm.x86.fma.vfmsubadd.ps(<4 x float>, <4 x float>, <4 x float>)
457 declare <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float>, <4 x float>, <4 x float>)
458 declare <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float>, <4 x float>, <4 x float>)
459 declare <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float>, <4 x float>, <4 x float>)
460 declare <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float>, <4 x float>, <4 x float>)
462 define <4 x double> @fmaddsubpd_loop_256(i32 %iter, <4 x double> %a, <4 x double> %b, <4 x double> %c) {
463 ; CHECK-LABEL: fmaddsubpd_loop_256:
464 ; CHECK:       # %bb.0: # %entry
465 ; CHECK-NEXT:    xorl %eax, %eax
466 ; CHECK-NEXT:    cmpl %edi, %eax
467 ; CHECK-NEXT:    jge .LBB12_3
468 ; CHECK-NEXT:    .p2align 4, 0x90
469 ; CHECK-NEXT:  .LBB12_2: # %for.body
470 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
471 ; CHECK-NEXT:    vfmaddsub231pd {{.*#+}} ymm2 = (ymm0 * ymm1) +/- ymm2
472 ; CHECK-NEXT:    incl %eax
473 ; CHECK-NEXT:    cmpl %edi, %eax
474 ; CHECK-NEXT:    jl .LBB12_2
475 ; CHECK-NEXT:  .LBB12_3: # %for.end
476 ; CHECK-NEXT:    vmovapd %ymm2, %ymm0
477 ; CHECK-NEXT:    retq
478 entry:
479   br label %for.cond
481 for.cond:
482   %c.addr.0 = phi <4 x double> [ %c, %entry ], [ %0, %for.inc ]
483   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
484   %cmp = icmp slt i32 %i.0, %iter
485   br i1 %cmp, label %for.body, label %for.end
487 for.body:
488   br label %for.inc
490 for.inc:
491   %0 = call <4 x double> @llvm.x86.fma.vfmaddsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %c.addr.0)
492   %inc = add nsw i32 %i.0, 1
493   br label %for.cond
495 for.end:
496   ret <4 x double> %c.addr.0
499 define <4 x double> @fmsubaddpd_loop_256(i32 %iter, <4 x double> %a, <4 x double> %b, <4 x double> %c) {
500 ; CHECK-LABEL: fmsubaddpd_loop_256:
501 ; CHECK:       # %bb.0: # %entry
502 ; CHECK-NEXT:    xorl %eax, %eax
503 ; CHECK-NEXT:    cmpl %edi, %eax
504 ; CHECK-NEXT:    jge .LBB13_3
505 ; CHECK-NEXT:    .p2align 4, 0x90
506 ; CHECK-NEXT:  .LBB13_2: # %for.body
507 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
508 ; CHECK-NEXT:    vfmsubadd231pd {{.*#+}} ymm2 = (ymm0 * ymm1) -/+ ymm2
509 ; CHECK-NEXT:    incl %eax
510 ; CHECK-NEXT:    cmpl %edi, %eax
511 ; CHECK-NEXT:    jl .LBB13_2
512 ; CHECK-NEXT:  .LBB13_3: # %for.end
513 ; CHECK-NEXT:    vmovapd %ymm2, %ymm0
514 ; CHECK-NEXT:    retq
515 entry:
516   br label %for.cond
518 for.cond:
519   %c.addr.0 = phi <4 x double> [ %c, %entry ], [ %0, %for.inc ]
520   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
521   %cmp = icmp slt i32 %i.0, %iter
522   br i1 %cmp, label %for.body, label %for.end
524 for.body:
525   br label %for.inc
527 for.inc:
528   %0 = call <4 x double> @llvm.x86.fma.vfmsubadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %c.addr.0)
529   %inc = add nsw i32 %i.0, 1
530   br label %for.cond
532 for.end:
533   ret <4 x double> %c.addr.0
536 define <4 x double> @fmaddpd_loop_256(i32 %iter, <4 x double> %a, <4 x double> %b, <4 x double> %c) {
537 ; CHECK-LABEL: fmaddpd_loop_256:
538 ; CHECK:       # %bb.0: # %entry
539 ; CHECK-NEXT:    xorl %eax, %eax
540 ; CHECK-NEXT:    cmpl %edi, %eax
541 ; CHECK-NEXT:    jge .LBB14_3
542 ; CHECK-NEXT:    .p2align 4, 0x90
543 ; CHECK-NEXT:  .LBB14_2: # %for.body
544 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
545 ; CHECK-NEXT:    vfmadd231pd {{.*#+}} ymm2 = (ymm0 * ymm1) + ymm2
546 ; CHECK-NEXT:    incl %eax
547 ; CHECK-NEXT:    cmpl %edi, %eax
548 ; CHECK-NEXT:    jl .LBB14_2
549 ; CHECK-NEXT:  .LBB14_3: # %for.end
550 ; CHECK-NEXT:    vmovapd %ymm2, %ymm0
551 ; CHECK-NEXT:    retq
552 entry:
553   br label %for.cond
555 for.cond:
556   %c.addr.0 = phi <4 x double> [ %c, %entry ], [ %0, %for.inc ]
557   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
558   %cmp = icmp slt i32 %i.0, %iter
559   br i1 %cmp, label %for.body, label %for.end
561 for.body:
562   br label %for.inc
564 for.inc:
565   %0 = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %c.addr.0)
566   %inc = add nsw i32 %i.0, 1
567   br label %for.cond
569 for.end:
570   ret <4 x double> %c.addr.0
573 define <4 x double> @fmsubpd_loop_256(i32 %iter, <4 x double> %a, <4 x double> %b, <4 x double> %c) {
574 ; CHECK-LABEL: fmsubpd_loop_256:
575 ; CHECK:       # %bb.0: # %entry
576 ; CHECK-NEXT:    xorl %eax, %eax
577 ; CHECK-NEXT:    cmpl %edi, %eax
578 ; CHECK-NEXT:    jge .LBB15_3
579 ; CHECK-NEXT:    .p2align 4, 0x90
580 ; CHECK-NEXT:  .LBB15_2: # %for.body
581 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
582 ; CHECK-NEXT:    vfmsub231pd {{.*#+}} ymm2 = (ymm0 * ymm1) - ymm2
583 ; CHECK-NEXT:    incl %eax
584 ; CHECK-NEXT:    cmpl %edi, %eax
585 ; CHECK-NEXT:    jl .LBB15_2
586 ; CHECK-NEXT:  .LBB15_3: # %for.end
587 ; CHECK-NEXT:    vmovapd %ymm2, %ymm0
588 ; CHECK-NEXT:    retq
589 entry:
590   br label %for.cond
592 for.cond:
593   %c.addr.0 = phi <4 x double> [ %c, %entry ], [ %0, %for.inc ]
594   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
595   %cmp = icmp slt i32 %i.0, %iter
596   br i1 %cmp, label %for.body, label %for.end
598 for.body:
599   br label %for.inc
601 for.inc:
602   %0 = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %c.addr.0)
603   %inc = add nsw i32 %i.0, 1
604   br label %for.cond
606 for.end:
607   ret <4 x double> %c.addr.0
610 define <4 x double> @fnmaddpd_loop_256(i32 %iter, <4 x double> %a, <4 x double> %b, <4 x double> %c) {
611 ; CHECK-LABEL: fnmaddpd_loop_256:
612 ; CHECK:       # %bb.0: # %entry
613 ; CHECK-NEXT:    xorl %eax, %eax
614 ; CHECK-NEXT:    cmpl %edi, %eax
615 ; CHECK-NEXT:    jge .LBB16_3
616 ; CHECK-NEXT:    .p2align 4, 0x90
617 ; CHECK-NEXT:  .LBB16_2: # %for.body
618 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
619 ; CHECK-NEXT:    vfnmadd231pd {{.*#+}} ymm2 = -(ymm0 * ymm1) + ymm2
620 ; CHECK-NEXT:    incl %eax
621 ; CHECK-NEXT:    cmpl %edi, %eax
622 ; CHECK-NEXT:    jl .LBB16_2
623 ; CHECK-NEXT:  .LBB16_3: # %for.end
624 ; CHECK-NEXT:    vmovapd %ymm2, %ymm0
625 ; CHECK-NEXT:    retq
626 entry:
627   br label %for.cond
629 for.cond:
630   %c.addr.0 = phi <4 x double> [ %c, %entry ], [ %0, %for.inc ]
631   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
632   %cmp = icmp slt i32 %i.0, %iter
633   br i1 %cmp, label %for.body, label %for.end
635 for.body:
636   br label %for.inc
638 for.inc:
639   %0 = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %c.addr.0)
640   %inc = add nsw i32 %i.0, 1
641   br label %for.cond
643 for.end:
644   ret <4 x double> %c.addr.0
647 define <4 x double> @fnmsubpd_loop_256(i32 %iter, <4 x double> %a, <4 x double> %b, <4 x double> %c) {
648 ; CHECK-LABEL: fnmsubpd_loop_256:
649 ; CHECK:       # %bb.0: # %entry
650 ; CHECK-NEXT:    xorl %eax, %eax
651 ; CHECK-NEXT:    cmpl %edi, %eax
652 ; CHECK-NEXT:    jge .LBB17_3
653 ; CHECK-NEXT:    .p2align 4, 0x90
654 ; CHECK-NEXT:  .LBB17_2: # %for.body
655 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
656 ; CHECK-NEXT:    vfnmsub231pd {{.*#+}} ymm2 = -(ymm0 * ymm1) - ymm2
657 ; CHECK-NEXT:    incl %eax
658 ; CHECK-NEXT:    cmpl %edi, %eax
659 ; CHECK-NEXT:    jl .LBB17_2
660 ; CHECK-NEXT:  .LBB17_3: # %for.end
661 ; CHECK-NEXT:    vmovapd %ymm2, %ymm0
662 ; CHECK-NEXT:    retq
663 entry:
664   br label %for.cond
666 for.cond:
667   %c.addr.0 = phi <4 x double> [ %c, %entry ], [ %0, %for.inc ]
668   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
669   %cmp = icmp slt i32 %i.0, %iter
670   br i1 %cmp, label %for.body, label %for.end
672 for.body:
673   br label %for.inc
675 for.inc:
676   %0 = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %c.addr.0)
677   %inc = add nsw i32 %i.0, 1
678   br label %for.cond
680 for.end:
681   ret <4 x double> %c.addr.0
684 declare <4 x double> @llvm.x86.fma.vfmaddsub.pd.256(<4 x double>, <4 x double>, <4 x double>)
685 declare <4 x double> @llvm.x86.fma.vfmsubadd.pd.256(<4 x double>, <4 x double>, <4 x double>)
686 declare <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double>, <4 x double>, <4 x double>)
687 declare <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double>, <4 x double>, <4 x double>)
688 declare <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double>, <4 x double>, <4 x double>)
689 declare <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double>, <4 x double>, <4 x double>)
691 define <8 x float> @fmaddsubps_loop_256(i32 %iter, <8 x float> %a, <8 x float> %b, <8 x float> %c) {
692 ; CHECK-LABEL: fmaddsubps_loop_256:
693 ; CHECK:       # %bb.0: # %entry
694 ; CHECK-NEXT:    xorl %eax, %eax
695 ; CHECK-NEXT:    cmpl %edi, %eax
696 ; CHECK-NEXT:    jge .LBB18_3
697 ; CHECK-NEXT:    .p2align 4, 0x90
698 ; CHECK-NEXT:  .LBB18_2: # %for.body
699 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
700 ; CHECK-NEXT:    vfmaddsub231ps {{.*#+}} ymm2 = (ymm0 * ymm1) +/- ymm2
701 ; CHECK-NEXT:    incl %eax
702 ; CHECK-NEXT:    cmpl %edi, %eax
703 ; CHECK-NEXT:    jl .LBB18_2
704 ; CHECK-NEXT:  .LBB18_3: # %for.end
705 ; CHECK-NEXT:    vmovaps %ymm2, %ymm0
706 ; CHECK-NEXT:    retq
707 entry:
708   br label %for.cond
710 for.cond:
711   %c.addr.0 = phi <8 x float> [ %c, %entry ], [ %0, %for.inc ]
712   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
713   %cmp = icmp slt i32 %i.0, %iter
714   br i1 %cmp, label %for.body, label %for.end
716 for.body:
717   br label %for.inc
719 for.inc:
720   %0 = call <8 x float> @llvm.x86.fma.vfmaddsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %c.addr.0)
721   %inc = add nsw i32 %i.0, 1
722   br label %for.cond
724 for.end:
725   ret <8 x float> %c.addr.0
728 define <8 x float> @fmsubaddps_loop_256(i32 %iter, <8 x float> %a, <8 x float> %b, <8 x float> %c) {
729 ; CHECK-LABEL: fmsubaddps_loop_256:
730 ; CHECK:       # %bb.0: # %entry
731 ; CHECK-NEXT:    xorl %eax, %eax
732 ; CHECK-NEXT:    cmpl %edi, %eax
733 ; CHECK-NEXT:    jge .LBB19_3
734 ; CHECK-NEXT:    .p2align 4, 0x90
735 ; CHECK-NEXT:  .LBB19_2: # %for.body
736 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
737 ; CHECK-NEXT:    vfmsubadd231ps {{.*#+}} ymm2 = (ymm0 * ymm1) -/+ ymm2
738 ; CHECK-NEXT:    incl %eax
739 ; CHECK-NEXT:    cmpl %edi, %eax
740 ; CHECK-NEXT:    jl .LBB19_2
741 ; CHECK-NEXT:  .LBB19_3: # %for.end
742 ; CHECK-NEXT:    vmovaps %ymm2, %ymm0
743 ; CHECK-NEXT:    retq
744 entry:
745   br label %for.cond
747 for.cond:
748   %c.addr.0 = phi <8 x float> [ %c, %entry ], [ %0, %for.inc ]
749   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
750   %cmp = icmp slt i32 %i.0, %iter
751   br i1 %cmp, label %for.body, label %for.end
753 for.body:
754   br label %for.inc
756 for.inc:
757   %0 = call <8 x float> @llvm.x86.fma.vfmsubadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %c.addr.0)
758   %inc = add nsw i32 %i.0, 1
759   br label %for.cond
761 for.end:
762   ret <8 x float> %c.addr.0
765 define <8 x float> @fmaddps_loop_256(i32 %iter, <8 x float> %a, <8 x float> %b, <8 x float> %c) {
766 ; CHECK-LABEL: fmaddps_loop_256:
767 ; CHECK:       # %bb.0: # %entry
768 ; CHECK-NEXT:    xorl %eax, %eax
769 ; CHECK-NEXT:    cmpl %edi, %eax
770 ; CHECK-NEXT:    jge .LBB20_3
771 ; CHECK-NEXT:    .p2align 4, 0x90
772 ; CHECK-NEXT:  .LBB20_2: # %for.body
773 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
774 ; CHECK-NEXT:    vfmadd231ps {{.*#+}} ymm2 = (ymm0 * ymm1) + ymm2
775 ; CHECK-NEXT:    incl %eax
776 ; CHECK-NEXT:    cmpl %edi, %eax
777 ; CHECK-NEXT:    jl .LBB20_2
778 ; CHECK-NEXT:  .LBB20_3: # %for.end
779 ; CHECK-NEXT:    vmovaps %ymm2, %ymm0
780 ; CHECK-NEXT:    retq
781 entry:
782   br label %for.cond
784 for.cond:
785   %c.addr.0 = phi <8 x float> [ %c, %entry ], [ %0, %for.inc ]
786   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
787   %cmp = icmp slt i32 %i.0, %iter
788   br i1 %cmp, label %for.body, label %for.end
790 for.body:
791   br label %for.inc
793 for.inc:
794   %0 = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %c.addr.0)
795   %inc = add nsw i32 %i.0, 1
796   br label %for.cond
798 for.end:
799   ret <8 x float> %c.addr.0
802 define <8 x float> @fmsubps_loop_256(i32 %iter, <8 x float> %a, <8 x float> %b, <8 x float> %c) {
803 ; CHECK-LABEL: fmsubps_loop_256:
804 ; CHECK:       # %bb.0: # %entry
805 ; CHECK-NEXT:    xorl %eax, %eax
806 ; CHECK-NEXT:    cmpl %edi, %eax
807 ; CHECK-NEXT:    jge .LBB21_3
808 ; CHECK-NEXT:    .p2align 4, 0x90
809 ; CHECK-NEXT:  .LBB21_2: # %for.body
810 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
811 ; CHECK-NEXT:    vfmsub231ps {{.*#+}} ymm2 = (ymm0 * ymm1) - ymm2
812 ; CHECK-NEXT:    incl %eax
813 ; CHECK-NEXT:    cmpl %edi, %eax
814 ; CHECK-NEXT:    jl .LBB21_2
815 ; CHECK-NEXT:  .LBB21_3: # %for.end
816 ; CHECK-NEXT:    vmovaps %ymm2, %ymm0
817 ; CHECK-NEXT:    retq
818 entry:
819   br label %for.cond
821 for.cond:
822   %c.addr.0 = phi <8 x float> [ %c, %entry ], [ %0, %for.inc ]
823   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
824   %cmp = icmp slt i32 %i.0, %iter
825   br i1 %cmp, label %for.body, label %for.end
827 for.body:
828   br label %for.inc
830 for.inc:
831   %0 = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %c.addr.0)
832   %inc = add nsw i32 %i.0, 1
833   br label %for.cond
835 for.end:
836   ret <8 x float> %c.addr.0
839 define <8 x float> @fnmaddps_loop_256(i32 %iter, <8 x float> %a, <8 x float> %b, <8 x float> %c) {
840 ; CHECK-LABEL: fnmaddps_loop_256:
841 ; CHECK:       # %bb.0: # %entry
842 ; CHECK-NEXT:    xorl %eax, %eax
843 ; CHECK-NEXT:    cmpl %edi, %eax
844 ; CHECK-NEXT:    jge .LBB22_3
845 ; CHECK-NEXT:    .p2align 4, 0x90
846 ; CHECK-NEXT:  .LBB22_2: # %for.body
847 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
848 ; CHECK-NEXT:    vfnmadd231ps {{.*#+}} ymm2 = -(ymm0 * ymm1) + ymm2
849 ; CHECK-NEXT:    incl %eax
850 ; CHECK-NEXT:    cmpl %edi, %eax
851 ; CHECK-NEXT:    jl .LBB22_2
852 ; CHECK-NEXT:  .LBB22_3: # %for.end
853 ; CHECK-NEXT:    vmovaps %ymm2, %ymm0
854 ; CHECK-NEXT:    retq
855 entry:
856   br label %for.cond
858 for.cond:
859   %c.addr.0 = phi <8 x float> [ %c, %entry ], [ %0, %for.inc ]
860   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
861   %cmp = icmp slt i32 %i.0, %iter
862   br i1 %cmp, label %for.body, label %for.end
864 for.body:
865   br label %for.inc
867 for.inc:
868   %0 = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %c.addr.0)
869   %inc = add nsw i32 %i.0, 1
870   br label %for.cond
872 for.end:
873   ret <8 x float> %c.addr.0
876 define <8 x float> @fnmsubps_loop_256(i32 %iter, <8 x float> %a, <8 x float> %b, <8 x float> %c) {
877 ; CHECK-LABEL: fnmsubps_loop_256:
878 ; CHECK:       # %bb.0: # %entry
879 ; CHECK-NEXT:    xorl %eax, %eax
880 ; CHECK-NEXT:    cmpl %edi, %eax
881 ; CHECK-NEXT:    jge .LBB23_3
882 ; CHECK-NEXT:    .p2align 4, 0x90
883 ; CHECK-NEXT:  .LBB23_2: # %for.body
884 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
885 ; CHECK-NEXT:    vfnmsub231ps {{.*#+}} ymm2 = -(ymm0 * ymm1) - ymm2
886 ; CHECK-NEXT:    incl %eax
887 ; CHECK-NEXT:    cmpl %edi, %eax
888 ; CHECK-NEXT:    jl .LBB23_2
889 ; CHECK-NEXT:  .LBB23_3: # %for.end
890 ; CHECK-NEXT:    vmovaps %ymm2, %ymm0
891 ; CHECK-NEXT:    retq
892 entry:
893   br label %for.cond
895 for.cond:
896   %c.addr.0 = phi <8 x float> [ %c, %entry ], [ %0, %for.inc ]
897   %i.0 = phi i32 [ 0, %entry ], [ %inc, %for.inc ]
898   %cmp = icmp slt i32 %i.0, %iter
899   br i1 %cmp, label %for.body, label %for.end
901 for.body:
902   br label %for.inc
904 for.inc:
905   %0 = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %c.addr.0)
906   %inc = add nsw i32 %i.0, 1
907   br label %for.cond
909 for.end:
910   ret <8 x float> %c.addr.0
913 declare <8 x float> @llvm.x86.fma.vfmaddsub.ps.256(<8 x float>, <8 x float>, <8 x float>)
914 declare <8 x float> @llvm.x86.fma.vfmsubadd.ps.256(<8 x float>, <8 x float>, <8 x float>)
915 declare <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float>, <8 x float>, <8 x float>)
916 declare <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float>, <8 x float>, <8 x float>)
917 declare <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float>, <8 x float>, <8 x float>)
918 declare <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float>, <8 x float>, <8 x float>)