[AMDGPU] Make v8i16/v8f16 legal
[llvm-project.git] / llvm / test / CodeGen / AMDGPU / GlobalISel / combine-fma-add-fma-mul.ll
blob093111b755c019dc5062bfa87175240f0336376b
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -fp-contract=fast < %s | FileCheck -check-prefix=GFX9-CONTRACT %s
3 ; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 --denormal-fp-math=preserve-sign < %s | FileCheck -check-prefix=GFX9-DENORM %s
4 ; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -fp-contract=fast < %s | FileCheck -check-prefix=GFX10-CONTRACT %s
5 ; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 --denormal-fp-math=preserve-sign < %s | FileCheck -check-prefix=GFX10-DENORM %s
7 ; fadd (fma a, b, (fmul c, d)), e --> fma a, b, (fma c, d, e)
8 ; fadd e, (fma a, b, (fmul c, d)) --> fma a, b, (fma c, d, e)
10 define float @test_f32_add_mul(float %a, float %b, float %c, float %d, float %e) {
11 ; GFX9-CONTRACT-LABEL: test_f32_add_mul:
12 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
13 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
14 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v2, v2, v3, v4
15 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v0, v0, v1, v2
16 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
18 ; GFX9-DENORM-LABEL: test_f32_add_mul:
19 ; GFX9-DENORM:       ; %bb.0: ; %.entry
20 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
21 ; GFX9-DENORM-NEXT:    v_mad_f32 v2, v2, v3, v4
22 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v2, v0, v1
23 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v0, v2
24 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
26 ; GFX10-CONTRACT-LABEL: test_f32_add_mul:
27 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
28 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
29 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
30 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v2, v2, v3, v4
31 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v2, v0, v1
32 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v0, v2
33 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
35 ; GFX10-DENORM-LABEL: test_f32_add_mul:
36 ; GFX10-DENORM:       ; %bb.0: ; %.entry
37 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
38 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
39 ; GFX10-DENORM-NEXT:    v_fma_f32 v2, v2, v3, v4
40 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v2, v0, v1
41 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v0, v2
42 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
43 .entry:
44   %x = fmul fast float %c, %d
45   %y = call fast float @llvm.fmuladd.f32(float %a, float %b, float %x)
46   %z = fadd fast float %y, %e
47   ret float %z
50 define float @test_f32_add_mul_rhs(float %a, float %b, float %c, float %d, float %e) {
51 ; GFX9-CONTRACT-LABEL: test_f32_add_mul_rhs:
52 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
53 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
54 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v2, v2, v3, v4
55 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v0, v0, v1, v2
56 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
58 ; GFX9-DENORM-LABEL: test_f32_add_mul_rhs:
59 ; GFX9-DENORM:       ; %bb.0: ; %.entry
60 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
61 ; GFX9-DENORM-NEXT:    v_mad_f32 v2, v2, v3, v4
62 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v2, v0, v1
63 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v0, v2
64 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
66 ; GFX10-CONTRACT-LABEL: test_f32_add_mul_rhs:
67 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
68 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
69 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
70 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v2, v2, v3, v4
71 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v2, v0, v1
72 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v0, v2
73 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
75 ; GFX10-DENORM-LABEL: test_f32_add_mul_rhs:
76 ; GFX10-DENORM:       ; %bb.0: ; %.entry
77 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
78 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
79 ; GFX10-DENORM-NEXT:    v_fma_f32 v2, v2, v3, v4
80 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v2, v0, v1
81 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v0, v2
82 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
83 .entry:
84   %x = fmul fast float %c, %d
85   %y = call fast float @llvm.fmuladd.f32(float %a, float %b, float %x)
86   %z = fadd fast float %e, %y
87   ret float %z
90 define half @test_half_add_mul(half %a, half %b, half %c, half %d, half %e) {
91 ; GFX9-CONTRACT-LABEL: test_half_add_mul:
92 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
93 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
94 ; GFX9-CONTRACT-NEXT:    v_fma_f16 v2, v2, v3, v4
95 ; GFX9-CONTRACT-NEXT:    v_fma_f16 v0, v0, v1, v2
96 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
98 ; GFX9-DENORM-LABEL: test_half_add_mul:
99 ; GFX9-DENORM:       ; %bb.0: ; %.entry
100 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
101 ; GFX9-DENORM-NEXT:    v_mad_legacy_f16 v2, v2, v3, v4
102 ; GFX9-DENORM-NEXT:    v_mac_f16_e32 v2, v0, v1
103 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v0, v2
104 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
106 ; GFX10-CONTRACT-LABEL: test_half_add_mul:
107 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
108 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
109 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
110 ; GFX10-CONTRACT-NEXT:    v_fma_f16 v2, v2, v3, v4
111 ; GFX10-CONTRACT-NEXT:    v_fmac_f16_e32 v2, v0, v1
112 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v0, v2
113 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
115 ; GFX10-DENORM-LABEL: test_half_add_mul:
116 ; GFX10-DENORM:       ; %bb.0: ; %.entry
117 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
118 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
119 ; GFX10-DENORM-NEXT:    v_mul_f16_e32 v2, v2, v3
120 ; GFX10-DENORM-NEXT:    v_mul_f16_e32 v0, v0, v1
121 ; GFX10-DENORM-NEXT:    v_add_f16_e32 v0, v0, v2
122 ; GFX10-DENORM-NEXT:    v_add_f16_e32 v0, v0, v4
123 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
124 .entry:
125   %x = fmul fast half %c, %d
126   %y = call fast half @llvm.fmuladd.f16(half %a, half %b, half %x)
127   %z = fadd fast half %y, %e
128   ret half %z
131 define half @test_half_add_mul_rhs(half %a, half %b, half %c, half %d, half %e) {
132 ; GFX9-CONTRACT-LABEL: test_half_add_mul_rhs:
133 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
134 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
135 ; GFX9-CONTRACT-NEXT:    v_fma_f16 v2, v2, v3, v4
136 ; GFX9-CONTRACT-NEXT:    v_fma_f16 v0, v0, v1, v2
137 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
139 ; GFX9-DENORM-LABEL: test_half_add_mul_rhs:
140 ; GFX9-DENORM:       ; %bb.0: ; %.entry
141 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
142 ; GFX9-DENORM-NEXT:    v_mad_legacy_f16 v2, v2, v3, v4
143 ; GFX9-DENORM-NEXT:    v_mac_f16_e32 v2, v0, v1
144 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v0, v2
145 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
147 ; GFX10-CONTRACT-LABEL: test_half_add_mul_rhs:
148 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
149 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
150 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
151 ; GFX10-CONTRACT-NEXT:    v_fma_f16 v2, v2, v3, v4
152 ; GFX10-CONTRACT-NEXT:    v_fmac_f16_e32 v2, v0, v1
153 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v0, v2
154 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
156 ; GFX10-DENORM-LABEL: test_half_add_mul_rhs:
157 ; GFX10-DENORM:       ; %bb.0: ; %.entry
158 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
159 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
160 ; GFX10-DENORM-NEXT:    v_mul_f16_e32 v2, v2, v3
161 ; GFX10-DENORM-NEXT:    v_mul_f16_e32 v0, v0, v1
162 ; GFX10-DENORM-NEXT:    v_add_f16_e32 v0, v0, v2
163 ; GFX10-DENORM-NEXT:    v_add_f16_e32 v0, v4, v0
164 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
165 .entry:
166   %x = fmul fast half %c, %d
167   %y = call fast half @llvm.fmuladd.f16(half %a, half %b, half %x)
168   %z = fadd fast half %e, %y
169   ret half %z
172 define double @test_double_add_mul(double %a, double %b, double %c, double %d, double %e) {
173 ; GFX9-CONTRACT-LABEL: test_double_add_mul:
174 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
175 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
176 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
177 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[0:1], v[0:1], v[2:3], v[4:5]
178 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
180 ; GFX9-DENORM-LABEL: test_double_add_mul:
181 ; GFX9-DENORM:       ; %bb.0: ; %.entry
182 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
183 ; GFX9-DENORM-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
184 ; GFX9-DENORM-NEXT:    v_fma_f64 v[0:1], v[0:1], v[2:3], v[4:5]
185 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
187 ; GFX10-CONTRACT-LABEL: test_double_add_mul:
188 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
189 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
190 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
191 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
192 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[0:1], v[0:1], v[2:3], v[4:5]
193 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
195 ; GFX10-DENORM-LABEL: test_double_add_mul:
196 ; GFX10-DENORM:       ; %bb.0: ; %.entry
197 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
198 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
199 ; GFX10-DENORM-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
200 ; GFX10-DENORM-NEXT:    v_fma_f64 v[0:1], v[0:1], v[2:3], v[4:5]
201 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
202 .entry:
203   %x = fmul fast double %c, %d
204   %y = call fast double @llvm.fmuladd.f64(double %a, double %b, double %x)
205   %z = fadd fast double %y, %e
206   ret double %z
209 define double @test_double_add_mul_rhs(double %a, double %b, double %c, double %d, double %e) {
210 ; GFX9-CONTRACT-LABEL: test_double_add_mul_rhs:
211 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
212 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
213 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
214 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[0:1], v[0:1], v[2:3], v[4:5]
215 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
217 ; GFX9-DENORM-LABEL: test_double_add_mul_rhs:
218 ; GFX9-DENORM:       ; %bb.0: ; %.entry
219 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
220 ; GFX9-DENORM-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
221 ; GFX9-DENORM-NEXT:    v_fma_f64 v[0:1], v[0:1], v[2:3], v[4:5]
222 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
224 ; GFX10-CONTRACT-LABEL: test_double_add_mul_rhs:
225 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
226 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
227 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
228 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
229 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[0:1], v[0:1], v[2:3], v[4:5]
230 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
232 ; GFX10-DENORM-LABEL: test_double_add_mul_rhs:
233 ; GFX10-DENORM:       ; %bb.0: ; %.entry
234 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
235 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
236 ; GFX10-DENORM-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
237 ; GFX10-DENORM-NEXT:    v_fma_f64 v[0:1], v[0:1], v[2:3], v[4:5]
238 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
239 .entry:
240   %x = fmul fast double %c, %d
241   %y = call fast double @llvm.fmuladd.f64(double %a, double %b, double %x)
242   %z = fadd fast double %e, %y
243   ret double %z
246 define <4 x float> @test_v4f32_add_mul(<4 x float> %a, <4 x float> %b, <4 x float> %c, <4 x float> %d, <4 x float> %e) {
247 ; GFX9-CONTRACT-LABEL: test_v4f32_add_mul:
248 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
249 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
250 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v8, v8, v12, v16
251 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v9, v9, v13, v17
252 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v10, v10, v14, v18
253 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v11, v11, v15, v19
254 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v0, v0, v4, v8
255 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v1, v1, v5, v9
256 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v2, v2, v6, v10
257 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v3, v3, v7, v11
258 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
260 ; GFX9-DENORM-LABEL: test_v4f32_add_mul:
261 ; GFX9-DENORM:       ; %bb.0: ; %.entry
262 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
263 ; GFX9-DENORM-NEXT:    v_mad_f32 v8, v8, v12, v16
264 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v8, v0, v4
265 ; GFX9-DENORM-NEXT:    v_mad_f32 v4, v9, v13, v17
266 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v4, v1, v5
267 ; GFX9-DENORM-NEXT:    v_mad_f32 v5, v10, v14, v18
268 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v5, v2, v6
269 ; GFX9-DENORM-NEXT:    v_mad_f32 v6, v11, v15, v19
270 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v6, v3, v7
271 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v0, v8
272 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v1, v4
273 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v2, v5
274 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v3, v6
275 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
277 ; GFX10-CONTRACT-LABEL: test_v4f32_add_mul:
278 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
279 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
280 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
281 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v8, v8, v12, v16
282 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v9, v9, v13, v17
283 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v10, v10, v14, v18
284 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v11, v11, v15, v19
285 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v8, v0, v4
286 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v9, v1, v5
287 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v10, v2, v6
288 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v11, v3, v7
289 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v0, v8
290 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v1, v9
291 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v2, v10
292 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v3, v11
293 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
295 ; GFX10-DENORM-LABEL: test_v4f32_add_mul:
296 ; GFX10-DENORM:       ; %bb.0: ; %.entry
297 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
298 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
299 ; GFX10-DENORM-NEXT:    v_fma_f32 v8, v8, v12, v16
300 ; GFX10-DENORM-NEXT:    v_fma_f32 v9, v9, v13, v17
301 ; GFX10-DENORM-NEXT:    v_fma_f32 v10, v10, v14, v18
302 ; GFX10-DENORM-NEXT:    v_fma_f32 v11, v11, v15, v19
303 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v8, v0, v4
304 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v9, v1, v5
305 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v10, v2, v6
306 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v11, v3, v7
307 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v0, v8
308 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v1, v9
309 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v2, v10
310 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v3, v11
311 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
312 .entry:
313   %x = fmul fast <4 x float> %c, %d
314   %y = call fast <4 x float> @llvm.fmuladd.v4f32(<4 x float> %a, <4 x float> %b, <4 x float> %x)
315   %z = fadd fast <4 x float> %y, %e
316   ret <4 x float> %z
319 define <4 x float> @test_v4f32_add_mul_rhs(<4 x float> %a, <4 x float> %b, <4 x float> %c, <4 x float> %d, <4 x float> %e) {
320 ; GFX9-CONTRACT-LABEL: test_v4f32_add_mul_rhs:
321 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
322 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
323 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v8, v8, v12, v16
324 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v9, v9, v13, v17
325 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v10, v10, v14, v18
326 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v11, v11, v15, v19
327 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v0, v0, v4, v8
328 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v1, v1, v5, v9
329 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v2, v2, v6, v10
330 ; GFX9-CONTRACT-NEXT:    v_fma_f32 v3, v3, v7, v11
331 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
333 ; GFX9-DENORM-LABEL: test_v4f32_add_mul_rhs:
334 ; GFX9-DENORM:       ; %bb.0: ; %.entry
335 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
336 ; GFX9-DENORM-NEXT:    v_mad_f32 v8, v8, v12, v16
337 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v8, v0, v4
338 ; GFX9-DENORM-NEXT:    v_mad_f32 v4, v9, v13, v17
339 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v4, v1, v5
340 ; GFX9-DENORM-NEXT:    v_mad_f32 v5, v10, v14, v18
341 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v5, v2, v6
342 ; GFX9-DENORM-NEXT:    v_mad_f32 v6, v11, v15, v19
343 ; GFX9-DENORM-NEXT:    v_mac_f32_e32 v6, v3, v7
344 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v0, v8
345 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v1, v4
346 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v2, v5
347 ; GFX9-DENORM-NEXT:    v_mov_b32_e32 v3, v6
348 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
350 ; GFX10-CONTRACT-LABEL: test_v4f32_add_mul_rhs:
351 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
352 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
353 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
354 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v8, v8, v12, v16
355 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v9, v9, v13, v17
356 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v10, v10, v14, v18
357 ; GFX10-CONTRACT-NEXT:    v_fma_f32 v11, v11, v15, v19
358 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v8, v0, v4
359 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v9, v1, v5
360 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v10, v2, v6
361 ; GFX10-CONTRACT-NEXT:    v_fmac_f32_e32 v11, v3, v7
362 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v0, v8
363 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v1, v9
364 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v2, v10
365 ; GFX10-CONTRACT-NEXT:    v_mov_b32_e32 v3, v11
366 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
368 ; GFX10-DENORM-LABEL: test_v4f32_add_mul_rhs:
369 ; GFX10-DENORM:       ; %bb.0: ; %.entry
370 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
371 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
372 ; GFX10-DENORM-NEXT:    v_fma_f32 v8, v8, v12, v16
373 ; GFX10-DENORM-NEXT:    v_fma_f32 v9, v9, v13, v17
374 ; GFX10-DENORM-NEXT:    v_fma_f32 v10, v10, v14, v18
375 ; GFX10-DENORM-NEXT:    v_fma_f32 v11, v11, v15, v19
376 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v8, v0, v4
377 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v9, v1, v5
378 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v10, v2, v6
379 ; GFX10-DENORM-NEXT:    v_fmac_f32_e32 v11, v3, v7
380 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v0, v8
381 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v1, v9
382 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v2, v10
383 ; GFX10-DENORM-NEXT:    v_mov_b32_e32 v3, v11
384 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
385 .entry:
386   %x = fmul fast <4 x float> %c, %d
387   %y = call fast <4 x float> @llvm.fmuladd.v4f32(<4 x float> %a, <4 x float> %b, <4 x float> %x)
388   %z = fadd fast <4 x float> %e, %y
389   ret <4 x float> %z
392 define <4 x half> @test_f16_add_mul(<4 x half> %a, <4 x half> %b, <4 x half> %c, <4 x half> %d, <4 x half> %e) {
393 ; GFX9-CONTRACT-LABEL: test_f16_add_mul:
394 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
395 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
396 ; GFX9-CONTRACT-NEXT:    v_pk_fma_f16 v4, v4, v6, v8
397 ; GFX9-CONTRACT-NEXT:    v_pk_fma_f16 v5, v5, v7, v9
398 ; GFX9-CONTRACT-NEXT:    v_pk_fma_f16 v0, v0, v2, v4
399 ; GFX9-CONTRACT-NEXT:    v_pk_fma_f16 v1, v1, v3, v5
400 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
402 ; GFX9-DENORM-LABEL: test_f16_add_mul:
403 ; GFX9-DENORM:       ; %bb.0: ; %.entry
404 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
405 ; GFX9-DENORM-NEXT:    v_pk_mul_f16 v4, v4, v6
406 ; GFX9-DENORM-NEXT:    v_pk_mul_f16 v5, v5, v7
407 ; GFX9-DENORM-NEXT:    v_pk_mul_f16 v0, v0, v2
408 ; GFX9-DENORM-NEXT:    v_pk_mul_f16 v1, v1, v3
409 ; GFX9-DENORM-NEXT:    v_pk_add_f16 v0, v0, v4
410 ; GFX9-DENORM-NEXT:    v_pk_add_f16 v1, v1, v5
411 ; GFX9-DENORM-NEXT:    v_pk_add_f16 v0, v0, v8
412 ; GFX9-DENORM-NEXT:    v_pk_add_f16 v1, v1, v9
413 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
415 ; GFX10-CONTRACT-LABEL: test_f16_add_mul:
416 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
417 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
418 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
419 ; GFX10-CONTRACT-NEXT:    v_pk_fma_f16 v4, v4, v6, v8
420 ; GFX10-CONTRACT-NEXT:    v_pk_fma_f16 v5, v5, v7, v9
421 ; GFX10-CONTRACT-NEXT:    v_pk_fma_f16 v0, v0, v2, v4
422 ; GFX10-CONTRACT-NEXT:    v_pk_fma_f16 v1, v1, v3, v5
423 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
425 ; GFX10-DENORM-LABEL: test_f16_add_mul:
426 ; GFX10-DENORM:       ; %bb.0: ; %.entry
427 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
428 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
429 ; GFX10-DENORM-NEXT:    v_pk_mul_f16 v4, v4, v6
430 ; GFX10-DENORM-NEXT:    v_pk_mul_f16 v5, v5, v7
431 ; GFX10-DENORM-NEXT:    v_pk_mul_f16 v0, v0, v2
432 ; GFX10-DENORM-NEXT:    v_pk_mul_f16 v1, v1, v3
433 ; GFX10-DENORM-NEXT:    v_pk_add_f16 v0, v0, v4
434 ; GFX10-DENORM-NEXT:    v_pk_add_f16 v1, v1, v5
435 ; GFX10-DENORM-NEXT:    v_pk_add_f16 v0, v0, v8
436 ; GFX10-DENORM-NEXT:    v_pk_add_f16 v1, v1, v9
437 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
438 .entry:
439   %x = fmul fast <4 x half> %c, %d
440   %y = call fast <4 x half> @llvm.fmuladd.v4f16(<4 x half> %a, <4 x half> %b, <4 x half> %x)
441   %z = fadd fast <4 x half> %y, %e
442   ret <4 x half> %z
445 define <4 x half> @test_f16_add_mul_rhs(<4 x half> %a, <4 x half> %b, <4 x half> %c, <4 x half> %d, <4 x half> %e) {
446 ; GFX9-CONTRACT-LABEL: test_f16_add_mul_rhs:
447 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
448 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
449 ; GFX9-CONTRACT-NEXT:    v_pk_fma_f16 v4, v4, v6, v8
450 ; GFX9-CONTRACT-NEXT:    v_pk_fma_f16 v5, v5, v7, v9
451 ; GFX9-CONTRACT-NEXT:    v_pk_fma_f16 v0, v0, v2, v4
452 ; GFX9-CONTRACT-NEXT:    v_pk_fma_f16 v1, v1, v3, v5
453 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
455 ; GFX9-DENORM-LABEL: test_f16_add_mul_rhs:
456 ; GFX9-DENORM:       ; %bb.0: ; %.entry
457 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
458 ; GFX9-DENORM-NEXT:    v_pk_mul_f16 v4, v4, v6
459 ; GFX9-DENORM-NEXT:    v_pk_mul_f16 v5, v5, v7
460 ; GFX9-DENORM-NEXT:    v_pk_mul_f16 v0, v0, v2
461 ; GFX9-DENORM-NEXT:    v_pk_mul_f16 v1, v1, v3
462 ; GFX9-DENORM-NEXT:    v_pk_add_f16 v0, v0, v4
463 ; GFX9-DENORM-NEXT:    v_pk_add_f16 v1, v1, v5
464 ; GFX9-DENORM-NEXT:    v_pk_add_f16 v0, v8, v0
465 ; GFX9-DENORM-NEXT:    v_pk_add_f16 v1, v9, v1
466 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
468 ; GFX10-CONTRACT-LABEL: test_f16_add_mul_rhs:
469 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
470 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
471 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
472 ; GFX10-CONTRACT-NEXT:    v_pk_fma_f16 v4, v4, v6, v8
473 ; GFX10-CONTRACT-NEXT:    v_pk_fma_f16 v5, v5, v7, v9
474 ; GFX10-CONTRACT-NEXT:    v_pk_fma_f16 v0, v0, v2, v4
475 ; GFX10-CONTRACT-NEXT:    v_pk_fma_f16 v1, v1, v3, v5
476 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
478 ; GFX10-DENORM-LABEL: test_f16_add_mul_rhs:
479 ; GFX10-DENORM:       ; %bb.0: ; %.entry
480 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
481 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
482 ; GFX10-DENORM-NEXT:    v_pk_mul_f16 v4, v4, v6
483 ; GFX10-DENORM-NEXT:    v_pk_mul_f16 v5, v5, v7
484 ; GFX10-DENORM-NEXT:    v_pk_mul_f16 v0, v0, v2
485 ; GFX10-DENORM-NEXT:    v_pk_mul_f16 v1, v1, v3
486 ; GFX10-DENORM-NEXT:    v_pk_add_f16 v0, v0, v4
487 ; GFX10-DENORM-NEXT:    v_pk_add_f16 v1, v1, v5
488 ; GFX10-DENORM-NEXT:    v_pk_add_f16 v0, v8, v0
489 ; GFX10-DENORM-NEXT:    v_pk_add_f16 v1, v9, v1
490 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
491 .entry:
492   %x = fmul fast <4 x half> %c, %d
493   %y = call fast <4 x half> @llvm.fmuladd.v4f16(<4 x half> %a, <4 x half> %b, <4 x half> %x)
494   %z = fadd fast <4 x half> %e, %y
495   ret <4 x half> %z
498 define <4 x double> @test_f64_add_mul(<4 x double> %a, <4 x double> %b, <4 x double> %c, <4 x double> %d, <4 x double> %e) {
499 ; GFX9-CONTRACT-LABEL: test_f64_add_mul:
500 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
501 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
502 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4
503 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:8
504 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:12
505 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:16
506 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:20
507 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:24
508 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:28
509 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(5)
510 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[16:17], v[16:17], v[24:25], v[31:32]
511 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v31, off, s[0:3], s32
512 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:32
513 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(5)
514 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[18:19], v[18:19], v[26:27], v[33:34]
515 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(3)
516 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[20:21], v[20:21], v[28:29], v[35:36]
517 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[0:1], v[0:1], v[8:9], v[16:17]
518 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[2:3], v[2:3], v[10:11], v[18:19]
519 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[4:5], v[4:5], v[12:13], v[20:21]
520 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0)
521 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[22:23], v[22:23], v[30:31], v[37:38]
522 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[6:7], v[6:7], v[14:15], v[22:23]
523 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
525 ; GFX9-DENORM-LABEL: test_f64_add_mul:
526 ; GFX9-DENORM:       ; %bb.0: ; %.entry
527 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
528 ; GFX9-DENORM-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4
529 ; GFX9-DENORM-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:8
530 ; GFX9-DENORM-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:12
531 ; GFX9-DENORM-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:16
532 ; GFX9-DENORM-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:20
533 ; GFX9-DENORM-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:24
534 ; GFX9-DENORM-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:28
535 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(5)
536 ; GFX9-DENORM-NEXT:    v_fma_f64 v[16:17], v[16:17], v[24:25], v[31:32]
537 ; GFX9-DENORM-NEXT:    buffer_load_dword v31, off, s[0:3], s32
538 ; GFX9-DENORM-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:32
539 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(5)
540 ; GFX9-DENORM-NEXT:    v_fma_f64 v[18:19], v[18:19], v[26:27], v[33:34]
541 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(3)
542 ; GFX9-DENORM-NEXT:    v_fma_f64 v[20:21], v[20:21], v[28:29], v[35:36]
543 ; GFX9-DENORM-NEXT:    v_fma_f64 v[0:1], v[0:1], v[8:9], v[16:17]
544 ; GFX9-DENORM-NEXT:    v_fma_f64 v[2:3], v[2:3], v[10:11], v[18:19]
545 ; GFX9-DENORM-NEXT:    v_fma_f64 v[4:5], v[4:5], v[12:13], v[20:21]
546 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0)
547 ; GFX9-DENORM-NEXT:    v_fma_f64 v[22:23], v[22:23], v[30:31], v[37:38]
548 ; GFX9-DENORM-NEXT:    v_fma_f64 v[6:7], v[6:7], v[14:15], v[22:23]
549 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
551 ; GFX10-CONTRACT-LABEL: test_f64_add_mul:
552 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
553 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
554 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
555 ; GFX10-CONTRACT-NEXT:    s_clause 0x8
556 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v31, off, s[0:3], s32
557 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:4
558 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
559 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:12
560 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:16
561 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:20
562 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:24
563 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:28
564 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:32
565 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(6)
566 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[16:17], v[16:17], v[24:25], v[32:33]
567 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(4)
568 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[18:19], v[18:19], v[26:27], v[34:35]
569 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(2)
570 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[20:21], v[20:21], v[28:29], v[36:37]
571 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0)
572 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[22:23], v[22:23], v[30:31], v[38:39]
573 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[0:1], v[0:1], v[8:9], v[16:17]
574 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[2:3], v[2:3], v[10:11], v[18:19]
575 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[4:5], v[4:5], v[12:13], v[20:21]
576 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[6:7], v[6:7], v[14:15], v[22:23]
577 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
579 ; GFX10-DENORM-LABEL: test_f64_add_mul:
580 ; GFX10-DENORM:       ; %bb.0: ; %.entry
581 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
582 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
583 ; GFX10-DENORM-NEXT:    s_clause 0x8
584 ; GFX10-DENORM-NEXT:    buffer_load_dword v31, off, s[0:3], s32
585 ; GFX10-DENORM-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:4
586 ; GFX10-DENORM-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
587 ; GFX10-DENORM-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:12
588 ; GFX10-DENORM-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:16
589 ; GFX10-DENORM-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:20
590 ; GFX10-DENORM-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:24
591 ; GFX10-DENORM-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:28
592 ; GFX10-DENORM-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:32
593 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(6)
594 ; GFX10-DENORM-NEXT:    v_fma_f64 v[16:17], v[16:17], v[24:25], v[32:33]
595 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(4)
596 ; GFX10-DENORM-NEXT:    v_fma_f64 v[18:19], v[18:19], v[26:27], v[34:35]
597 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(2)
598 ; GFX10-DENORM-NEXT:    v_fma_f64 v[20:21], v[20:21], v[28:29], v[36:37]
599 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0)
600 ; GFX10-DENORM-NEXT:    v_fma_f64 v[22:23], v[22:23], v[30:31], v[38:39]
601 ; GFX10-DENORM-NEXT:    v_fma_f64 v[0:1], v[0:1], v[8:9], v[16:17]
602 ; GFX10-DENORM-NEXT:    v_fma_f64 v[2:3], v[2:3], v[10:11], v[18:19]
603 ; GFX10-DENORM-NEXT:    v_fma_f64 v[4:5], v[4:5], v[12:13], v[20:21]
604 ; GFX10-DENORM-NEXT:    v_fma_f64 v[6:7], v[6:7], v[14:15], v[22:23]
605 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
606 .entry:
607   %x = fmul fast <4 x double> %c, %d
608   %y = call fast <4 x double> @llvm.fmuladd.v4f64(<4 x double> %a, <4 x double> %b, <4 x double> %x)
609   %z = fadd fast <4 x double> %y, %e
610   ret <4 x double> %z
613 define <4 x double> @test_f64_add_mul_rhs(<4 x double> %a, <4 x double> %b, <4 x double> %c, <4 x double> %d, <4 x double> %e) {
614 ; GFX9-CONTRACT-LABEL: test_f64_add_mul_rhs:
615 ; GFX9-CONTRACT:       ; %bb.0: ; %.entry
616 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
617 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4
618 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:8
619 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:12
620 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:16
621 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:20
622 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:24
623 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:28
624 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(5)
625 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[16:17], v[16:17], v[24:25], v[31:32]
626 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v31, off, s[0:3], s32
627 ; GFX9-CONTRACT-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:32
628 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(5)
629 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[18:19], v[18:19], v[26:27], v[33:34]
630 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(3)
631 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[20:21], v[20:21], v[28:29], v[35:36]
632 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[0:1], v[0:1], v[8:9], v[16:17]
633 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[2:3], v[2:3], v[10:11], v[18:19]
634 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[4:5], v[4:5], v[12:13], v[20:21]
635 ; GFX9-CONTRACT-NEXT:    s_waitcnt vmcnt(0)
636 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[22:23], v[22:23], v[30:31], v[37:38]
637 ; GFX9-CONTRACT-NEXT:    v_fma_f64 v[6:7], v[6:7], v[14:15], v[22:23]
638 ; GFX9-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
640 ; GFX9-DENORM-LABEL: test_f64_add_mul_rhs:
641 ; GFX9-DENORM:       ; %bb.0: ; %.entry
642 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
643 ; GFX9-DENORM-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4
644 ; GFX9-DENORM-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:8
645 ; GFX9-DENORM-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:12
646 ; GFX9-DENORM-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:16
647 ; GFX9-DENORM-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:20
648 ; GFX9-DENORM-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:24
649 ; GFX9-DENORM-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:28
650 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(5)
651 ; GFX9-DENORM-NEXT:    v_fma_f64 v[16:17], v[16:17], v[24:25], v[31:32]
652 ; GFX9-DENORM-NEXT:    buffer_load_dword v31, off, s[0:3], s32
653 ; GFX9-DENORM-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:32
654 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(5)
655 ; GFX9-DENORM-NEXT:    v_fma_f64 v[18:19], v[18:19], v[26:27], v[33:34]
656 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(3)
657 ; GFX9-DENORM-NEXT:    v_fma_f64 v[20:21], v[20:21], v[28:29], v[35:36]
658 ; GFX9-DENORM-NEXT:    v_fma_f64 v[0:1], v[0:1], v[8:9], v[16:17]
659 ; GFX9-DENORM-NEXT:    v_fma_f64 v[2:3], v[2:3], v[10:11], v[18:19]
660 ; GFX9-DENORM-NEXT:    v_fma_f64 v[4:5], v[4:5], v[12:13], v[20:21]
661 ; GFX9-DENORM-NEXT:    s_waitcnt vmcnt(0)
662 ; GFX9-DENORM-NEXT:    v_fma_f64 v[22:23], v[22:23], v[30:31], v[37:38]
663 ; GFX9-DENORM-NEXT:    v_fma_f64 v[6:7], v[6:7], v[14:15], v[22:23]
664 ; GFX9-DENORM-NEXT:    s_setpc_b64 s[30:31]
666 ; GFX10-CONTRACT-LABEL: test_f64_add_mul_rhs:
667 ; GFX10-CONTRACT:       ; %bb.0: ; %.entry
668 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
669 ; GFX10-CONTRACT-NEXT:    s_waitcnt_vscnt null, 0x0
670 ; GFX10-CONTRACT-NEXT:    s_clause 0x8
671 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v31, off, s[0:3], s32
672 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:4
673 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
674 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:12
675 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:16
676 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:20
677 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:24
678 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:28
679 ; GFX10-CONTRACT-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:32
680 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(6)
681 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[16:17], v[16:17], v[24:25], v[32:33]
682 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(4)
683 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[18:19], v[18:19], v[26:27], v[34:35]
684 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(2)
685 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[20:21], v[20:21], v[28:29], v[36:37]
686 ; GFX10-CONTRACT-NEXT:    s_waitcnt vmcnt(0)
687 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[22:23], v[22:23], v[30:31], v[38:39]
688 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[0:1], v[0:1], v[8:9], v[16:17]
689 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[2:3], v[2:3], v[10:11], v[18:19]
690 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[4:5], v[4:5], v[12:13], v[20:21]
691 ; GFX10-CONTRACT-NEXT:    v_fma_f64 v[6:7], v[6:7], v[14:15], v[22:23]
692 ; GFX10-CONTRACT-NEXT:    s_setpc_b64 s[30:31]
694 ; GFX10-DENORM-LABEL: test_f64_add_mul_rhs:
695 ; GFX10-DENORM:       ; %bb.0: ; %.entry
696 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
697 ; GFX10-DENORM-NEXT:    s_waitcnt_vscnt null, 0x0
698 ; GFX10-DENORM-NEXT:    s_clause 0x8
699 ; GFX10-DENORM-NEXT:    buffer_load_dword v31, off, s[0:3], s32
700 ; GFX10-DENORM-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:4
701 ; GFX10-DENORM-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
702 ; GFX10-DENORM-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:12
703 ; GFX10-DENORM-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:16
704 ; GFX10-DENORM-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:20
705 ; GFX10-DENORM-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:24
706 ; GFX10-DENORM-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:28
707 ; GFX10-DENORM-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:32
708 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(6)
709 ; GFX10-DENORM-NEXT:    v_fma_f64 v[16:17], v[16:17], v[24:25], v[32:33]
710 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(4)
711 ; GFX10-DENORM-NEXT:    v_fma_f64 v[18:19], v[18:19], v[26:27], v[34:35]
712 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(2)
713 ; GFX10-DENORM-NEXT:    v_fma_f64 v[20:21], v[20:21], v[28:29], v[36:37]
714 ; GFX10-DENORM-NEXT:    s_waitcnt vmcnt(0)
715 ; GFX10-DENORM-NEXT:    v_fma_f64 v[22:23], v[22:23], v[30:31], v[38:39]
716 ; GFX10-DENORM-NEXT:    v_fma_f64 v[0:1], v[0:1], v[8:9], v[16:17]
717 ; GFX10-DENORM-NEXT:    v_fma_f64 v[2:3], v[2:3], v[10:11], v[18:19]
718 ; GFX10-DENORM-NEXT:    v_fma_f64 v[4:5], v[4:5], v[12:13], v[20:21]
719 ; GFX10-DENORM-NEXT:    v_fma_f64 v[6:7], v[6:7], v[14:15], v[22:23]
720 ; GFX10-DENORM-NEXT:    s_setpc_b64 s[30:31]
721 .entry:
722   %x = fmul fast <4 x double> %c, %d
723   %y = call fast <4 x double> @llvm.fmuladd.v4f64(<4 x double> %a, <4 x double> %b, <4 x double> %x)
724   %z = fadd fast <4 x double> %e, %y
725   ret <4 x double> %z
728 declare <4 x double> @llvm.fmuladd.v4f64(<4 x double>, <4 x double>, <4 x double>) #0
729 declare <4 x float> @llvm.fmuladd.v4f32(<4 x float>, <4 x float>, <4 x float>) #0
730 declare <4 x half> @llvm.fmuladd.v4f16(<4 x half>, <4 x half>, <4 x half>) #0
731 declare double @llvm.fmuladd.f64(double, double, double) #0
732 declare float @llvm.fmuladd.f32(float, float, float) #0
733 declare half @llvm.fmuladd.f16(half, half, half) #0
734 attributes #0 = { nounwind readnone }