[clang][modules] Don't prevent translation of FW_Private includes when explicitly...
[llvm-project.git] / llvm / test / CodeGen / Thumb2 / mve-vecreduce-fadd.ll
blobbd2aa4be5fab74d330886250f986543d10078948
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -verify-machineinstrs %s -o - | FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-FP
3 ; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve,+fullfp16,+fp64 -verify-machineinstrs %s -o - | FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-NOFP
5 define arm_aapcs_vfpcc float @fadd_v2f32(<2 x float> %x, float %y) {
6 ; CHECK-LABEL: fadd_v2f32:
7 ; CHECK:       @ %bb.0: @ %entry
8 ; CHECK-NEXT:    vadd.f32 s0, s0, s1
9 ; CHECK-NEXT:    vadd.f32 s0, s4, s0
10 ; CHECK-NEXT:    bx lr
11 entry:
12   %z = call fast float @llvm.vector.reduce.fadd.f32.v2f32(float %y, <2 x float> %x)
13   ret float %z
16 define arm_aapcs_vfpcc float @fadd_v4f32(<4 x float> %x, float %y) {
17 ; CHECK-FP-LABEL: fadd_v4f32:
18 ; CHECK-FP:       @ %bb.0: @ %entry
19 ; CHECK-FP-NEXT:    vadd.f32 s2, s2, s3
20 ; CHECK-FP-NEXT:    vadd.f32 s0, s0, s1
21 ; CHECK-FP-NEXT:    vadd.f32 s0, s0, s2
22 ; CHECK-FP-NEXT:    vadd.f32 s0, s4, s0
23 ; CHECK-FP-NEXT:    bx lr
25 ; CHECK-NOFP-LABEL: fadd_v4f32:
26 ; CHECK-NOFP:       @ %bb.0: @ %entry
27 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s0, s1
28 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s0, s2
29 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s0, s3
30 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s4, s0
31 ; CHECK-NOFP-NEXT:    bx lr
32 entry:
33   %z = call fast float @llvm.vector.reduce.fadd.f32.v4f32(float %y, <4 x float> %x)
34   ret float %z
37 define arm_aapcs_vfpcc float @fadd_v8f32(<8 x float> %x, float %y) {
38 ; CHECK-FP-LABEL: fadd_v8f32:
39 ; CHECK-FP:       @ %bb.0: @ %entry
40 ; CHECK-FP-NEXT:    vadd.f32 q0, q0, q1
41 ; CHECK-FP-NEXT:    vadd.f32 s2, s2, s3
42 ; CHECK-FP-NEXT:    vadd.f32 s0, s0, s1
43 ; CHECK-FP-NEXT:    vadd.f32 s0, s0, s2
44 ; CHECK-FP-NEXT:    vadd.f32 s0, s8, s0
45 ; CHECK-FP-NEXT:    bx lr
47 ; CHECK-NOFP-LABEL: fadd_v8f32:
48 ; CHECK-NOFP:       @ %bb.0: @ %entry
49 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s0, s4
50 ; CHECK-NOFP-NEXT:    vadd.f32 s10, s1, s5
51 ; CHECK-NOFP-NEXT:    vadd.f32 s2, s2, s6
52 ; CHECK-NOFP-NEXT:    vadd.f32 s4, s3, s7
53 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s0, s10
54 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s0, s2
55 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s0, s4
56 ; CHECK-NOFP-NEXT:    vadd.f32 s0, s8, s0
57 ; CHECK-NOFP-NEXT:    bx lr
58 entry:
59   %z = call fast float @llvm.vector.reduce.fadd.f32.v8f32(float %y, <8 x float> %x)
60   ret float %z
63 define arm_aapcs_vfpcc half @fadd_v2f16(<2 x half> %x, half %y) {
64 ; CHECK-LABEL: fadd_v2f16:
65 ; CHECK:       @ %bb.0: @ %entry
66 ; CHECK-NEXT:    vmovx.f16 s2, s0
67 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
68 ; CHECK-NEXT:    vadd.f16 s0, s4, s0
69 ; CHECK-NEXT:    bx lr
70 entry:
71   %z = call fast half @llvm.vector.reduce.fadd.f16.v2f16(half %y, <2 x half> %x)
72   ret half %z
75 define arm_aapcs_vfpcc half @fadd_v4f16(<4 x half> %x, half %y) {
76 ; CHECK-FP-LABEL: fadd_v4f16:
77 ; CHECK-FP:       @ %bb.0: @ %entry
78 ; CHECK-FP-NEXT:    vmovx.f16 s2, s1
79 ; CHECK-FP-NEXT:    vmovx.f16 s6, s0
80 ; CHECK-FP-NEXT:    vadd.f16 s2, s1, s2
81 ; CHECK-FP-NEXT:    vadd.f16 s0, s0, s6
82 ; CHECK-FP-NEXT:    vadd.f16 s0, s0, s2
83 ; CHECK-FP-NEXT:    vadd.f16 s0, s4, s0
84 ; CHECK-FP-NEXT:    bx lr
86 ; CHECK-NOFP-LABEL: fadd_v4f16:
87 ; CHECK-NOFP:       @ %bb.0: @ %entry
88 ; CHECK-NOFP-NEXT:    vmovx.f16 s2, s0
89 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s2
90 ; CHECK-NOFP-NEXT:    vmovx.f16 s2, s1
91 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s1
92 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s2
93 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s4, s0
94 ; CHECK-NOFP-NEXT:    bx lr
95 entry:
96   %z = call fast half @llvm.vector.reduce.fadd.f16.v4f16(half %y, <4 x half> %x)
97   ret half %z
100 define arm_aapcs_vfpcc half @fadd_v8f16(<8 x half> %x, half %y) {
101 ; CHECK-FP-LABEL: fadd_v8f16:
102 ; CHECK-FP:       @ %bb.0: @ %entry
103 ; CHECK-FP-NEXT:    vrev32.16 q2, q0
104 ; CHECK-FP-NEXT:    vadd.f16 q0, q0, q2
105 ; CHECK-FP-NEXT:    vadd.f16 s2, s2, s3
106 ; CHECK-FP-NEXT:    vadd.f16 s0, s0, s1
107 ; CHECK-FP-NEXT:    vadd.f16 s0, s0, s2
108 ; CHECK-FP-NEXT:    vadd.f16 s0, s4, s0
109 ; CHECK-FP-NEXT:    bx lr
111 ; CHECK-NOFP-LABEL: fadd_v8f16:
112 ; CHECK-NOFP:       @ %bb.0: @ %entry
113 ; CHECK-NOFP-NEXT:    vmovx.f16 s6, s0
114 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s6
115 ; CHECK-NOFP-NEXT:    vmovx.f16 s6, s1
116 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s1
117 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s6
118 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s2
119 ; CHECK-NOFP-NEXT:    vmovx.f16 s2, s2
120 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s2
121 ; CHECK-NOFP-NEXT:    vmovx.f16 s2, s3
122 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s3
123 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s2
124 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s4, s0
125 ; CHECK-NOFP-NEXT:    bx lr
126 entry:
127   %z = call fast half @llvm.vector.reduce.fadd.f16.v8f16(half %y, <8 x half> %x)
128   ret half %z
131 define arm_aapcs_vfpcc half @fadd_v16f16(<16 x half> %x, half %y) {
132 ; CHECK-FP-LABEL: fadd_v16f16:
133 ; CHECK-FP:       @ %bb.0: @ %entry
134 ; CHECK-FP-NEXT:    vadd.f16 q0, q0, q1
135 ; CHECK-FP-NEXT:    vrev32.16 q1, q0
136 ; CHECK-FP-NEXT:    vadd.f16 q0, q0, q1
137 ; CHECK-FP-NEXT:    vadd.f16 s2, s2, s3
138 ; CHECK-FP-NEXT:    vadd.f16 s0, s0, s1
139 ; CHECK-FP-NEXT:    vadd.f16 s0, s0, s2
140 ; CHECK-FP-NEXT:    vadd.f16 s0, s8, s0
141 ; CHECK-FP-NEXT:    bx lr
143 ; CHECK-NOFP-LABEL: fadd_v16f16:
144 ; CHECK-NOFP:       @ %bb.0: @ %entry
145 ; CHECK-NOFP-NEXT:    vmovx.f16 s12, s0
146 ; CHECK-NOFP-NEXT:    vmovx.f16 s10, s4
147 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s4
148 ; CHECK-NOFP-NEXT:    vadd.f16 s10, s12, s10
149 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s10
150 ; CHECK-NOFP-NEXT:    vadd.f16 s4, s1, s5
151 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s4
152 ; CHECK-NOFP-NEXT:    vmovx.f16 s4, s5
153 ; CHECK-NOFP-NEXT:    vmovx.f16 s10, s1
154 ; CHECK-NOFP-NEXT:    vadd.f16 s4, s10, s4
155 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s4
156 ; CHECK-NOFP-NEXT:    vadd.f16 s4, s2, s6
157 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s4
158 ; CHECK-NOFP-NEXT:    vmovx.f16 s4, s6
159 ; CHECK-NOFP-NEXT:    vmovx.f16 s2, s2
160 ; CHECK-NOFP-NEXT:    vadd.f16 s2, s2, s4
161 ; CHECK-NOFP-NEXT:    vmovx.f16 s4, s3
162 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s2
163 ; CHECK-NOFP-NEXT:    vadd.f16 s2, s3, s7
164 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s2
165 ; CHECK-NOFP-NEXT:    vmovx.f16 s2, s7
166 ; CHECK-NOFP-NEXT:    vadd.f16 s2, s4, s2
167 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s0, s2
168 ; CHECK-NOFP-NEXT:    vadd.f16 s0, s8, s0
169 ; CHECK-NOFP-NEXT:    bx lr
170 entry:
171   %z = call fast half @llvm.vector.reduce.fadd.f16.v16f16(half %y, <16 x half> %x)
172   ret half %z
175 define arm_aapcs_vfpcc double @fadd_v1f64(<1 x double> %x, double %y) {
176 ; CHECK-LABEL: fadd_v1f64:
177 ; CHECK:       @ %bb.0: @ %entry
178 ; CHECK-NEXT:    vadd.f64 d0, d1, d0
179 ; CHECK-NEXT:    bx lr
180 entry:
181   %z = call fast double @llvm.vector.reduce.fadd.f64.v1f64(double %y, <1 x double> %x)
182   ret double %z
185 define arm_aapcs_vfpcc double @fadd_v2f64(<2 x double> %x, double %y) {
186 ; CHECK-LABEL: fadd_v2f64:
187 ; CHECK:       @ %bb.0: @ %entry
188 ; CHECK-NEXT:    vadd.f64 d0, d0, d1
189 ; CHECK-NEXT:    vadd.f64 d0, d2, d0
190 ; CHECK-NEXT:    bx lr
191 entry:
192   %z = call fast double @llvm.vector.reduce.fadd.f64.v2f64(double %y, <2 x double> %x)
193   ret double %z
196 define arm_aapcs_vfpcc double @fadd_v4f64(<4 x double> %x, double %y) {
197 ; CHECK-LABEL: fadd_v4f64:
198 ; CHECK:       @ %bb.0: @ %entry
199 ; CHECK-NEXT:    vadd.f64 d1, d1, d3
200 ; CHECK-NEXT:    vadd.f64 d0, d0, d2
201 ; CHECK-NEXT:    vadd.f64 d0, d0, d1
202 ; CHECK-NEXT:    vadd.f64 d0, d4, d0
203 ; CHECK-NEXT:    bx lr
204 entry:
205   %z = call fast double @llvm.vector.reduce.fadd.f64.v4f64(double %y, <4 x double> %x)
206   ret double %z
209 define arm_aapcs_vfpcc float @fadd_v2f32_nofast(<2 x float> %x, float %y) {
210 ; CHECK-LABEL: fadd_v2f32_nofast:
211 ; CHECK:       @ %bb.0: @ %entry
212 ; CHECK-NEXT:    vadd.f32 s0, s4, s0
213 ; CHECK-NEXT:    vadd.f32 s0, s0, s1
214 ; CHECK-NEXT:    bx lr
215 entry:
216   %z = call float @llvm.vector.reduce.fadd.f32.v2f32(float %y, <2 x float> %x)
217   ret float %z
220 define arm_aapcs_vfpcc float @fadd_v4f32_nofast(<4 x float> %x, float %y) {
221 ; CHECK-LABEL: fadd_v4f32_nofast:
222 ; CHECK:       @ %bb.0: @ %entry
223 ; CHECK-NEXT:    vadd.f32 s0, s4, s0
224 ; CHECK-NEXT:    vadd.f32 s0, s0, s1
225 ; CHECK-NEXT:    vadd.f32 s0, s0, s2
226 ; CHECK-NEXT:    vadd.f32 s0, s0, s3
227 ; CHECK-NEXT:    bx lr
228 entry:
229   %z = call float @llvm.vector.reduce.fadd.f32.v4f32(float %y, <4 x float> %x)
230   ret float %z
233 define arm_aapcs_vfpcc float @fadd_v8f32_nofast(<8 x float> %x, float %y) {
234 ; CHECK-LABEL: fadd_v8f32_nofast:
235 ; CHECK:       @ %bb.0: @ %entry
236 ; CHECK-NEXT:    vadd.f32 s0, s8, s0
237 ; CHECK-NEXT:    vadd.f32 s0, s0, s1
238 ; CHECK-NEXT:    vadd.f32 s0, s0, s2
239 ; CHECK-NEXT:    vadd.f32 s0, s0, s3
240 ; CHECK-NEXT:    vadd.f32 s0, s0, s4
241 ; CHECK-NEXT:    vadd.f32 s0, s0, s5
242 ; CHECK-NEXT:    vadd.f32 s0, s0, s6
243 ; CHECK-NEXT:    vadd.f32 s0, s0, s7
244 ; CHECK-NEXT:    bx lr
245 entry:
246   %z = call float @llvm.vector.reduce.fadd.f32.v8f32(float %y, <8 x float> %x)
247   ret float %z
250 define arm_aapcs_vfpcc half @fadd_v4f16_nofast(<4 x half> %x, half %y) {
251 ; CHECK-LABEL: fadd_v4f16_nofast:
252 ; CHECK:       @ %bb.0: @ %entry
253 ; CHECK-NEXT:    vadd.f16 s2, s4, s0
254 ; CHECK-NEXT:    vmovx.f16 s0, s0
255 ; CHECK-NEXT:    vadd.f16 s0, s2, s0
256 ; CHECK-NEXT:    vmovx.f16 s2, s1
257 ; CHECK-NEXT:    vadd.f16 s0, s0, s1
258 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
259 ; CHECK-NEXT:    bx lr
260 entry:
261   %z = call half @llvm.vector.reduce.fadd.f16.v4f16(half %y, <4 x half> %x)
262   ret half %z
265 define arm_aapcs_vfpcc half @fadd_v8f16_nofast(<8 x half> %x, half %y) {
266 ; CHECK-LABEL: fadd_v8f16_nofast:
267 ; CHECK:       @ %bb.0: @ %entry
268 ; CHECK-NEXT:    vadd.f16 s4, s4, s0
269 ; CHECK-NEXT:    vmovx.f16 s0, s0
270 ; CHECK-NEXT:    vadd.f16 s0, s4, s0
271 ; CHECK-NEXT:    vmovx.f16 s4, s1
272 ; CHECK-NEXT:    vadd.f16 s0, s0, s1
273 ; CHECK-NEXT:    vadd.f16 s0, s0, s4
274 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
275 ; CHECK-NEXT:    vmovx.f16 s2, s2
276 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
277 ; CHECK-NEXT:    vmovx.f16 s2, s3
278 ; CHECK-NEXT:    vadd.f16 s0, s0, s3
279 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
280 ; CHECK-NEXT:    bx lr
281 entry:
282   %z = call half @llvm.vector.reduce.fadd.f16.v8f16(half %y, <8 x half> %x)
283   ret half %z
286 define arm_aapcs_vfpcc half @fadd_v16f16_nofast(<16 x half> %x, half %y) {
287 ; CHECK-LABEL: fadd_v16f16_nofast:
288 ; CHECK:       @ %bb.0: @ %entry
289 ; CHECK-NEXT:    vadd.f16 s8, s8, s0
290 ; CHECK-NEXT:    vmovx.f16 s0, s0
291 ; CHECK-NEXT:    vadd.f16 s0, s8, s0
292 ; CHECK-NEXT:    vmovx.f16 s8, s1
293 ; CHECK-NEXT:    vadd.f16 s0, s0, s1
294 ; CHECK-NEXT:    vadd.f16 s0, s0, s8
295 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
296 ; CHECK-NEXT:    vmovx.f16 s2, s2
297 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
298 ; CHECK-NEXT:    vmovx.f16 s2, s3
299 ; CHECK-NEXT:    vadd.f16 s0, s0, s3
300 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
301 ; CHECK-NEXT:    vmovx.f16 s2, s4
302 ; CHECK-NEXT:    vadd.f16 s0, s0, s4
303 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
304 ; CHECK-NEXT:    vmovx.f16 s2, s5
305 ; CHECK-NEXT:    vadd.f16 s0, s0, s5
306 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
307 ; CHECK-NEXT:    vmovx.f16 s2, s6
308 ; CHECK-NEXT:    vadd.f16 s0, s0, s6
309 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
310 ; CHECK-NEXT:    vmovx.f16 s2, s7
311 ; CHECK-NEXT:    vadd.f16 s0, s0, s7
312 ; CHECK-NEXT:    vadd.f16 s0, s0, s2
313 ; CHECK-NEXT:    bx lr
314 entry:
315   %z = call half @llvm.vector.reduce.fadd.f16.v16f16(half %y, <16 x half> %x)
316   ret half %z
319 define arm_aapcs_vfpcc double @fadd_v1f64_nofast(<1 x double> %x, double %y) {
320 ; CHECK-LABEL: fadd_v1f64_nofast:
321 ; CHECK:       @ %bb.0: @ %entry
322 ; CHECK-NEXT:    vadd.f64 d0, d1, d0
323 ; CHECK-NEXT:    bx lr
324 entry:
325   %z = call double @llvm.vector.reduce.fadd.f64.v1f64(double %y, <1 x double> %x)
326   ret double %z
329 define arm_aapcs_vfpcc double @fadd_v2f64_nofast(<2 x double> %x, double %y) {
330 ; CHECK-LABEL: fadd_v2f64_nofast:
331 ; CHECK:       @ %bb.0: @ %entry
332 ; CHECK-NEXT:    vadd.f64 d0, d2, d0
333 ; CHECK-NEXT:    vadd.f64 d0, d0, d1
334 ; CHECK-NEXT:    bx lr
335 entry:
336   %z = call double @llvm.vector.reduce.fadd.f64.v2f64(double %y, <2 x double> %x)
337   ret double %z
340 define arm_aapcs_vfpcc double @fadd_v4f64_nofast(<4 x double> %x, double %y) {
341 ; CHECK-LABEL: fadd_v4f64_nofast:
342 ; CHECK:       @ %bb.0: @ %entry
343 ; CHECK-NEXT:    vadd.f64 d0, d4, d0
344 ; CHECK-NEXT:    vadd.f64 d0, d0, d1
345 ; CHECK-NEXT:    vadd.f64 d0, d0, d2
346 ; CHECK-NEXT:    vadd.f64 d0, d0, d3
347 ; CHECK-NEXT:    bx lr
348 entry:
349   %z = call double @llvm.vector.reduce.fadd.f64.v4f64(double %y, <4 x double> %x)
350   ret double %z
353 declare double @llvm.vector.reduce.fadd.f64.v1f64(double, <1 x double>)
354 declare double @llvm.vector.reduce.fadd.f64.v2f64(double, <2 x double>)
355 declare double @llvm.vector.reduce.fadd.f64.v4f64(double, <4 x double>)
356 declare float @llvm.vector.reduce.fadd.f32.v2f32(float, <2 x float>)
357 declare float @llvm.vector.reduce.fadd.f32.v4f32(float, <4 x float>)
358 declare float @llvm.vector.reduce.fadd.f32.v8f32(float, <8 x float>)
359 declare half @llvm.vector.reduce.fadd.f16.v16f16(half, <16 x half>)
360 declare half @llvm.vector.reduce.fadd.f16.v2f16(half, <2 x half>)
361 declare half @llvm.vector.reduce.fadd.f16.v4f16(half, <4 x half>)
362 declare half @llvm.vector.reduce.fadd.f16.v8f16(half, <8 x half>)