Run DCE after a LoopFlatten test to reduce spurious output [nfc]
[llvm-project.git] / llvm / test / CodeGen / AArch64 / arm64-vqadd.ll
blobdf8864fe6ea32dee074c8168379c63d3fefe9cb7
1 ; RUN: llc < %s -mtriple=arm64-eabi -aarch64-neon-syntax=apple | FileCheck %s
3 define <8 x i8> @sqadd8b(ptr %A, ptr %B) nounwind {
4 ;CHECK-LABEL: sqadd8b:
5 ;CHECK: sqadd.8b
6         %tmp1 = load <8 x i8>, ptr %A
7         %tmp2 = load <8 x i8>, ptr %B
8         %tmp3 = call <8 x i8> @llvm.aarch64.neon.sqadd.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
9         ret <8 x i8> %tmp3
12 define <4 x i16> @sqadd4h(ptr %A, ptr %B) nounwind {
13 ;CHECK-LABEL: sqadd4h:
14 ;CHECK: sqadd.4h
15         %tmp1 = load <4 x i16>, ptr %A
16         %tmp2 = load <4 x i16>, ptr %B
17         %tmp3 = call <4 x i16> @llvm.aarch64.neon.sqadd.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
18         ret <4 x i16> %tmp3
21 define <2 x i32> @sqadd2s(ptr %A, ptr %B) nounwind {
22 ;CHECK-LABEL: sqadd2s:
23 ;CHECK: sqadd.2s
24         %tmp1 = load <2 x i32>, ptr %A
25         %tmp2 = load <2 x i32>, ptr %B
26         %tmp3 = call <2 x i32> @llvm.aarch64.neon.sqadd.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
27         ret <2 x i32> %tmp3
30 define <8 x i8> @uqadd8b(ptr %A, ptr %B) nounwind {
31 ;CHECK-LABEL: uqadd8b:
32 ;CHECK: uqadd.8b
33         %tmp1 = load <8 x i8>, ptr %A
34         %tmp2 = load <8 x i8>, ptr %B
35         %tmp3 = call <8 x i8> @llvm.aarch64.neon.uqadd.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
36         ret <8 x i8> %tmp3
39 define <4 x i16> @uqadd4h(ptr %A, ptr %B) nounwind {
40 ;CHECK-LABEL: uqadd4h:
41 ;CHECK: uqadd.4h
42         %tmp1 = load <4 x i16>, ptr %A
43         %tmp2 = load <4 x i16>, ptr %B
44         %tmp3 = call <4 x i16> @llvm.aarch64.neon.uqadd.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
45         ret <4 x i16> %tmp3
48 define <2 x i32> @uqadd2s(ptr %A, ptr %B) nounwind {
49 ;CHECK-LABEL: uqadd2s:
50 ;CHECK: uqadd.2s
51         %tmp1 = load <2 x i32>, ptr %A
52         %tmp2 = load <2 x i32>, ptr %B
53         %tmp3 = call <2 x i32> @llvm.aarch64.neon.uqadd.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
54         ret <2 x i32> %tmp3
57 define <16 x i8> @sqadd16b(ptr %A, ptr %B) nounwind {
58 ;CHECK-LABEL: sqadd16b:
59 ;CHECK: sqadd.16b
60         %tmp1 = load <16 x i8>, ptr %A
61         %tmp2 = load <16 x i8>, ptr %B
62         %tmp3 = call <16 x i8> @llvm.aarch64.neon.sqadd.v16i8(<16 x i8> %tmp1, <16 x i8> %tmp2)
63         ret <16 x i8> %tmp3
66 define <8 x i16> @sqadd8h(ptr %A, ptr %B) nounwind {
67 ;CHECK-LABEL: sqadd8h:
68 ;CHECK: sqadd.8h
69         %tmp1 = load <8 x i16>, ptr %A
70         %tmp2 = load <8 x i16>, ptr %B
71         %tmp3 = call <8 x i16> @llvm.aarch64.neon.sqadd.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
72         ret <8 x i16> %tmp3
75 define <4 x i32> @sqadd4s(ptr %A, ptr %B) nounwind {
76 ;CHECK-LABEL: sqadd4s:
77 ;CHECK: sqadd.4s
78         %tmp1 = load <4 x i32>, ptr %A
79         %tmp2 = load <4 x i32>, ptr %B
80         %tmp3 = call <4 x i32> @llvm.aarch64.neon.sqadd.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
81         ret <4 x i32> %tmp3
84 define <2 x i64> @sqadd2d(ptr %A, ptr %B) nounwind {
85 ;CHECK-LABEL: sqadd2d:
86 ;CHECK: sqadd.2d
87         %tmp1 = load <2 x i64>, ptr %A
88         %tmp2 = load <2 x i64>, ptr %B
89         %tmp3 = call <2 x i64> @llvm.aarch64.neon.sqadd.v2i64(<2 x i64> %tmp1, <2 x i64> %tmp2)
90         ret <2 x i64> %tmp3
93 define <16 x i8> @uqadd16b(ptr %A, ptr %B) nounwind {
94 ;CHECK-LABEL: uqadd16b:
95 ;CHECK: uqadd.16b
96         %tmp1 = load <16 x i8>, ptr %A
97         %tmp2 = load <16 x i8>, ptr %B
98         %tmp3 = call <16 x i8> @llvm.aarch64.neon.uqadd.v16i8(<16 x i8> %tmp1, <16 x i8> %tmp2)
99         ret <16 x i8> %tmp3
102 define <8 x i16> @uqadd8h(ptr %A, ptr %B) nounwind {
103 ;CHECK-LABEL: uqadd8h:
104 ;CHECK: uqadd.8h
105         %tmp1 = load <8 x i16>, ptr %A
106         %tmp2 = load <8 x i16>, ptr %B
107         %tmp3 = call <8 x i16> @llvm.aarch64.neon.uqadd.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
108         ret <8 x i16> %tmp3
111 define <4 x i32> @uqadd4s(ptr %A, ptr %B) nounwind {
112 ;CHECK-LABEL: uqadd4s:
113 ;CHECK: uqadd.4s
114         %tmp1 = load <4 x i32>, ptr %A
115         %tmp2 = load <4 x i32>, ptr %B
116         %tmp3 = call <4 x i32> @llvm.aarch64.neon.uqadd.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
117         ret <4 x i32> %tmp3
120 define <2 x i64> @uqadd2d(ptr %A, ptr %B) nounwind {
121 ;CHECK-LABEL: uqadd2d:
122 ;CHECK: uqadd.2d
123         %tmp1 = load <2 x i64>, ptr %A
124         %tmp2 = load <2 x i64>, ptr %B
125         %tmp3 = call <2 x i64> @llvm.aarch64.neon.uqadd.v2i64(<2 x i64> %tmp1, <2 x i64> %tmp2)
126         ret <2 x i64> %tmp3
129 declare <8 x i8>  @llvm.aarch64.neon.sqadd.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
130 declare <4 x i16> @llvm.aarch64.neon.sqadd.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
131 declare <2 x i32> @llvm.aarch64.neon.sqadd.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
132 declare <1 x i64> @llvm.aarch64.neon.sqadd.v1i64(<1 x i64>, <1 x i64>) nounwind readnone
134 declare <8 x i8>  @llvm.aarch64.neon.uqadd.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
135 declare <4 x i16> @llvm.aarch64.neon.uqadd.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
136 declare <2 x i32> @llvm.aarch64.neon.uqadd.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
137 declare <1 x i64> @llvm.aarch64.neon.uqadd.v1i64(<1 x i64>, <1 x i64>) nounwind readnone
139 declare <16 x i8> @llvm.aarch64.neon.sqadd.v16i8(<16 x i8>, <16 x i8>) nounwind readnone
140 declare <8 x i16> @llvm.aarch64.neon.sqadd.v8i16(<8 x i16>, <8 x i16>) nounwind readnone
141 declare <4 x i32> @llvm.aarch64.neon.sqadd.v4i32(<4 x i32>, <4 x i32>) nounwind readnone
142 declare <2 x i64> @llvm.aarch64.neon.sqadd.v2i64(<2 x i64>, <2 x i64>) nounwind readnone
144 declare <16 x i8> @llvm.aarch64.neon.uqadd.v16i8(<16 x i8>, <16 x i8>) nounwind readnone
145 declare <8 x i16> @llvm.aarch64.neon.uqadd.v8i16(<8 x i16>, <8 x i16>) nounwind readnone
146 declare <4 x i32> @llvm.aarch64.neon.uqadd.v4i32(<4 x i32>, <4 x i32>) nounwind readnone
147 declare <2 x i64> @llvm.aarch64.neon.uqadd.v2i64(<2 x i64>, <2 x i64>) nounwind readnone
149 define <8 x i8> @usqadd8b(ptr %A, ptr %B) nounwind {
150 ;CHECK-LABEL: usqadd8b:
151 ;CHECK: usqadd.8b
152         %tmp1 = load <8 x i8>, ptr %A
153         %tmp2 = load <8 x i8>, ptr %B
154         %tmp3 = call <8 x i8> @llvm.aarch64.neon.usqadd.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
155         ret <8 x i8> %tmp3
158 define <4 x i16> @usqadd4h(ptr %A, ptr %B) nounwind {
159 ;CHECK-LABEL: usqadd4h:
160 ;CHECK: usqadd.4h
161         %tmp1 = load <4 x i16>, ptr %A
162         %tmp2 = load <4 x i16>, ptr %B
163         %tmp3 = call <4 x i16> @llvm.aarch64.neon.usqadd.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
164         ret <4 x i16> %tmp3
167 define <2 x i32> @usqadd2s(ptr %A, ptr %B) nounwind {
168 ;CHECK-LABEL: usqadd2s:
169 ;CHECK: usqadd.2s
170         %tmp1 = load <2 x i32>, ptr %A
171         %tmp2 = load <2 x i32>, ptr %B
172         %tmp3 = call <2 x i32> @llvm.aarch64.neon.usqadd.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
173         ret <2 x i32> %tmp3
176 define <16 x i8> @usqadd16b(ptr %A, ptr %B) nounwind {
177 ;CHECK-LABEL: usqadd16b:
178 ;CHECK: usqadd.16b
179         %tmp1 = load <16 x i8>, ptr %A
180         %tmp2 = load <16 x i8>, ptr %B
181         %tmp3 = call <16 x i8> @llvm.aarch64.neon.usqadd.v16i8(<16 x i8> %tmp1, <16 x i8> %tmp2)
182         ret <16 x i8> %tmp3
185 define <8 x i16> @usqadd8h(ptr %A, ptr %B) nounwind {
186 ;CHECK-LABEL: usqadd8h:
187 ;CHECK: usqadd.8h
188         %tmp1 = load <8 x i16>, ptr %A
189         %tmp2 = load <8 x i16>, ptr %B
190         %tmp3 = call <8 x i16> @llvm.aarch64.neon.usqadd.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
191         ret <8 x i16> %tmp3
194 define <4 x i32> @usqadd4s(ptr %A, ptr %B) nounwind {
195 ;CHECK-LABEL: usqadd4s:
196 ;CHECK: usqadd.4s
197         %tmp1 = load <4 x i32>, ptr %A
198         %tmp2 = load <4 x i32>, ptr %B
199         %tmp3 = call <4 x i32> @llvm.aarch64.neon.usqadd.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
200         ret <4 x i32> %tmp3
203 define <2 x i64> @usqadd2d(ptr %A, ptr %B) nounwind {
204 ;CHECK-LABEL: usqadd2d:
205 ;CHECK: usqadd.2d
206         %tmp1 = load <2 x i64>, ptr %A
207         %tmp2 = load <2 x i64>, ptr %B
208         %tmp3 = call <2 x i64> @llvm.aarch64.neon.usqadd.v2i64(<2 x i64> %tmp1, <2 x i64> %tmp2)
209         ret <2 x i64> %tmp3
212 define i64 @usqadd_d(i64 %l, i64 %r) nounwind {
213 ; CHECK-LABEL: usqadd_d:
214 ; CHECK: usqadd {{d[0-9]+}}, {{d[0-9]+}}
215   %sum = call i64 @llvm.aarch64.neon.usqadd.i64(i64 %l, i64 %r)
216   ret i64 %sum
219 define i32 @usqadd_s(i32 %l, i32 %r) nounwind {
220 ; CHECK-LABEL: usqadd_s:
221 ; CHECK: usqadd {{s[0-9]+}}, {{s[0-9]+}}
222   %sum = call i32 @llvm.aarch64.neon.usqadd.i32(i32 %l, i32 %r)
223   ret i32 %sum
226 declare <8 x i8>  @llvm.aarch64.neon.usqadd.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
227 declare <4 x i16> @llvm.aarch64.neon.usqadd.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
228 declare <2 x i32> @llvm.aarch64.neon.usqadd.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
229 declare <1 x i64> @llvm.aarch64.neon.usqadd.v1i64(<1 x i64>, <1 x i64>) nounwind readnone
230 declare i64 @llvm.aarch64.neon.usqadd.i64(i64, i64) nounwind readnone
231 declare i32 @llvm.aarch64.neon.usqadd.i32(i32, i32) nounwind readnone
233 declare <16 x i8> @llvm.aarch64.neon.usqadd.v16i8(<16 x i8>, <16 x i8>) nounwind readnone
234 declare <8 x i16> @llvm.aarch64.neon.usqadd.v8i16(<8 x i16>, <8 x i16>) nounwind readnone
235 declare <4 x i32> @llvm.aarch64.neon.usqadd.v4i32(<4 x i32>, <4 x i32>) nounwind readnone
236 declare <2 x i64> @llvm.aarch64.neon.usqadd.v2i64(<2 x i64>, <2 x i64>) nounwind readnone
238 define <8 x i8> @suqadd8b(ptr %A, ptr %B) nounwind {
239 ;CHECK-LABEL: suqadd8b:
240 ;CHECK: suqadd.8b
241         %tmp1 = load <8 x i8>, ptr %A
242         %tmp2 = load <8 x i8>, ptr %B
243         %tmp3 = call <8 x i8> @llvm.aarch64.neon.suqadd.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
244         ret <8 x i8> %tmp3
247 define <4 x i16> @suqadd4h(ptr %A, ptr %B) nounwind {
248 ;CHECK-LABEL: suqadd4h:
249 ;CHECK: suqadd.4h
250         %tmp1 = load <4 x i16>, ptr %A
251         %tmp2 = load <4 x i16>, ptr %B
252         %tmp3 = call <4 x i16> @llvm.aarch64.neon.suqadd.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
253         ret <4 x i16> %tmp3
256 define <2 x i32> @suqadd2s(ptr %A, ptr %B) nounwind {
257 ;CHECK-LABEL: suqadd2s:
258 ;CHECK: suqadd.2s
259         %tmp1 = load <2 x i32>, ptr %A
260         %tmp2 = load <2 x i32>, ptr %B
261         %tmp3 = call <2 x i32> @llvm.aarch64.neon.suqadd.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
262         ret <2 x i32> %tmp3
265 define <16 x i8> @suqadd16b(ptr %A, ptr %B) nounwind {
266 ;CHECK-LABEL: suqadd16b:
267 ;CHECK: suqadd.16b
268         %tmp1 = load <16 x i8>, ptr %A
269         %tmp2 = load <16 x i8>, ptr %B
270         %tmp3 = call <16 x i8> @llvm.aarch64.neon.suqadd.v16i8(<16 x i8> %tmp1, <16 x i8> %tmp2)
271         ret <16 x i8> %tmp3
274 define <8 x i16> @suqadd8h(ptr %A, ptr %B) nounwind {
275 ;CHECK-LABEL: suqadd8h:
276 ;CHECK: suqadd.8h
277         %tmp1 = load <8 x i16>, ptr %A
278         %tmp2 = load <8 x i16>, ptr %B
279         %tmp3 = call <8 x i16> @llvm.aarch64.neon.suqadd.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
280         ret <8 x i16> %tmp3
283 define <4 x i32> @suqadd4s(ptr %A, ptr %B) nounwind {
284 ;CHECK-LABEL: suqadd4s:
285 ;CHECK: suqadd.4s
286         %tmp1 = load <4 x i32>, ptr %A
287         %tmp2 = load <4 x i32>, ptr %B
288         %tmp3 = call <4 x i32> @llvm.aarch64.neon.suqadd.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
289         ret <4 x i32> %tmp3
292 define <2 x i64> @suqadd2d(ptr %A, ptr %B) nounwind {
293 ;CHECK-LABEL: suqadd2d:
294 ;CHECK: suqadd.2d
295         %tmp1 = load <2 x i64>, ptr %A
296         %tmp2 = load <2 x i64>, ptr %B
297         %tmp3 = call <2 x i64> @llvm.aarch64.neon.suqadd.v2i64(<2 x i64> %tmp1, <2 x i64> %tmp2)
298         ret <2 x i64> %tmp3
301 define <1 x i64> @suqadd_1d(<1 x i64> %l, <1 x i64> %r) nounwind {
302 ; CHECK-LABEL: suqadd_1d:
303 ; CHECK: suqadd {{d[0-9]+}}, {{d[0-9]+}}
304   %sum = call <1 x i64> @llvm.aarch64.neon.suqadd.v1i64(<1 x i64> %l, <1 x i64> %r)
305   ret <1 x i64> %sum
308 define i64 @suqadd_d(i64 %l, i64 %r) nounwind {
309 ; CHECK-LABEL: suqadd_d:
310 ; CHECK: suqadd {{d[0-9]+}}, {{d[0-9]+}}
311   %sum = call i64 @llvm.aarch64.neon.suqadd.i64(i64 %l, i64 %r)
312   ret i64 %sum
315 define i32 @suqadd_s(i32 %l, i32 %r) nounwind {
316 ; CHECK-LABEL: suqadd_s:
317 ; CHECK: suqadd {{s[0-9]+}}, {{s[0-9]+}}
318   %sum = call i32 @llvm.aarch64.neon.suqadd.i32(i32 %l, i32 %r)
319   ret i32 %sum
322 declare <8 x i8>  @llvm.aarch64.neon.suqadd.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
323 declare <4 x i16> @llvm.aarch64.neon.suqadd.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
324 declare <2 x i32> @llvm.aarch64.neon.suqadd.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
325 declare <1 x i64> @llvm.aarch64.neon.suqadd.v1i64(<1 x i64>, <1 x i64>) nounwind readnone
326 declare i64 @llvm.aarch64.neon.suqadd.i64(i64, i64) nounwind readnone
327 declare i32 @llvm.aarch64.neon.suqadd.i32(i32, i32) nounwind readnone
329 declare <16 x i8> @llvm.aarch64.neon.suqadd.v16i8(<16 x i8>, <16 x i8>) nounwind readnone
330 declare <8 x i16> @llvm.aarch64.neon.suqadd.v8i16(<8 x i16>, <8 x i16>) nounwind readnone
331 declare <4 x i32> @llvm.aarch64.neon.suqadd.v4i32(<4 x i32>, <4 x i32>) nounwind readnone
332 declare <2 x i64> @llvm.aarch64.neon.suqadd.v2i64(<2 x i64>, <2 x i64>) nounwind readnone