Run DCE after a LoopFlatten test to reduce spurious output [nfc]
[llvm-project.git] / llvm / test / CodeGen / ARM / vminmax.ll
blobdc4a6ac2a79b0f16efae4c53c8098a4b84f664fe
1 ; RUN: llc -mtriple=arm-eabi -mattr=+neon %s -o - | FileCheck %s
3 define <8 x i8> @vmins8(ptr %A, ptr %B) nounwind {
4 ;CHECK-LABEL: vmins8:
5 ;CHECK: vmin.s8
6         %tmp1 = load <8 x i8>, ptr %A
7         %tmp2 = load <8 x i8>, ptr %B
8         %tmp3 = call <8 x i8> @llvm.arm.neon.vmins.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
9         ret <8 x i8> %tmp3
12 define <4 x i16> @vmins16(ptr %A, ptr %B) nounwind {
13 ;CHECK-LABEL: vmins16:
14 ;CHECK: vmin.s16
15         %tmp1 = load <4 x i16>, ptr %A
16         %tmp2 = load <4 x i16>, ptr %B
17         %tmp3 = call <4 x i16> @llvm.arm.neon.vmins.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
18         ret <4 x i16> %tmp3
21 define <2 x i32> @vmins32(ptr %A, ptr %B) nounwind {
22 ;CHECK-LABEL: vmins32:
23 ;CHECK: vmin.s32
24         %tmp1 = load <2 x i32>, ptr %A
25         %tmp2 = load <2 x i32>, ptr %B
26         %tmp3 = call <2 x i32> @llvm.arm.neon.vmins.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
27         ret <2 x i32> %tmp3
30 define <8 x i8> @vminu8(ptr %A, ptr %B) nounwind {
31 ;CHECK-LABEL: vminu8:
32 ;CHECK: vmin.u8
33         %tmp1 = load <8 x i8>, ptr %A
34         %tmp2 = load <8 x i8>, ptr %B
35         %tmp3 = call <8 x i8> @llvm.arm.neon.vminu.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
36         ret <8 x i8> %tmp3
39 define <4 x i16> @vminu16(ptr %A, ptr %B) nounwind {
40 ;CHECK-LABEL: vminu16:
41 ;CHECK: vmin.u16
42         %tmp1 = load <4 x i16>, ptr %A
43         %tmp2 = load <4 x i16>, ptr %B
44         %tmp3 = call <4 x i16> @llvm.arm.neon.vminu.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
45         ret <4 x i16> %tmp3
48 define <2 x i32> @vminu32(ptr %A, ptr %B) nounwind {
49 ;CHECK-LABEL: vminu32:
50 ;CHECK: vmin.u32
51         %tmp1 = load <2 x i32>, ptr %A
52         %tmp2 = load <2 x i32>, ptr %B
53         %tmp3 = call <2 x i32> @llvm.arm.neon.vminu.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
54         ret <2 x i32> %tmp3
57 define <2 x float> @vminf32(ptr %A, ptr %B) nounwind {
58 ;CHECK-LABEL: vminf32:
59 ;CHECK: vmin.f32
60         %tmp1 = load <2 x float>, ptr %A
61         %tmp2 = load <2 x float>, ptr %B
62         %tmp3 = call <2 x float> @llvm.arm.neon.vmins.v2f32(<2 x float> %tmp1, <2 x float> %tmp2)
63         ret <2 x float> %tmp3
66 define <16 x i8> @vminQs8(ptr %A, ptr %B) nounwind {
67 ;CHECK-LABEL: vminQs8:
68 ;CHECK: vmin.s8
69         %tmp1 = load <16 x i8>, ptr %A
70         %tmp2 = load <16 x i8>, ptr %B
71         %tmp3 = call <16 x i8> @llvm.arm.neon.vmins.v16i8(<16 x i8> %tmp1, <16 x i8> %tmp2)
72         ret <16 x i8> %tmp3
75 define <8 x i16> @vminQs16(ptr %A, ptr %B) nounwind {
76 ;CHECK-LABEL: vminQs16:
77 ;CHECK: vmin.s16
78         %tmp1 = load <8 x i16>, ptr %A
79         %tmp2 = load <8 x i16>, ptr %B
80         %tmp3 = call <8 x i16> @llvm.arm.neon.vmins.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
81         ret <8 x i16> %tmp3
84 define <4 x i32> @vminQs32(ptr %A, ptr %B) nounwind {
85 ;CHECK-LABEL: vminQs32:
86 ;CHECK: vmin.s32
87         %tmp1 = load <4 x i32>, ptr %A
88         %tmp2 = load <4 x i32>, ptr %B
89         %tmp3 = call <4 x i32> @llvm.arm.neon.vmins.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
90         ret <4 x i32> %tmp3
93 define <16 x i8> @vminQu8(ptr %A, ptr %B) nounwind {
94 ;CHECK-LABEL: vminQu8:
95 ;CHECK: vmin.u8
96         %tmp1 = load <16 x i8>, ptr %A
97         %tmp2 = load <16 x i8>, ptr %B
98         %tmp3 = call <16 x i8> @llvm.arm.neon.vminu.v16i8(<16 x i8> %tmp1, <16 x i8> %tmp2)
99         ret <16 x i8> %tmp3
102 define <8 x i16> @vminQu16(ptr %A, ptr %B) nounwind {
103 ;CHECK-LABEL: vminQu16:
104 ;CHECK: vmin.u16
105         %tmp1 = load <8 x i16>, ptr %A
106         %tmp2 = load <8 x i16>, ptr %B
107         %tmp3 = call <8 x i16> @llvm.arm.neon.vminu.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
108         ret <8 x i16> %tmp3
111 define <4 x i32> @vminQu32(ptr %A, ptr %B) nounwind {
112 ;CHECK-LABEL: vminQu32:
113 ;CHECK: vmin.u32
114         %tmp1 = load <4 x i32>, ptr %A
115         %tmp2 = load <4 x i32>, ptr %B
116         %tmp3 = call <4 x i32> @llvm.arm.neon.vminu.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
117         ret <4 x i32> %tmp3
120 define <4 x float> @vminQf32(ptr %A, ptr %B) nounwind {
121 ;CHECK-LABEL: vminQf32:
122 ;CHECK: vmin.f32
123         %tmp1 = load <4 x float>, ptr %A
124         %tmp2 = load <4 x float>, ptr %B
125         %tmp3 = call <4 x float> @llvm.arm.neon.vmins.v4f32(<4 x float> %tmp1, <4 x float> %tmp2)
126         ret <4 x float> %tmp3
129 declare <8 x i8>  @llvm.arm.neon.vmins.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
130 declare <4 x i16> @llvm.arm.neon.vmins.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
131 declare <2 x i32> @llvm.arm.neon.vmins.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
133 declare <8 x i8>  @llvm.arm.neon.vminu.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
134 declare <4 x i16> @llvm.arm.neon.vminu.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
135 declare <2 x i32> @llvm.arm.neon.vminu.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
137 declare <2 x float> @llvm.arm.neon.vmins.v2f32(<2 x float>, <2 x float>) nounwind readnone
139 declare <16 x i8> @llvm.arm.neon.vmins.v16i8(<16 x i8>, <16 x i8>) nounwind readnone
140 declare <8 x i16> @llvm.arm.neon.vmins.v8i16(<8 x i16>, <8 x i16>) nounwind readnone
141 declare <4 x i32> @llvm.arm.neon.vmins.v4i32(<4 x i32>, <4 x i32>) nounwind readnone
143 declare <16 x i8> @llvm.arm.neon.vminu.v16i8(<16 x i8>, <16 x i8>) nounwind readnone
144 declare <8 x i16> @llvm.arm.neon.vminu.v8i16(<8 x i16>, <8 x i16>) nounwind readnone
145 declare <4 x i32> @llvm.arm.neon.vminu.v4i32(<4 x i32>, <4 x i32>) nounwind readnone
147 declare <4 x float> @llvm.arm.neon.vmins.v4f32(<4 x float>, <4 x float>) nounwind readnone
149 define <8 x i8> @vmaxs8(ptr %A, ptr %B) nounwind {
150 ;CHECK-LABEL: vmaxs8:
151 ;CHECK: vmax.s8
152         %tmp1 = load <8 x i8>, ptr %A
153         %tmp2 = load <8 x i8>, ptr %B
154         %tmp3 = call <8 x i8> @llvm.arm.neon.vmaxs.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
155         ret <8 x i8> %tmp3
158 define <4 x i16> @vmaxs16(ptr %A, ptr %B) nounwind {
159 ;CHECK-LABEL: vmaxs16:
160 ;CHECK: vmax.s16
161         %tmp1 = load <4 x i16>, ptr %A
162         %tmp2 = load <4 x i16>, ptr %B
163         %tmp3 = call <4 x i16> @llvm.arm.neon.vmaxs.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
164         ret <4 x i16> %tmp3
167 define <2 x i32> @vmaxs32(ptr %A, ptr %B) nounwind {
168 ;CHECK-LABEL: vmaxs32:
169 ;CHECK: vmax.s32
170         %tmp1 = load <2 x i32>, ptr %A
171         %tmp2 = load <2 x i32>, ptr %B
172         %tmp3 = call <2 x i32> @llvm.arm.neon.vmaxs.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
173         ret <2 x i32> %tmp3
176 define <8 x i8> @vmaxu8(ptr %A, ptr %B) nounwind {
177 ;CHECK-LABEL: vmaxu8:
178 ;CHECK: vmax.u8
179         %tmp1 = load <8 x i8>, ptr %A
180         %tmp2 = load <8 x i8>, ptr %B
181         %tmp3 = call <8 x i8> @llvm.arm.neon.vmaxu.v8i8(<8 x i8> %tmp1, <8 x i8> %tmp2)
182         ret <8 x i8> %tmp3
185 define <4 x i16> @vmaxu16(ptr %A, ptr %B) nounwind {
186 ;CHECK-LABEL: vmaxu16:
187 ;CHECK: vmax.u16
188         %tmp1 = load <4 x i16>, ptr %A
189         %tmp2 = load <4 x i16>, ptr %B
190         %tmp3 = call <4 x i16> @llvm.arm.neon.vmaxu.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
191         ret <4 x i16> %tmp3
194 define <2 x i32> @vmaxu32(ptr %A, ptr %B) nounwind {
195 ;CHECK-LABEL: vmaxu32:
196 ;CHECK: vmax.u32
197         %tmp1 = load <2 x i32>, ptr %A
198         %tmp2 = load <2 x i32>, ptr %B
199         %tmp3 = call <2 x i32> @llvm.arm.neon.vmaxu.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
200         ret <2 x i32> %tmp3
203 define <2 x float> @vmaxf32(ptr %A, ptr %B) nounwind {
204 ;CHECK-LABEL: vmaxf32:
205 ;CHECK: vmax.f32
206         %tmp1 = load <2 x float>, ptr %A
207         %tmp2 = load <2 x float>, ptr %B
208         %tmp3 = call <2 x float> @llvm.arm.neon.vmaxs.v2f32(<2 x float> %tmp1, <2 x float> %tmp2)
209         ret <2 x float> %tmp3
212 define <16 x i8> @vmaxQs8(ptr %A, ptr %B) nounwind {
213 ;CHECK-LABEL: vmaxQs8:
214 ;CHECK: vmax.s8
215         %tmp1 = load <16 x i8>, ptr %A
216         %tmp2 = load <16 x i8>, ptr %B
217         %tmp3 = call <16 x i8> @llvm.arm.neon.vmaxs.v16i8(<16 x i8> %tmp1, <16 x i8> %tmp2)
218         ret <16 x i8> %tmp3
221 define <8 x i16> @vmaxQs16(ptr %A, ptr %B) nounwind {
222 ;CHECK-LABEL: vmaxQs16:
223 ;CHECK: vmax.s16
224         %tmp1 = load <8 x i16>, ptr %A
225         %tmp2 = load <8 x i16>, ptr %B
226         %tmp3 = call <8 x i16> @llvm.arm.neon.vmaxs.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
227         ret <8 x i16> %tmp3
230 define <4 x i32> @vmaxQs32(ptr %A, ptr %B) nounwind {
231 ;CHECK-LABEL: vmaxQs32:
232 ;CHECK: vmax.s32
233         %tmp1 = load <4 x i32>, ptr %A
234         %tmp2 = load <4 x i32>, ptr %B
235         %tmp3 = call <4 x i32> @llvm.arm.neon.vmaxs.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
236         ret <4 x i32> %tmp3
239 define <16 x i8> @vmaxQu8(ptr %A, ptr %B) nounwind {
240 ;CHECK-LABEL: vmaxQu8:
241 ;CHECK: vmax.u8
242         %tmp1 = load <16 x i8>, ptr %A
243         %tmp2 = load <16 x i8>, ptr %B
244         %tmp3 = call <16 x i8> @llvm.arm.neon.vmaxu.v16i8(<16 x i8> %tmp1, <16 x i8> %tmp2)
245         ret <16 x i8> %tmp3
248 define <8 x i16> @vmaxQu16(ptr %A, ptr %B) nounwind {
249 ;CHECK-LABEL: vmaxQu16:
250 ;CHECK: vmax.u16
251         %tmp1 = load <8 x i16>, ptr %A
252         %tmp2 = load <8 x i16>, ptr %B
253         %tmp3 = call <8 x i16> @llvm.arm.neon.vmaxu.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
254         ret <8 x i16> %tmp3
257 define <4 x i32> @vmaxQu32(ptr %A, ptr %B) nounwind {
258 ;CHECK-LABEL: vmaxQu32:
259 ;CHECK: vmax.u32
260         %tmp1 = load <4 x i32>, ptr %A
261         %tmp2 = load <4 x i32>, ptr %B
262         %tmp3 = call <4 x i32> @llvm.arm.neon.vmaxu.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
263         ret <4 x i32> %tmp3
266 define <4 x float> @vmaxQf32(ptr %A, ptr %B) nounwind {
267 ;CHECK-LABEL: vmaxQf32:
268 ;CHECK: vmax.f32
269         %tmp1 = load <4 x float>, ptr %A
270         %tmp2 = load <4 x float>, ptr %B
271         %tmp3 = call <4 x float> @llvm.arm.neon.vmaxs.v4f32(<4 x float> %tmp1, <4 x float> %tmp2)
272         ret <4 x float> %tmp3
275 declare <8 x i8>  @llvm.arm.neon.vmaxs.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
276 declare <4 x i16> @llvm.arm.neon.vmaxs.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
277 declare <2 x i32> @llvm.arm.neon.vmaxs.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
279 declare <8 x i8>  @llvm.arm.neon.vmaxu.v8i8(<8 x i8>, <8 x i8>) nounwind readnone
280 declare <4 x i16> @llvm.arm.neon.vmaxu.v4i16(<4 x i16>, <4 x i16>) nounwind readnone
281 declare <2 x i32> @llvm.arm.neon.vmaxu.v2i32(<2 x i32>, <2 x i32>) nounwind readnone
283 declare <2 x float> @llvm.arm.neon.vmaxs.v2f32(<2 x float>, <2 x float>) nounwind readnone
285 declare <16 x i8> @llvm.arm.neon.vmaxs.v16i8(<16 x i8>, <16 x i8>) nounwind readnone
286 declare <8 x i16> @llvm.arm.neon.vmaxs.v8i16(<8 x i16>, <8 x i16>) nounwind readnone
287 declare <4 x i32> @llvm.arm.neon.vmaxs.v4i32(<4 x i32>, <4 x i32>) nounwind readnone
289 declare <16 x i8> @llvm.arm.neon.vmaxu.v16i8(<16 x i8>, <16 x i8>) nounwind readnone
290 declare <8 x i16> @llvm.arm.neon.vmaxu.v8i16(<8 x i16>, <8 x i16>) nounwind readnone
291 declare <4 x i32> @llvm.arm.neon.vmaxu.v4i32(<4 x i32>, <4 x i32>) nounwind readnone
293 declare <4 x float> @llvm.arm.neon.vmaxs.v4f32(<4 x float>, <4 x float>) nounwind readnone
295 declare float @llvm.maxnum.f32(float %a, float %b)
296 declare float @llvm.minnum.f32(float %a, float %b)
298 define float @maxnum(float %a, float %b) {
299 ;CHECK-LABEL: maxnum:
300 ;CHECK: vcmp.f32
301 ;CHECK-NEXT: vmrs
302 ;CHECK-NEXT: vmovgt.f32
303   %r = call nnan float @llvm.maxnum.f32(float %a, float %b)
304   ret float %r
307 define float @minnum(float %a, float %b) {
308 ;CHECK-LABEL: minnum:
309 ;CHECK: vcmp.f32
310 ;CHECK-NEXT: vmrs
311 ;CHECK-NEXT: vmovlt.f32
312   %r = call nnan float @llvm.minnum.f32(float %a, float %b)
313   ret float %r