[ORC] Add std::tuple support to SimplePackedSerialization.
[llvm-project.git] / llvm / test / CodeGen / ARM / big-endian-neon-fp16-bitconv.ll
blob96b6f3237df10b2cdf9136b3f955e7d2fc0cda71
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc -mtriple armeb-eabi -mattr=armv8.2-a,neon,fullfp16 -target-abi=aapcs-gnu -float-abi hard -o - %s | FileCheck %s
4 ;64 bit conversions to v4f16
5 define void @conv_i64_to_v4f16( i64 %val, <4 x half>* %store ) {
6 ; CHECK-LABEL: conv_i64_to_v4f16:
7 ; CHECK:       @ %bb.0: @ %entry
8 ; CHECK-NEXT:    vmov d16, r1, r0
9 ; CHECK-NEXT:    vldr d17, [r2]
10 ; CHECK-NEXT:    vrev64.16 d16, d16
11 ; CHECK-NEXT:    vrev64.16 d17, d17
12 ; CHECK-NEXT:    vadd.f16 d16, d16, d17
13 ; CHECK-NEXT:    vrev64.16 d16, d16
14 ; CHECK-NEXT:    vstr d16, [r2]
15 ; CHECK-NEXT:    bx lr
16 entry:
17   %v = bitcast i64 %val to <4 x half>
18   %w = load <4 x half>, <4 x half>* %store
19   %a = fadd <4 x half> %v, %w
20   store <4 x half> %a, <4 x half>* %store
21   ret void
24 define void @conv_f64_to_v4f16( double %val, <4 x half>* %store ) {
25 ; CHECK-LABEL: conv_f64_to_v4f16:
26 ; CHECK:       @ %bb.0: @ %entry
27 ; CHECK-NEXT:    vldr d16, [r0]
28 ; CHECK-NEXT:    vrev64.16 d17, d0
29 ; CHECK-NEXT:    vrev64.16 d16, d16
30 ; CHECK-NEXT:    vadd.f16 d16, d17, d16
31 ; CHECK-NEXT:    vrev64.16 d16, d16
32 ; CHECK-NEXT:    vstr d16, [r0]
33 ; CHECK-NEXT:    bx lr
34 entry:
35   %v = bitcast double %val to <4 x half>
36   %w = load <4 x half>, <4 x half>* %store
37   %a = fadd <4 x half> %v, %w
38   store <4 x half> %a, <4 x half>* %store
39   ret void
42 define void @conv_v2f32_to_v4f16( <2 x float> %a, <4 x half>* %store ) {
43 ; CHECK-LABEL: conv_v2f32_to_v4f16:
44 ; CHECK:       @ %bb.0: @ %entry
45 ; CHECK-NEXT:    vldr d16, .LCPI2_0
46 ; CHECK-NEXT:    vrev64.32 d17, d0
47 ; CHECK-NEXT:    vrev64.32 d16, d16
48 ; CHECK-NEXT:    vadd.f32 d16, d17, d16
49 ; CHECK-NEXT:    vldr d17, [r0]
50 ; CHECK-NEXT:    vrev64.16 d17, d17
51 ; CHECK-NEXT:    vrev32.16 d16, d16
52 ; CHECK-NEXT:    vadd.f16 d16, d16, d17
53 ; CHECK-NEXT:    vrev64.16 d16, d16
54 ; CHECK-NEXT:    vstr d16, [r0]
55 ; CHECK-NEXT:    bx lr
56 ; CHECK-NEXT:    .p2align 3
57 ; CHECK-NEXT:  @ %bb.1:
58 ; CHECK-NEXT:  .LCPI2_0:
59 ; CHECK-NEXT:    .long 0xbf800000 @ float -1
60 ; CHECK-NEXT:    .long 0x3f800000 @ float 1
61 entry:
62   %c = fadd <2 x float> %a, <float -1.0, float 1.0>
63   %v = bitcast <2 x float> %c to <4 x half>
64   %w = load <4 x half>, <4 x half>* %store
65   %z = fadd <4 x half> %v, %w
66   store <4 x half> %z, <4 x half>* %store
67   ret void
70 define void @conv_v2i32_to_v4f16( <2 x i32> %a, <4 x half>* %store ) {
71 ; CHECK-LABEL: conv_v2i32_to_v4f16:
72 ; CHECK:       @ %bb.0: @ %entry
73 ; CHECK-NEXT:    vldr d16, .LCPI3_0
74 ; CHECK-NEXT:    vrev64.32 d17, d0
75 ; CHECK-NEXT:    vrev64.32 d16, d16
76 ; CHECK-NEXT:    vadd.i32 d16, d17, d16
77 ; CHECK-NEXT:    vldr d18, [r0]
78 ; CHECK-NEXT:    vrev64.16 d17, d18
79 ; CHECK-NEXT:    vrev32.16 d16, d16
80 ; CHECK-NEXT:    vadd.f16 d16, d16, d17
81 ; CHECK-NEXT:    vrev64.16 d16, d16
82 ; CHECK-NEXT:    vstr d16, [r0]
83 ; CHECK-NEXT:    bx lr
84 ; CHECK-NEXT:    .p2align 3
85 ; CHECK-NEXT:  @ %bb.1:
86 ; CHECK-NEXT:  .LCPI3_0:
87 ; CHECK-NEXT:    .long 1 @ 0x1
88 ; CHECK-NEXT:    .long 4294967295 @ 0xffffffff
89 entry:
90   %c = add <2 x i32> %a, <i32 1, i32 -1>
91   %v = bitcast <2 x i32> %c to <4 x half>
92   %w = load <4 x half>, <4 x half>* %store
93   %z = fadd <4 x half> %v, %w
94   store <4 x half> %z, <4 x half>* %store
95   ret void
98 define void @conv_v4i16_to_v4f16( <4 x i16> %a, <4 x half>* %store ) {
99 ; CHECK-LABEL: conv_v4i16_to_v4f16:
100 ; CHECK:       @ %bb.0: @ %entry
101 ; CHECK-NEXT:    vmov.i64 d16, #0xffff00000000ffff
102 ; CHECK-NEXT:    vldr d17, [r0]
103 ; CHECK-NEXT:    vrev64.16 d18, d0
104 ; CHECK-NEXT:    vrev64.16 d17, d17
105 ; CHECK-NEXT:    vrev64.16 d16, d16
106 ; CHECK-NEXT:    vadd.i16 d16, d18, d16
107 ; CHECK-NEXT:    vadd.f16 d16, d16, d17
108 ; CHECK-NEXT:    vrev64.16 d16, d16
109 ; CHECK-NEXT:    vstr d16, [r0]
110 ; CHECK-NEXT:    bx lr
111 entry:
112   %c = add <4 x i16> %a, <i16 -1, i16 0, i16 0, i16 -1>
113   %v = bitcast <4 x i16> %c to <4 x half>
114   %w = load <4 x half>, <4 x half>* %store
115   %z = fadd <4 x half> %v, %w
116   store <4 x half> %z, <4 x half>* %store
117   ret void
120 define void @conv_v8i8_to_v4f16( <8 x i8> %a, <4 x half>* %store ) {
121 ; CHECK-LABEL: conv_v8i8_to_v4f16:
122 ; CHECK:       @ %bb.0: @ %entry
123 ; CHECK-NEXT:    vmov.i8 d16, #0x1
124 ; CHECK-NEXT:    vrev64.8 d17, d0
125 ; CHECK-NEXT:    vldr d18, [r0]
126 ; CHECK-NEXT:    vadd.i8 d16, d17, d16
127 ; CHECK-NEXT:    vrev64.16 d17, d18
128 ; CHECK-NEXT:    vrev16.8 d16, d16
129 ; CHECK-NEXT:    vadd.f16 d16, d16, d17
130 ; CHECK-NEXT:    vrev64.16 d16, d16
131 ; CHECK-NEXT:    vstr d16, [r0]
132 ; CHECK-NEXT:    bx lr
133 entry:
134   %c = add <8 x i8> %a, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
135   %v = bitcast <8 x i8> %c to <4 x half>
136   %w = load <4 x half>, <4 x half>* %store
137   %z = fadd <4 x half> %v, %w
138   store <4 x half> %z, <4 x half>* %store
139   ret void
142 define void @conv_v2i64_to_v8f16( <2 x i64> %val, <8 x half>* %store ) {
143 ; CHECK-LABEL: conv_v2i64_to_v8f16:
144 ; CHECK:       @ %bb.0: @ %entry
145 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r0]
146 ; CHECK-NEXT:    adr r1, .LCPI6_0
147 ; CHECK-NEXT:    vld1.64 {d18, d19}, [r1:128]
148 ; CHECK-NEXT:    vadd.i64 q9, q0, q9
149 ; CHECK-NEXT:    vrev64.16 q8, q8
150 ; CHECK-NEXT:    vrev64.16 q9, q9
151 ; CHECK-NEXT:    vadd.f16 q8, q9, q8
152 ; CHECK-NEXT:    vrev64.16 q8, q8
153 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
154 ; CHECK-NEXT:    bx lr
155 ; CHECK-NEXT:    .p2align 4
156 ; CHECK-NEXT:  @ %bb.1:
157 ; CHECK-NEXT:  .LCPI6_0:
158 ; CHECK-NEXT:    .long 0 @ 0x0
159 ; CHECK-NEXT:    .long 1 @ 0x1
160 ; CHECK-NEXT:    .long 4294967295 @ 0xffffffff
161 ; CHECK-NEXT:    .long 4294967295 @ 0xffffffff
162 entry:
163   %v = add <2 x i64> %val, <i64 1, i64 -1>
164   %v1 = bitcast <2 x i64> %v to <8 x half>
165   %w = load <8 x half>, <8 x half>* %store
166   %a = fadd <8 x half> %v1, %w
167   store <8 x half> %a, <8 x half>* %store
168   ret void
170 define void @conv_v2f64_to_v8f16( <2 x double> %val, <8 x half>* %store ) {
171 ; CHECK-LABEL: conv_v2f64_to_v8f16:
172 ; CHECK:       @ %bb.0: @ %entry
173 ; CHECK-NEXT:    vmov.f64 d16, #-1.000000e+00
174 ; CHECK-NEXT:    vmov.f64 d17, #1.000000e+00
175 ; CHECK-NEXT:    vadd.f64 d19, d1, d16
176 ; CHECK-NEXT:    vadd.f64 d18, d0, d17
177 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r0]
178 ; CHECK-NEXT:    vrev64.16 q8, q8
179 ; CHECK-NEXT:    vrev64.16 q9, q9
180 ; CHECK-NEXT:    vadd.f16 q8, q9, q8
181 ; CHECK-NEXT:    vrev64.16 q8, q8
182 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
183 ; CHECK-NEXT:    bx lr
184 entry:
185   %v = fadd <2 x double> %val, <double 1.0, double -1.0>
186   %v1 = bitcast <2 x double> %v to <8 x half>
187   %w = load <8 x half>, <8 x half>* %store
188   %a = fadd <8 x half> %v1, %w
189   store <8 x half> %a, <8 x half>* %store
190   ret void
193 define void @conv_v4f32_to_v8f16( <4 x float> %a, <8 x half>* %store ) {
194 ; CHECK-LABEL: conv_v4f32_to_v8f16:
195 ; CHECK:       @ %bb.0: @ %entry
196 ; CHECK-NEXT:    adr r1, .LCPI8_0
197 ; CHECK-NEXT:    vrev64.32 q9, q0
198 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
199 ; CHECK-NEXT:    vrev64.32 q8, q8
200 ; CHECK-NEXT:    vadd.f32 q8, q9, q8
201 ; CHECK-NEXT:    vld1.64 {d18, d19}, [r0]
202 ; CHECK-NEXT:    vrev64.16 q9, q9
203 ; CHECK-NEXT:    vrev32.16 q8, q8
204 ; CHECK-NEXT:    vadd.f16 q8, q8, q9
205 ; CHECK-NEXT:    vrev64.16 q8, q8
206 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
207 ; CHECK-NEXT:    bx lr
208 ; CHECK-NEXT:    .p2align 4
209 ; CHECK-NEXT:  @ %bb.1:
210 ; CHECK-NEXT:  .LCPI8_0:
211 ; CHECK-NEXT:    .long 0xbf800000 @ float -1
212 ; CHECK-NEXT:    .long 0x3f800000 @ float 1
213 ; CHECK-NEXT:    .long 0xbf800000 @ float -1
214 ; CHECK-NEXT:    .long 0x3f800000 @ float 1
215 entry:
216   %c = fadd <4 x float> %a, <float -1.0, float 1.0, float -1.0, float 1.0>
217   %v = bitcast <4 x float> %c to <8 x half>
218   %w = load <8 x half>, <8 x half>* %store
219   %z = fadd <8 x half> %v, %w
220   store <8 x half> %z, <8 x half>* %store
221   ret void
224 define void @conv_v4i32_to_v8f16( <4 x i32> %a, <8 x half>* %store ) {
225 ; CHECK-LABEL: conv_v4i32_to_v8f16:
226 ; CHECK:       @ %bb.0: @ %entry
227 ; CHECK-NEXT:    adr r1, .LCPI9_0
228 ; CHECK-NEXT:    vrev64.32 q9, q0
229 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
230 ; CHECK-NEXT:    vrev64.32 q8, q8
231 ; CHECK-NEXT:    vadd.i32 q8, q9, q8
232 ; CHECK-NEXT:    vld1.64 {d20, d21}, [r0]
233 ; CHECK-NEXT:    vrev64.16 q9, q10
234 ; CHECK-NEXT:    vrev32.16 q8, q8
235 ; CHECK-NEXT:    vadd.f16 q8, q8, q9
236 ; CHECK-NEXT:    vrev64.16 q8, q8
237 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
238 ; CHECK-NEXT:    bx lr
239 ; CHECK-NEXT:    .p2align 4
240 ; CHECK-NEXT:  @ %bb.1:
241 ; CHECK-NEXT:  .LCPI9_0:
242 ; CHECK-NEXT:    .long 4294967295 @ 0xffffffff
243 ; CHECK-NEXT:    .long 1 @ 0x1
244 ; CHECK-NEXT:    .long 4294967295 @ 0xffffffff
245 ; CHECK-NEXT:    .long 1 @ 0x1
246 entry:
247   %c = add <4 x i32> %a, <i32 -1, i32 1, i32 -1, i32 1>
248   %v = bitcast <4 x i32> %c to <8 x half>
249   %w = load <8 x half>, <8 x half>* %store
250   %z = fadd <8 x half> %v, %w
251   store <8 x half> %z, <8 x half>* %store
252   ret void
255 define void @conv_v8i16_to_v8f16( <8 x i16> %a, <8 x half>* %store ) {
256 ; CHECK-LABEL: conv_v8i16_to_v8f16:
257 ; CHECK:       @ %bb.0: @ %entry
258 ; CHECK-NEXT:    adr r1, .LCPI10_0
259 ; CHECK-NEXT:    vld1.64 {d18, d19}, [r0]
260 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
261 ; CHECK-NEXT:    vrev64.16 q10, q0
262 ; CHECK-NEXT:    vrev64.16 q8, q8
263 ; CHECK-NEXT:    vrev64.16 q9, q9
264 ; CHECK-NEXT:    vadd.i16 q8, q10, q8
265 ; CHECK-NEXT:    vadd.f16 q8, q8, q9
266 ; CHECK-NEXT:    vrev64.16 q8, q8
267 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
268 ; CHECK-NEXT:    bx lr
269 ; CHECK-NEXT:    .p2align 4
270 ; CHECK-NEXT:  @ %bb.1:
271 ; CHECK-NEXT:  .LCPI10_0:
272 ; CHECK-NEXT:    .short 65535 @ 0xffff
273 ; CHECK-NEXT:    .short 1 @ 0x1
274 ; CHECK-NEXT:    .short 0 @ 0x0
275 ; CHECK-NEXT:    .short 7 @ 0x7
276 ; CHECK-NEXT:    .short 65535 @ 0xffff
277 ; CHECK-NEXT:    .short 1 @ 0x1
278 ; CHECK-NEXT:    .short 0 @ 0x0
279 ; CHECK-NEXT:    .short 7 @ 0x7
280 entry:
281   %c = add <8 x i16> %a, <i16 -1, i16 1, i16 0, i16 7, i16 -1, i16 1, i16 0, i16 7>
282   %v = bitcast <8 x i16> %c to <8 x half>
283   %w = load <8 x half>, <8 x half>* %store
284   %z = fadd <8 x half> %v, %w
285   store <8 x half> %z, <8 x half>* %store
286   ret void
289 define void @conv_v16i8_to_v8f16( <16 x i8> %a, <8 x half>* %store ) {
290 ; CHECK-LABEL: conv_v16i8_to_v8f16:
291 ; CHECK:       @ %bb.0: @ %entry
292 ; CHECK-NEXT:    vrev64.8 q8, q0
293 ; CHECK-NEXT:    vmov.i8 q9, #0x1
294 ; CHECK-NEXT:    vadd.i8 q8, q8, q9
295 ; CHECK-NEXT:    vld1.64 {d20, d21}, [r0]
296 ; CHECK-NEXT:    vrev64.16 q9, q10
297 ; CHECK-NEXT:    vrev16.8 q8, q8
298 ; CHECK-NEXT:    vadd.f16 q8, q8, q9
299 ; CHECK-NEXT:    vrev64.16 q8, q8
300 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
301 ; CHECK-NEXT:    bx lr
302 entry:
303   %c = add <16 x i8> %a, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
304   %v = bitcast <16 x i8> %c to <8 x half>
305   %w = load <8 x half>, <8 x half>* %store
306   %z = fadd <8 x half> %v, %w
307   store <8 x half> %z, <8 x half>* %store
308   ret void
311 define void @conv_v4f16_to_i64( <4 x half> %a, i64* %store ) {
312 ; CHECK-LABEL: conv_v4f16_to_i64:
313 ; CHECK:       @ %bb.0: @ %entry
314 ; CHECK-NEXT:    vldr d16, .LCPI12_0
315 ; CHECK-NEXT:    vrev64.16 d17, d0
316 ; CHECK-NEXT:    vrev64.16 d16, d16
317 ; CHECK-NEXT:    vadd.f16 d16, d17, d16
318 ; CHECK-NEXT:    vrev64.16 d16, d16
319 ; CHECK-NEXT:    vmov r1, r2, d16
320 ; CHECK-NEXT:    subs r1, r1, #1
321 ; CHECK-NEXT:    sbc r2, r2, #0
322 ; CHECK-NEXT:    str r2, [r0]
323 ; CHECK-NEXT:    str r1, [r0, #4]
324 ; CHECK-NEXT:    bx lr
325 ; CHECK-NEXT:    .p2align 3
326 ; CHECK-NEXT:  @ %bb.1:
327 ; CHECK-NEXT:  .LCPI12_0:
328 ; CHECK-NEXT:    .short 0xbc00 @ half -1
329 ; CHECK-NEXT:    .short 0x3c00 @ half 1
330 ; CHECK-NEXT:    .short 0xbc00 @ half -1
331 ; CHECK-NEXT:    .short 0x3c00 @ half 1
332 entry:
333   %z = fadd <4 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0>
334   %y = bitcast <4 x half> %z to i64
335   %w = add i64 %y, -1
336   store i64 %w, i64* %store
337   ret void
340 define void @conv_v4f16_to_f64( <4 x half> %a, double* %store ) {
341 ; CHECK-LABEL: conv_v4f16_to_f64:
342 ; CHECK:       @ %bb.0: @ %entry
343 ; CHECK-NEXT:    vldr d16, .LCPI13_0
344 ; CHECK-NEXT:    vrev64.16 d17, d0
345 ; CHECK-NEXT:    vrev64.16 d16, d16
346 ; CHECK-NEXT:    vadd.f16 d16, d17, d16
347 ; CHECK-NEXT:    vmov.f64 d17, #-1.000000e+00
348 ; CHECK-NEXT:    vrev64.16 d16, d16
349 ; CHECK-NEXT:    vadd.f64 d16, d16, d17
350 ; CHECK-NEXT:    vstr d16, [r0]
351 ; CHECK-NEXT:    bx lr
352 ; CHECK-NEXT:    .p2align 3
353 ; CHECK-NEXT:  @ %bb.1:
354 ; CHECK-NEXT:  .LCPI13_0:
355 ; CHECK-NEXT:    .short 0xbc00 @ half -1
356 ; CHECK-NEXT:    .short 0x3c00 @ half 1
357 ; CHECK-NEXT:    .short 0xbc00 @ half -1
358 ; CHECK-NEXT:    .short 0x3c00 @ half 1
359 entry:
360   %z = fadd <4 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0>
361   %y = bitcast <4 x half> %z to double
362   %w = fadd double %y, -1.0
363   store double %w, double* %store
364   ret void
367 define void @conv_v4f16_to_v2i32( <4 x half> %a, <2 x i32>* %store ) {
368 ; CHECK-LABEL: conv_v4f16_to_v2i32:
369 ; CHECK:       @ %bb.0: @ %entry
370 ; CHECK-NEXT:    vldr d16, .LCPI14_0
371 ; CHECK-NEXT:    vrev64.16 d17, d0
372 ; CHECK-NEXT:    vrev64.16 d16, d16
373 ; CHECK-NEXT:    vadd.f16 d16, d17, d16
374 ; CHECK-NEXT:    vldr d17, .LCPI14_1
375 ; CHECK-NEXT:    vrev64.32 d17, d17
376 ; CHECK-NEXT:    vrev32.16 d16, d16
377 ; CHECK-NEXT:    vadd.i32 d16, d16, d17
378 ; CHECK-NEXT:    vrev64.32 d16, d16
379 ; CHECK-NEXT:    vstr d16, [r0]
380 ; CHECK-NEXT:    bx lr
381 ; CHECK-NEXT:    .p2align 3
382 ; CHECK-NEXT:  @ %bb.1:
383 ; CHECK-NEXT:  .LCPI14_0:
384 ; CHECK-NEXT:    .short 0xbc00 @ half -1
385 ; CHECK-NEXT:    .short 0x3c00 @ half 1
386 ; CHECK-NEXT:    .short 0xbc00 @ half -1
387 ; CHECK-NEXT:    .short 0x3c00 @ half 1
388 ; CHECK-NEXT:  .LCPI14_1:
389 ; CHECK-NEXT:    .long 4294967295 @ 0xffffffff
390 ; CHECK-NEXT:    .long 1 @ 0x1
391 entry:
392   %z = fadd <4 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0>
393   %y = bitcast <4 x half> %z to <2 x i32>
394   %w = add <2 x i32> %y, <i32 -1, i32 1>
395   store <2 x i32> %w, <2 x i32>* %store
396   ret void
399 define void @conv_v4f16_to_v2f32( <4 x half> %a, <2 x float>* %store ) {
400 ; CHECK-LABEL: conv_v4f16_to_v2f32:
401 ; CHECK:       @ %bb.0: @ %entry
402 ; CHECK-NEXT:    vldr d16, .LCPI15_0
403 ; CHECK-NEXT:    vrev64.16 d17, d0
404 ; CHECK-NEXT:    vrev64.16 d16, d16
405 ; CHECK-NEXT:    vadd.f16 d16, d17, d16
406 ; CHECK-NEXT:    vldr d17, .LCPI15_1
407 ; CHECK-NEXT:    vrev64.32 d17, d17
408 ; CHECK-NEXT:    vrev32.16 d16, d16
409 ; CHECK-NEXT:    vadd.f32 d16, d16, d17
410 ; CHECK-NEXT:    vrev64.32 d16, d16
411 ; CHECK-NEXT:    vstr d16, [r0]
412 ; CHECK-NEXT:    bx lr
413 ; CHECK-NEXT:    .p2align 3
414 ; CHECK-NEXT:  @ %bb.1:
415 ; CHECK-NEXT:  .LCPI15_0:
416 ; CHECK-NEXT:    .short 0xbc00 @ half -1
417 ; CHECK-NEXT:    .short 0x3c00 @ half 1
418 ; CHECK-NEXT:    .short 0xbc00 @ half -1
419 ; CHECK-NEXT:    .short 0x3c00 @ half 1
420 ; CHECK-NEXT:  .LCPI15_1:
421 ; CHECK-NEXT:    .long 0xbf800000 @ float -1
422 ; CHECK-NEXT:    .long 0x3f800000 @ float 1
423 entry:
424   %z = fadd <4 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0>
425   %y = bitcast <4 x half> %z to <2 x float>
426   %w = fadd <2 x float> %y, <float -1.0, float 1.0>
427   store <2 x float> %w, <2 x float>* %store
428   ret void
431 define void @conv_v4f16_to_v4i16( <4 x half> %a, <4 x i16>* %store ) {
432 ; CHECK-LABEL: conv_v4f16_to_v4i16:
433 ; CHECK:       @ %bb.0: @ %entry
434 ; CHECK-NEXT:    vldr d16, .LCPI16_0
435 ; CHECK-NEXT:    vrev64.16 d17, d0
436 ; CHECK-NEXT:    vrev64.16 d16, d16
437 ; CHECK-NEXT:    vadd.f16 d16, d17, d16
438 ; CHECK-NEXT:    vldr d17, .LCPI16_1
439 ; CHECK-NEXT:    vrev64.16 d17, d17
440 ; CHECK-NEXT:    vadd.i16 d16, d16, d17
441 ; CHECK-NEXT:    vrev64.16 d16, d16
442 ; CHECK-NEXT:    vstr d16, [r0]
443 ; CHECK-NEXT:    bx lr
444 ; CHECK-NEXT:    .p2align 3
445 ; CHECK-NEXT:  @ %bb.1:
446 ; CHECK-NEXT:  .LCPI16_0:
447 ; CHECK-NEXT:    .short 0xbc00 @ half -1
448 ; CHECK-NEXT:    .short 0x3c00 @ half 1
449 ; CHECK-NEXT:    .short 0xbc00 @ half -1
450 ; CHECK-NEXT:    .short 0x3c00 @ half 1
451 ; CHECK-NEXT:  .LCPI16_1:
452 ; CHECK-NEXT:    .short 65535 @ 0xffff
453 ; CHECK-NEXT:    .short 1 @ 0x1
454 ; CHECK-NEXT:    .short 0 @ 0x0
455 ; CHECK-NEXT:    .short 7 @ 0x7
456 entry:
457   %z = fadd <4 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0>
458   %y = bitcast <4 x half> %z to <4 x i16>
459   %w = add <4 x i16> %y, <i16 -1, i16 1, i16 0, i16 7>
460   store <4 x i16> %w, <4 x i16>* %store
461   ret void
464 define void @conv_v4f16_to_v8f8( <4 x half> %a, <8 x i8>* %store ) {
465 ; CHECK-LABEL: conv_v4f16_to_v8f8:
466 ; CHECK:       @ %bb.0: @ %entry
467 ; CHECK-NEXT:    vldr d16, .LCPI17_0
468 ; CHECK-NEXT:    vrev64.16 d17, d0
469 ; CHECK-NEXT:    vrev64.16 d16, d16
470 ; CHECK-NEXT:    vadd.f16 d16, d17, d16
471 ; CHECK-NEXT:    vmov.i8 d17, #0x1
472 ; CHECK-NEXT:    vrev16.8 d16, d16
473 ; CHECK-NEXT:    vadd.i8 d16, d16, d17
474 ; CHECK-NEXT:    vrev64.8 d16, d16
475 ; CHECK-NEXT:    vstr d16, [r0]
476 ; CHECK-NEXT:    bx lr
477 ; CHECK-NEXT:    .p2align 3
478 ; CHECK-NEXT:  @ %bb.1:
479 ; CHECK-NEXT:  .LCPI17_0:
480 ; CHECK-NEXT:    .short 0xbc00 @ half -1
481 ; CHECK-NEXT:    .short 0x3c00 @ half 1
482 ; CHECK-NEXT:    .short 0xbc00 @ half -1
483 ; CHECK-NEXT:    .short 0x3c00 @ half 1
484 entry:
485   %z = fadd <4 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0>
486   %y = bitcast <4 x half> %z to <8 x i8>
487   %w = add <8 x i8> %y, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
488   store <8 x i8> %w, <8 x i8>* %store
489   ret void
492 define void @conv_v8f16_to_i128( <8 x half> %a, i128* %store ) {
493 ; CHECK-LABEL: conv_v8f16_to_i128:
494 ; CHECK:       @ %bb.0: @ %entry
495 ; CHECK-NEXT:    .save {r11, lr}
496 ; CHECK-NEXT:    push {r11, lr}
497 ; CHECK-NEXT:    adr r1, .LCPI18_0
498 ; CHECK-NEXT:    vrev64.16 q9, q0
499 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
500 ; CHECK-NEXT:    vrev64.16 q8, q8
501 ; CHECK-NEXT:    vadd.f16 q8, q9, q8
502 ; CHECK-NEXT:    vrev32.16 q8, q8
503 ; CHECK-NEXT:    vmov r12, r2, d17
504 ; CHECK-NEXT:    vmov r3, r1, d16
505 ; CHECK-NEXT:    subs lr, r2, #1
506 ; CHECK-NEXT:    sbcs r2, r12, #0
507 ; CHECK-NEXT:    sbcs r1, r1, #0
508 ; CHECK-NEXT:    sbc r3, r3, #0
509 ; CHECK-NEXT:    str r3, [r0]
510 ; CHECK-NEXT:    stmib r0, {r1, r2, lr}
511 ; CHECK-NEXT:    pop {r11, pc}
512 ; CHECK-NEXT:    .p2align 4
513 ; CHECK-NEXT:  @ %bb.1:
514 ; CHECK-NEXT:  .LCPI18_0:
515 ; CHECK-NEXT:    .short 0xbc00 @ half -1
516 ; CHECK-NEXT:    .short 0x3c00 @ half 1
517 ; CHECK-NEXT:    .short 0xbc00 @ half -1
518 ; CHECK-NEXT:    .short 0x3c00 @ half 1
519 ; CHECK-NEXT:    .short 0xbc00 @ half -1
520 ; CHECK-NEXT:    .short 0x3c00 @ half 1
521 ; CHECK-NEXT:    .short 0xbc00 @ half -1
522 ; CHECK-NEXT:    .short 0x3c00 @ half 1
523 entry:
524   %z = fadd <8 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0>
525   %y = bitcast <8 x half> %z to i128
526   %w = add i128 %y, -1
527   store i128 %w, i128* %store
528   ret void
531 define void @conv_v8f16_to_v2f64( <8 x half> %a, <2 x double>* %store ) {
532 ; CHECK-LABEL: conv_v8f16_to_v2f64:
533 ; CHECK:       @ %bb.0: @ %entry
534 ; CHECK-NEXT:    adr r1, .LCPI19_0
535 ; CHECK-NEXT:    vrev64.16 q9, q0
536 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
537 ; CHECK-NEXT:    vrev64.16 q8, q8
538 ; CHECK-NEXT:    vadd.f16 q8, q9, q8
539 ; CHECK-NEXT:    vmov.f64 d18, #1.000000e+00
540 ; CHECK-NEXT:    vrev64.16 q8, q8
541 ; CHECK-NEXT:    vmov.f64 d19, #-1.000000e+00
542 ; CHECK-NEXT:    vadd.f64 d21, d17, d18
543 ; CHECK-NEXT:    vadd.f64 d20, d16, d19
544 ; CHECK-NEXT:    vst1.64 {d20, d21}, [r0]
545 ; CHECK-NEXT:    bx lr
546 ; CHECK-NEXT:    .p2align 4
547 ; CHECK-NEXT:  @ %bb.1:
548 ; CHECK-NEXT:  .LCPI19_0:
549 ; CHECK-NEXT:    .short 0xbc00 @ half -1
550 ; CHECK-NEXT:    .short 0x3c00 @ half 1
551 ; CHECK-NEXT:    .short 0xbc00 @ half -1
552 ; CHECK-NEXT:    .short 0x3c00 @ half 1
553 ; CHECK-NEXT:    .short 0xbc00 @ half -1
554 ; CHECK-NEXT:    .short 0x3c00 @ half 1
555 ; CHECK-NEXT:    .short 0xbc00 @ half -1
556 ; CHECK-NEXT:    .short 0x3c00 @ half 1
557 entry:
558   %z = fadd <8 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0>
559   %y = bitcast <8 x half> %z to <2 x double>
560   %w = fadd <2 x double> %y, <double -1.0, double 1.0>
561   store <2 x double> %w, <2 x double>* %store
562   ret void
565 define void @conv_v8f16_to_v4i32( <8 x half> %a, <4 x i32>* %store ) {
566 ; CHECK-LABEL: conv_v8f16_to_v4i32:
567 ; CHECK:       @ %bb.0: @ %entry
568 ; CHECK-NEXT:    adr r1, .LCPI20_0
569 ; CHECK-NEXT:    vrev64.16 q9, q0
570 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
571 ; CHECK-NEXT:    adr r1, .LCPI20_1
572 ; CHECK-NEXT:    vrev64.16 q8, q8
573 ; CHECK-NEXT:    vadd.f16 q8, q9, q8
574 ; CHECK-NEXT:    vld1.64 {d18, d19}, [r1:128]
575 ; CHECK-NEXT:    vrev64.32 q9, q9
576 ; CHECK-NEXT:    vrev32.16 q8, q8
577 ; CHECK-NEXT:    vadd.i32 q8, q8, q9
578 ; CHECK-NEXT:    vrev64.32 q8, q8
579 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
580 ; CHECK-NEXT:    bx lr
581 ; CHECK-NEXT:    .p2align 4
582 ; CHECK-NEXT:  @ %bb.1:
583 ; CHECK-NEXT:  .LCPI20_0:
584 ; CHECK-NEXT:    .short 0xbc00 @ half -1
585 ; CHECK-NEXT:    .short 0x3c00 @ half 1
586 ; CHECK-NEXT:    .short 0xbc00 @ half -1
587 ; CHECK-NEXT:    .short 0x3c00 @ half 1
588 ; CHECK-NEXT:    .short 0xbc00 @ half -1
589 ; CHECK-NEXT:    .short 0x3c00 @ half 1
590 ; CHECK-NEXT:    .short 0xbc00 @ half -1
591 ; CHECK-NEXT:    .short 0x3c00 @ half 1
592 ; CHECK-NEXT:  .LCPI20_1:
593 ; CHECK-NEXT:    .long 4294967295 @ 0xffffffff
594 ; CHECK-NEXT:    .long 1 @ 0x1
595 ; CHECK-NEXT:    .long 4294967295 @ 0xffffffff
596 ; CHECK-NEXT:    .long 1 @ 0x1
597 entry:
598   %z = fadd <8 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0>
599   %y = bitcast <8 x half> %z to <4 x i32>
600   %w = add <4 x i32> %y, <i32 -1, i32 1, i32 -1, i32 1>
601   store <4 x i32> %w, <4 x i32>* %store
602   ret void
605 define void @conv_v8f16_to_v4f32( <8 x half> %a, <4 x float>* %store ) {
606 ; CHECK-LABEL: conv_v8f16_to_v4f32:
607 ; CHECK:       @ %bb.0: @ %entry
608 ; CHECK-NEXT:    adr r1, .LCPI21_0
609 ; CHECK-NEXT:    vrev64.16 q9, q0
610 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
611 ; CHECK-NEXT:    adr r1, .LCPI21_1
612 ; CHECK-NEXT:    vrev64.16 q8, q8
613 ; CHECK-NEXT:    vadd.f16 q8, q9, q8
614 ; CHECK-NEXT:    vld1.64 {d18, d19}, [r1:128]
615 ; CHECK-NEXT:    vrev64.32 q9, q9
616 ; CHECK-NEXT:    vrev32.16 q8, q8
617 ; CHECK-NEXT:    vadd.f32 q8, q8, q9
618 ; CHECK-NEXT:    vrev64.32 q8, q8
619 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
620 ; CHECK-NEXT:    bx lr
621 ; CHECK-NEXT:    .p2align 4
622 ; CHECK-NEXT:  @ %bb.1:
623 ; CHECK-NEXT:  .LCPI21_0:
624 ; CHECK-NEXT:    .short 0xbc00 @ half -1
625 ; CHECK-NEXT:    .short 0x3c00 @ half 1
626 ; CHECK-NEXT:    .short 0xbc00 @ half -1
627 ; CHECK-NEXT:    .short 0x3c00 @ half 1
628 ; CHECK-NEXT:    .short 0xbc00 @ half -1
629 ; CHECK-NEXT:    .short 0x3c00 @ half 1
630 ; CHECK-NEXT:    .short 0xbc00 @ half -1
631 ; CHECK-NEXT:    .short 0x3c00 @ half 1
632 ; CHECK-NEXT:  .LCPI21_1:
633 ; CHECK-NEXT:    .long 0xbf800000 @ float -1
634 ; CHECK-NEXT:    .long 0x3f800000 @ float 1
635 ; CHECK-NEXT:    .long 0xbf800000 @ float -1
636 ; CHECK-NEXT:    .long 0x3f800000 @ float 1
637 entry:
638   %z = fadd <8 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0>
639   %y = bitcast <8 x half> %z to <4 x float>
640   %w = fadd <4 x float> %y, <float -1.0, float 1.0, float -1.0, float 1.0>
641   store <4 x float> %w, <4 x float>* %store
642   ret void
645 define void @conv_v8f16_to_v8i16( <8 x half> %a, <8 x i16>* %store ) {
646 ; CHECK-LABEL: conv_v8f16_to_v8i16:
647 ; CHECK:       @ %bb.0: @ %entry
648 ; CHECK-NEXT:    adr r1, .LCPI22_0
649 ; CHECK-NEXT:    vrev64.16 q9, q0
650 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
651 ; CHECK-NEXT:    adr r1, .LCPI22_1
652 ; CHECK-NEXT:    vrev64.16 q8, q8
653 ; CHECK-NEXT:    vadd.f16 q8, q9, q8
654 ; CHECK-NEXT:    vld1.64 {d18, d19}, [r1:128]
655 ; CHECK-NEXT:    vrev64.16 q9, q9
656 ; CHECK-NEXT:    vadd.i16 q8, q8, q9
657 ; CHECK-NEXT:    vrev64.16 q8, q8
658 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
659 ; CHECK-NEXT:    bx lr
660 ; CHECK-NEXT:    .p2align 4
661 ; CHECK-NEXT:  @ %bb.1:
662 ; CHECK-NEXT:  .LCPI22_0:
663 ; CHECK-NEXT:    .short 0xbc00 @ half -1
664 ; CHECK-NEXT:    .short 0x3c00 @ half 1
665 ; CHECK-NEXT:    .short 0xbc00 @ half -1
666 ; CHECK-NEXT:    .short 0x3c00 @ half 1
667 ; CHECK-NEXT:    .short 0xbc00 @ half -1
668 ; CHECK-NEXT:    .short 0x3c00 @ half 1
669 ; CHECK-NEXT:    .short 0xbc00 @ half -1
670 ; CHECK-NEXT:    .short 0x3c00 @ half 1
671 ; CHECK-NEXT:  .LCPI22_1:
672 ; CHECK-NEXT:    .short 65535 @ 0xffff
673 ; CHECK-NEXT:    .short 1 @ 0x1
674 ; CHECK-NEXT:    .short 0 @ 0x0
675 ; CHECK-NEXT:    .short 7 @ 0x7
676 ; CHECK-NEXT:    .short 65535 @ 0xffff
677 ; CHECK-NEXT:    .short 1 @ 0x1
678 ; CHECK-NEXT:    .short 0 @ 0x0
679 ; CHECK-NEXT:    .short 7 @ 0x7
680 entry:
681   %z = fadd <8 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0>
682   %y = bitcast <8 x half> %z to <8 x i16>
683   %w = add <8 x i16> %y, <i16 -1, i16 1, i16 0, i16 7, i16 -1, i16 1, i16 0, i16 7>
684   store <8 x i16> %w, <8 x i16>* %store
685   ret void
688 define void @conv_v8f16_to_v8f8( <8 x half> %a, <16 x i8>* %store ) {
689 ; CHECK-LABEL: conv_v8f16_to_v8f8:
690 ; CHECK:       @ %bb.0: @ %entry
691 ; CHECK-NEXT:    adr r1, .LCPI23_0
692 ; CHECK-NEXT:    vrev64.16 q9, q0
693 ; CHECK-NEXT:    vld1.64 {d16, d17}, [r1:128]
694 ; CHECK-NEXT:    vrev64.16 q8, q8
695 ; CHECK-NEXT:    vadd.f16 q8, q9, q8
696 ; CHECK-NEXT:    vmov.i8 q9, #0x1
697 ; CHECK-NEXT:    vrev16.8 q8, q8
698 ; CHECK-NEXT:    vadd.i8 q8, q8, q9
699 ; CHECK-NEXT:    vrev64.8 q8, q8
700 ; CHECK-NEXT:    vst1.64 {d16, d17}, [r0]
701 ; CHECK-NEXT:    bx lr
702 ; CHECK-NEXT:    .p2align 4
703 ; CHECK-NEXT:  @ %bb.1:
704 ; CHECK-NEXT:  .LCPI23_0:
705 ; CHECK-NEXT:    .short 0xbc00 @ half -1
706 ; CHECK-NEXT:    .short 0x3c00 @ half 1
707 ; CHECK-NEXT:    .short 0xbc00 @ half -1
708 ; CHECK-NEXT:    .short 0x3c00 @ half 1
709 ; CHECK-NEXT:    .short 0xbc00 @ half -1
710 ; CHECK-NEXT:    .short 0x3c00 @ half 1
711 ; CHECK-NEXT:    .short 0xbc00 @ half -1
712 ; CHECK-NEXT:    .short 0x3c00 @ half 1
713 entry:
714   %z = fadd <8 x half> %a, <half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0, half -1.0, half 1.0>
715   %y = bitcast <8 x half> %z to <16 x i8>
716   %w = add <16 x i8> %y, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
717   store <16 x i8> %w, <16 x i8>* %store
718   ret void