[TTI] getTypeBasedIntrinsicInstrCost - add basic handling for strided load/store...
[llvm-project.git] / llvm / test / CodeGen / AArch64 / arm64-neon-simd-ldst-one.ll
blob7d87be0ce8e1cacd1825e309ede71f8e7376772b
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -verify-machineinstrs -mtriple=arm64-none-linux-gnu -mattr=+neon -global-isel=0 | FileCheck %s --check-prefixes=CHECK,CHECK-GI
3 ; RUN: llc < %s -verify-machineinstrs -mtriple=arm64-none-linux-gnu -mattr=+neon -global-isel=1 | FileCheck %s --check-prefixes=CHECK,CHECK-SD
6 %struct.uint8x16x2_t = type { [2 x <16 x i8>] }
7 %struct.poly8x16x2_t = type { [2 x <16 x i8>] }
8 %struct.uint8x16x3_t = type { [3 x <16 x i8>] }
9 %struct.int8x16x2_t = type { [2 x <16 x i8>] }
10 %struct.int16x8x2_t = type { [2 x <8 x i16>] }
11 %struct.int32x4x2_t = type { [2 x <4 x i32>] }
12 %struct.int64x2x2_t = type { [2 x <2 x i64>] }
13 %struct.float32x4x2_t = type { [2 x <4 x float>] }
14 %struct.float64x2x2_t = type { [2 x <2 x double>] }
15 %struct.int8x8x2_t = type { [2 x <8 x i8>] }
16 %struct.int16x4x2_t = type { [2 x <4 x i16>] }
17 %struct.int32x2x2_t = type { [2 x <2 x i32>] }
18 %struct.int64x1x2_t = type { [2 x <1 x i64>] }
19 %struct.float32x2x2_t = type { [2 x <2 x float>] }
20 %struct.float64x1x2_t = type { [2 x <1 x double>] }
21 %struct.int8x16x3_t = type { [3 x <16 x i8>] }
22 %struct.int16x8x3_t = type { [3 x <8 x i16>] }
23 %struct.int32x4x3_t = type { [3 x <4 x i32>] }
24 %struct.int64x2x3_t = type { [3 x <2 x i64>] }
25 %struct.float32x4x3_t = type { [3 x <4 x float>] }
26 %struct.float64x2x3_t = type { [3 x <2 x double>] }
27 %struct.int8x8x3_t = type { [3 x <8 x i8>] }
28 %struct.int16x4x3_t = type { [3 x <4 x i16>] }
29 %struct.int32x2x3_t = type { [3 x <2 x i32>] }
30 %struct.int64x1x3_t = type { [3 x <1 x i64>] }
31 %struct.float32x2x3_t = type { [3 x <2 x float>] }
32 %struct.float64x1x3_t = type { [3 x <1 x double>] }
33 %struct.int8x16x4_t = type { [4 x <16 x i8>] }
34 %struct.int16x8x4_t = type { [4 x <8 x i16>] }
35 %struct.int32x4x4_t = type { [4 x <4 x i32>] }
36 %struct.int64x2x4_t = type { [4 x <2 x i64>] }
37 %struct.float32x4x4_t = type { [4 x <4 x float>] }
38 %struct.float64x2x4_t = type { [4 x <2 x double>] }
39 %struct.int8x8x4_t = type { [4 x <8 x i8>] }
40 %struct.int16x4x4_t = type { [4 x <4 x i16>] }
41 %struct.int32x2x4_t = type { [4 x <2 x i32>] }
42 %struct.int64x1x4_t = type { [4 x <1 x i64>] }
43 %struct.float32x2x4_t = type { [4 x <2 x float>] }
44 %struct.float64x1x4_t = type { [4 x <1 x double>] }
46 define <16 x i8> @test_ld_from_poll_v16i8(<16 x i8> %a) {
47 ; CHECK-LABEL: test_ld_from_poll_v16i8:
48 ; CHECK:       // %bb.0: // %entry
49 ; CHECK-NEXT:    adrp x8, .LCPI0_0
50 ; CHECK-NEXT:    ldr q1, [x8, :lo12:.LCPI0_0]
51 ; CHECK-NEXT:    add v0.16b, v0.16b, v1.16b
52 ; CHECK-NEXT:    ret
53 entry:
54   %b = add <16 x i8> %a, <i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 2, i8 13, i8 14, i8 15, i8 16>
55   ret <16 x i8> %b
58 define <8 x i16> @test_ld_from_poll_v8i16(<8 x i16> %a) {
59 ; CHECK-LABEL: test_ld_from_poll_v8i16:
60 ; CHECK:       // %bb.0: // %entry
61 ; CHECK-NEXT:    adrp x8, .LCPI1_0
62 ; CHECK-NEXT:    ldr q1, [x8, :lo12:.LCPI1_0]
63 ; CHECK-NEXT:    add v0.8h, v0.8h, v1.8h
64 ; CHECK-NEXT:    ret
65 entry:
66   %b = add <8 x i16> %a, <i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8>
67   ret <8 x i16> %b
70 define <4 x i32> @test_ld_from_poll_v4i32(<4 x i32> %a) {
71 ; CHECK-LABEL: test_ld_from_poll_v4i32:
72 ; CHECK:       // %bb.0: // %entry
73 ; CHECK-NEXT:    adrp x8, .LCPI2_0
74 ; CHECK-NEXT:    ldr q1, [x8, :lo12:.LCPI2_0]
75 ; CHECK-NEXT:    add v0.4s, v0.4s, v1.4s
76 ; CHECK-NEXT:    ret
77 entry:
78   %b = add <4 x i32> %a, <i32 1, i32 2, i32 3, i32 4>
79   ret <4 x i32> %b
82 define <2 x i64> @test_ld_from_poll_v2i64(<2 x i64> %a) {
83 ; CHECK-LABEL: test_ld_from_poll_v2i64:
84 ; CHECK:       // %bb.0: // %entry
85 ; CHECK-NEXT:    adrp x8, .LCPI3_0
86 ; CHECK-NEXT:    ldr q1, [x8, :lo12:.LCPI3_0]
87 ; CHECK-NEXT:    add v0.2d, v0.2d, v1.2d
88 ; CHECK-NEXT:    ret
89 entry:
90   %b = add <2 x i64> %a, <i64 1, i64 2>
91   ret <2 x i64> %b
94 define <4 x float> @test_ld_from_poll_v4f32(<4 x float> %a) {
95 ; CHECK-LABEL: test_ld_from_poll_v4f32:
96 ; CHECK:       // %bb.0: // %entry
97 ; CHECK-NEXT:    adrp x8, .LCPI4_0
98 ; CHECK-NEXT:    ldr q1, [x8, :lo12:.LCPI4_0]
99 ; CHECK-NEXT:    fadd v0.4s, v0.4s, v1.4s
100 ; CHECK-NEXT:    ret
101 entry:
102   %b = fadd <4 x float> %a, <float 1.0, float 2.0, float 3.0, float 4.0>
103   ret <4 x float> %b
106 define <2 x double> @test_ld_from_poll_v2f64(<2 x double> %a) {
107 ; CHECK-LABEL: test_ld_from_poll_v2f64:
108 ; CHECK:       // %bb.0: // %entry
109 ; CHECK-NEXT:    adrp x8, .LCPI5_0
110 ; CHECK-NEXT:    ldr q1, [x8, :lo12:.LCPI5_0]
111 ; CHECK-NEXT:    fadd v0.2d, v0.2d, v1.2d
112 ; CHECK-NEXT:    ret
113 entry:
114   %b = fadd <2 x double> %a, <double 1.0, double 2.0>
115   ret <2 x double> %b
118 define <8 x i8> @test_ld_from_poll_v8i8(<8 x i8> %a) {
119 ; CHECK-LABEL: test_ld_from_poll_v8i8:
120 ; CHECK:       // %bb.0: // %entry
121 ; CHECK-NEXT:    adrp x8, .LCPI6_0
122 ; CHECK-NEXT:    ldr d1, [x8, :lo12:.LCPI6_0]
123 ; CHECK-NEXT:    add v0.8b, v0.8b, v1.8b
124 ; CHECK-NEXT:    ret
125 entry:
126   %b = add <8 x i8> %a, <i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8>
127   ret <8 x i8> %b
130 define <4 x i16> @test_ld_from_poll_v4i16(<4 x i16> %a) {
131 ; CHECK-LABEL: test_ld_from_poll_v4i16:
132 ; CHECK:       // %bb.0: // %entry
133 ; CHECK-NEXT:    adrp x8, .LCPI7_0
134 ; CHECK-NEXT:    ldr d1, [x8, :lo12:.LCPI7_0]
135 ; CHECK-NEXT:    add v0.4h, v0.4h, v1.4h
136 ; CHECK-NEXT:    ret
137 entry:
138   %b = add <4 x i16> %a, <i16 1, i16 2, i16 3, i16 4>
139   ret <4 x i16> %b
142 define <2 x i32> @test_ld_from_poll_v2i32(<2 x i32> %a) {
143 ; CHECK-LABEL: test_ld_from_poll_v2i32:
144 ; CHECK:       // %bb.0: // %entry
145 ; CHECK-NEXT:    adrp x8, .LCPI8_0
146 ; CHECK-NEXT:    ldr d1, [x8, :lo12:.LCPI8_0]
147 ; CHECK-NEXT:    add v0.2s, v0.2s, v1.2s
148 ; CHECK-NEXT:    ret
149 entry:
150   %b = add <2 x i32> %a, <i32 1, i32 2>
151   ret <2 x i32> %b
154 define <16 x i8> @test_vld1q_dup_s8(ptr %a) {
155 ; CHECK-LABEL: test_vld1q_dup_s8:
156 ; CHECK:       // %bb.0: // %entry
157 ; CHECK-NEXT:    ld1r { v0.16b }, [x0]
158 ; CHECK-NEXT:    ret
159 entry:
160   %0 = load i8, ptr %a, align 1
161   %1 = insertelement <16 x i8> undef, i8 %0, i32 0
162   %lane = shufflevector <16 x i8> %1, <16 x i8> undef, <16 x i32> zeroinitializer
163   ret <16 x i8> %lane
166 define <8 x i16> @test_vld1q_dup_s16(ptr %a) {
167 ; CHECK-LABEL: test_vld1q_dup_s16:
168 ; CHECK:       // %bb.0: // %entry
169 ; CHECK-NEXT:    ld1r { v0.8h }, [x0]
170 ; CHECK-NEXT:    ret
171 entry:
172   %0 = load i16, ptr %a, align 2
173   %1 = insertelement <8 x i16> undef, i16 %0, i32 0
174   %lane = shufflevector <8 x i16> %1, <8 x i16> undef, <8 x i32> zeroinitializer
175   ret <8 x i16> %lane
178 define <4 x i32> @test_vld1q_dup_s32(ptr %a) {
179 ; CHECK-LABEL: test_vld1q_dup_s32:
180 ; CHECK:       // %bb.0: // %entry
181 ; CHECK-NEXT:    ld1r { v0.4s }, [x0]
182 ; CHECK-NEXT:    ret
183 entry:
184   %0 = load i32, ptr %a, align 4
185   %1 = insertelement <4 x i32> undef, i32 %0, i32 0
186   %lane = shufflevector <4 x i32> %1, <4 x i32> undef, <4 x i32> zeroinitializer
187   ret <4 x i32> %lane
190 define <2 x i64> @test_vld1q_dup_s64(ptr %a) {
191 ; CHECK-LABEL: test_vld1q_dup_s64:
192 ; CHECK:       // %bb.0: // %entry
193 ; CHECK-NEXT:    ld1r { v0.2d }, [x0]
194 ; CHECK-NEXT:    ret
195 entry:
196   %0 = load i64, ptr %a, align 8
197   %1 = insertelement <2 x i64> undef, i64 %0, i32 0
198   %lane = shufflevector <2 x i64> %1, <2 x i64> undef, <2 x i32> zeroinitializer
199   ret <2 x i64> %lane
202 define <4 x float> @test_vld1q_dup_f32(ptr %a) {
203 ; CHECK-LABEL: test_vld1q_dup_f32:
204 ; CHECK:       // %bb.0: // %entry
205 ; CHECK-NEXT:    ld1r { v0.4s }, [x0]
206 ; CHECK-NEXT:    ret
207 entry:
208   %0 = load float, ptr %a, align 4
209   %1 = insertelement <4 x float> undef, float %0, i32 0
210   %lane = shufflevector <4 x float> %1, <4 x float> undef, <4 x i32> zeroinitializer
211   ret <4 x float> %lane
214 define <2 x double> @test_vld1q_dup_f64(ptr %a) {
215 ; CHECK-LABEL: test_vld1q_dup_f64:
216 ; CHECK:       // %bb.0: // %entry
217 ; CHECK-NEXT:    ld1r { v0.2d }, [x0]
218 ; CHECK-NEXT:    ret
219 entry:
220   %0 = load double, ptr %a, align 8
221   %1 = insertelement <2 x double> undef, double %0, i32 0
222   %lane = shufflevector <2 x double> %1, <2 x double> undef, <2 x i32> zeroinitializer
223   ret <2 x double> %lane
226 define <8 x i8> @test_vld1_dup_s8(ptr %a) {
227 ; CHECK-LABEL: test_vld1_dup_s8:
228 ; CHECK:       // %bb.0: // %entry
229 ; CHECK-NEXT:    ld1r { v0.8b }, [x0]
230 ; CHECK-NEXT:    ret
231 entry:
232   %0 = load i8, ptr %a, align 1
233   %1 = insertelement <8 x i8> undef, i8 %0, i32 0
234   %lane = shufflevector <8 x i8> %1, <8 x i8> undef, <8 x i32> zeroinitializer
235   ret <8 x i8> %lane
238 define <4 x i16> @test_vld1_dup_s16(ptr %a) {
239 ; CHECK-LABEL: test_vld1_dup_s16:
240 ; CHECK:       // %bb.0: // %entry
241 ; CHECK-NEXT:    ld1r { v0.4h }, [x0]
242 ; CHECK-NEXT:    ret
243 entry:
244   %0 = load i16, ptr %a, align 2
245   %1 = insertelement <4 x i16> undef, i16 %0, i32 0
246   %lane = shufflevector <4 x i16> %1, <4 x i16> undef, <4 x i32> zeroinitializer
247   ret <4 x i16> %lane
250 define <2 x i32> @test_vld1_dup_s32(ptr %a) {
251 ; CHECK-LABEL: test_vld1_dup_s32:
252 ; CHECK:       // %bb.0: // %entry
253 ; CHECK-NEXT:    ld1r { v0.2s }, [x0]
254 ; CHECK-NEXT:    ret
255 entry:
256   %0 = load i32, ptr %a, align 4
257   %1 = insertelement <2 x i32> undef, i32 %0, i32 0
258   %lane = shufflevector <2 x i32> %1, <2 x i32> undef, <2 x i32> zeroinitializer
259   ret <2 x i32> %lane
262 define <1 x i64> @test_vld1_dup_s64(ptr %a) {
263 ; CHECK-LABEL: test_vld1_dup_s64:
264 ; CHECK:       // %bb.0: // %entry
265 ; CHECK-NEXT:    ldr d0, [x0]
266 ; CHECK-NEXT:    ret
267 entry:
268   %0 = load i64, ptr %a, align 8
269   %1 = insertelement <1 x i64> undef, i64 %0, i32 0
270   ret <1 x i64> %1
273 define <2 x float> @test_vld1_dup_f32(ptr %a) {
274 ; CHECK-LABEL: test_vld1_dup_f32:
275 ; CHECK:       // %bb.0: // %entry
276 ; CHECK-NEXT:    ld1r { v0.2s }, [x0]
277 ; CHECK-NEXT:    ret
278 entry:
279   %0 = load float, ptr %a, align 4
280   %1 = insertelement <2 x float> undef, float %0, i32 0
281   %lane = shufflevector <2 x float> %1, <2 x float> undef, <2 x i32> zeroinitializer
282   ret <2 x float> %lane
285 define <1 x double> @test_vld1_dup_f64(ptr %a) {
286 ; CHECK-LABEL: test_vld1_dup_f64:
287 ; CHECK:       // %bb.0: // %entry
288 ; CHECK-NEXT:    ldr d0, [x0]
289 ; CHECK-NEXT:    ret
290 entry:
291   %0 = load double, ptr %a, align 8
292   %1 = insertelement <1 x double> undef, double %0, i32 0
293   ret <1 x double> %1
296 define <1 x i64> @testDUP.v1i64(ptr %a, ptr %b) #0 {
297 ; As there is a store operation depending on %1, LD1R pattern can't be selected.
298 ; So LDR and FMOV should be emitted.
299 ; CHECK-GI-LABEL: testDUP.v1i64:
300 ; CHECK-GI:       // %bb.0:
301 ; CHECK-GI-NEXT:    ldr x8, [x0]
302 ; CHECK-GI-NEXT:    fmov d0, x8
303 ; CHECK-GI-NEXT:    str x8, [x1]
304 ; CHECK-GI-NEXT:    ret
306 ; CHECK-SD-LABEL: testDUP.v1i64:
307 ; CHECK-SD:       // %bb.0:
308 ; CHECK-SD-NEXT:    ldr d0, [x0]
309 ; CHECK-SD-NEXT:    str d0, [x1]
310 ; CHECK-SD-NEXT:    ret
311   %1 = load i64, ptr %a, align 8
312   store i64 %1, ptr %b, align 8
313   %vecinit.i = insertelement <1 x i64> undef, i64 %1, i32 0
314   ret <1 x i64> %vecinit.i
317 define <1 x double> @testDUP.v1f64(ptr %a, ptr %b) #0 {
318 ; As there is a store operation depending on %1, LD1R pattern can't be selected.
319 ; So LDR and FMOV should be emitted.
320 ; CHECK-LABEL: testDUP.v1f64:
321 ; CHECK:       // %bb.0:
322 ; CHECK-NEXT:    ldr d0, [x0]
323 ; CHECK-NEXT:    str d0, [x1]
324 ; CHECK-NEXT:    ret
325   %1 = load double, ptr %a, align 8
326   store double %1, ptr %b, align 8
327   %vecinit.i = insertelement <1 x double> undef, double %1, i32 0
328   ret <1 x double> %vecinit.i
331 define <16 x i8> @test_vld1q_lane_s8(ptr %a, <16 x i8> %b) {
332 ; CHECK-GI-LABEL: test_vld1q_lane_s8:
333 ; CHECK-GI:       // %bb.0: // %entry
334 ; CHECK-GI-NEXT:    ld1 { v0.b }[15], [x0]
335 ; CHECK-GI-NEXT:    ret
337 ; CHECK-SD-LABEL: test_vld1q_lane_s8:
338 ; CHECK-SD:       // %bb.0: // %entry
339 ; CHECK-SD-NEXT:    ldr b1, [x0]
340 ; CHECK-SD-NEXT:    mov v0.b[15], v1.b[0]
341 ; CHECK-SD-NEXT:    ret
342 entry:
343   %0 = load i8, ptr %a, align 1
344   %vld1_lane = insertelement <16 x i8> %b, i8 %0, i32 15
345   ret <16 x i8> %vld1_lane
348 define <8 x i16> @test_vld1q_lane_s16(ptr %a, <8 x i16> %b) {
349 ; CHECK-LABEL: test_vld1q_lane_s16:
350 ; CHECK:       // %bb.0: // %entry
351 ; CHECK-NEXT:    ld1 { v0.h }[7], [x0]
352 ; CHECK-NEXT:    ret
353 entry:
354   %0 = load i16, ptr %a, align 2
355   %vld1_lane = insertelement <8 x i16> %b, i16 %0, i32 7
356   ret <8 x i16> %vld1_lane
359 define <4 x i32> @test_vld1q_lane_s32(ptr %a, <4 x i32> %b) {
360 ; CHECK-LABEL: test_vld1q_lane_s32:
361 ; CHECK:       // %bb.0: // %entry
362 ; CHECK-NEXT:    ld1 { v0.s }[3], [x0]
363 ; CHECK-NEXT:    ret
364 entry:
365   %0 = load i32, ptr %a, align 4
366   %vld1_lane = insertelement <4 x i32> %b, i32 %0, i32 3
367   ret <4 x i32> %vld1_lane
370 define <2 x i64> @test_vld1q_lane_s64(ptr %a, <2 x i64> %b) {
371 ; CHECK-LABEL: test_vld1q_lane_s64:
372 ; CHECK:       // %bb.0: // %entry
373 ; CHECK-NEXT:    ld1 { v0.d }[1], [x0]
374 ; CHECK-NEXT:    ret
375 entry:
376   %0 = load i64, ptr %a, align 8
377   %vld1_lane = insertelement <2 x i64> %b, i64 %0, i32 1
378   ret <2 x i64> %vld1_lane
381 define <4 x float> @test_vld1q_lane_f32(ptr %a, <4 x float> %b) {
382 ; CHECK-LABEL: test_vld1q_lane_f32:
383 ; CHECK:       // %bb.0: // %entry
384 ; CHECK-NEXT:    ld1 { v0.s }[3], [x0]
385 ; CHECK-NEXT:    ret
386 entry:
387   %0 = load float, ptr %a, align 4
388   %vld1_lane = insertelement <4 x float> %b, float %0, i32 3
389   ret <4 x float> %vld1_lane
392 define <2 x double> @test_vld1q_lane_f64(ptr %a, <2 x double> %b) {
393 ; CHECK-LABEL: test_vld1q_lane_f64:
394 ; CHECK:       // %bb.0: // %entry
395 ; CHECK-NEXT:    ld1 { v0.d }[1], [x0]
396 ; CHECK-NEXT:    ret
397 entry:
398   %0 = load double, ptr %a, align 8
399   %vld1_lane = insertelement <2 x double> %b, double %0, i32 1
400   ret <2 x double> %vld1_lane
403 define <8 x i8> @test_vld1_lane_s8(ptr %a, <8 x i8> %b) {
404 ; CHECK-GI-LABEL: test_vld1_lane_s8:
405 ; CHECK-GI:       // %bb.0: // %entry
406 ; CHECK-GI-NEXT:    // kill: def $d0 killed $d0 def $q0
407 ; CHECK-GI-NEXT:    ld1 { v0.b }[7], [x0]
408 ; CHECK-GI-NEXT:    // kill: def $d0 killed $d0 killed $q0
409 ; CHECK-GI-NEXT:    ret
411 ; CHECK-SD-LABEL: test_vld1_lane_s8:
412 ; CHECK-SD:       // %bb.0: // %entry
413 ; CHECK-SD-NEXT:    ldr b1, [x0]
414 ; CHECK-SD-NEXT:    // kill: def $d0 killed $d0 def $q0
415 ; CHECK-SD-NEXT:    mov v0.b[7], v1.b[0]
416 ; CHECK-SD-NEXT:    // kill: def $d0 killed $d0 killed $q0
417 ; CHECK-SD-NEXT:    ret
418 entry:
419   %0 = load i8, ptr %a, align 1
420   %vld1_lane = insertelement <8 x i8> %b, i8 %0, i32 7
421   ret <8 x i8> %vld1_lane
424 define <4 x i16> @test_vld1_lane_s16(ptr %a, <4 x i16> %b) {
425 ; CHECK-LABEL: test_vld1_lane_s16:
426 ; CHECK:       // %bb.0: // %entry
427 ; CHECK-NEXT:    // kill: def $d0 killed $d0 def $q0
428 ; CHECK-NEXT:    ld1 { v0.h }[3], [x0]
429 ; CHECK-NEXT:    // kill: def $d0 killed $d0 killed $q0
430 ; CHECK-NEXT:    ret
431 entry:
432   %0 = load i16, ptr %a, align 2
433   %vld1_lane = insertelement <4 x i16> %b, i16 %0, i32 3
434   ret <4 x i16> %vld1_lane
437 define <2 x i32> @test_vld1_lane_s32(ptr %a, <2 x i32> %b) {
438 ; CHECK-LABEL: test_vld1_lane_s32:
439 ; CHECK:       // %bb.0: // %entry
440 ; CHECK-NEXT:    // kill: def $d0 killed $d0 def $q0
441 ; CHECK-NEXT:    ld1 { v0.s }[1], [x0]
442 ; CHECK-NEXT:    // kill: def $d0 killed $d0 killed $q0
443 ; CHECK-NEXT:    ret
444 entry:
445   %0 = load i32, ptr %a, align 4
446   %vld1_lane = insertelement <2 x i32> %b, i32 %0, i32 1
447   ret <2 x i32> %vld1_lane
450 define <1 x i64> @test_vld1_lane_s64(ptr %a, <1 x i64> %b) {
451 ; CHECK-LABEL: test_vld1_lane_s64:
452 ; CHECK:       // %bb.0: // %entry
453 ; CHECK-NEXT:    ldr d0, [x0]
454 ; CHECK-NEXT:    ret
455 entry:
456   %0 = load i64, ptr %a, align 8
457   %vld1_lane = insertelement <1 x i64> undef, i64 %0, i32 0
458   ret <1 x i64> %vld1_lane
461 define <2 x float> @test_vld1_lane_f32(ptr %a, <2 x float> %b) {
462 ; CHECK-LABEL: test_vld1_lane_f32:
463 ; CHECK:       // %bb.0: // %entry
464 ; CHECK-NEXT:    // kill: def $d0 killed $d0 def $q0
465 ; CHECK-NEXT:    ld1 { v0.s }[1], [x0]
466 ; CHECK-NEXT:    // kill: def $d0 killed $d0 killed $q0
467 ; CHECK-NEXT:    ret
468 entry:
469   %0 = load float, ptr %a, align 4
470   %vld1_lane = insertelement <2 x float> %b, float %0, i32 1
471   ret <2 x float> %vld1_lane
474 define <1 x double> @test_vld1_lane_f64(ptr %a, <1 x double> %b) {
475 ; CHECK-LABEL: test_vld1_lane_f64:
476 ; CHECK:       // %bb.0: // %entry
477 ; CHECK-NEXT:    ldr d0, [x0]
478 ; CHECK-NEXT:    ret
479 entry:
480   %0 = load double, ptr %a, align 8
481   %vld1_lane = insertelement <1 x double> undef, double %0, i32 0
482   ret <1 x double> %vld1_lane
485 define void @test_vst1q_lane_s8(ptr %a, <16 x i8> %b) {
486 ; CHECK-LABEL: test_vst1q_lane_s8:
487 ; CHECK:       // %bb.0: // %entry
488 ; CHECK-NEXT:    st1 { v0.b }[15], [x0]
489 ; CHECK-NEXT:    ret
490 entry:
491   %0 = extractelement <16 x i8> %b, i32 15
492   store i8 %0, ptr %a, align 1
493   ret void
496 define void @test_vst1q_lane_s16(ptr %a, <8 x i16> %b) {
497 ; CHECK-LABEL: test_vst1q_lane_s16:
498 ; CHECK:       // %bb.0: // %entry
499 ; CHECK-NEXT:    st1 { v0.h }[7], [x0]
500 ; CHECK-NEXT:    ret
501 entry:
502   %0 = extractelement <8 x i16> %b, i32 7
503   store i16 %0, ptr %a, align 2
504   ret void
507 define void @test_vst1q_lane0_s16(ptr %a, <8 x i16> %b) {
508 ; CHECK-LABEL: test_vst1q_lane0_s16:
509 ; CHECK:       // %bb.0: // %entry
510 ; CHECK-NEXT:    str h0, [x0]
511 ; CHECK-NEXT:    ret
512 entry:
513   %0 = extractelement <8 x i16> %b, i32 0
514   store i16 %0, ptr %a, align 2
515   ret void
518 define void @test_vst1q_lane_s32(ptr %a, <4 x i32> %b) {
519 ; CHECK-LABEL: test_vst1q_lane_s32:
520 ; CHECK:       // %bb.0: // %entry
521 ; CHECK-NEXT:    st1 { v0.s }[3], [x0]
522 ; CHECK-NEXT:    ret
523 entry:
524   %0 = extractelement <4 x i32> %b, i32 3
525   store i32 %0, ptr %a, align 4
526   ret void
529 define void @test_vst1q_lane0_s32(ptr %a, <4 x i32> %b) {
530 ; CHECK-LABEL: test_vst1q_lane0_s32:
531 ; CHECK:       // %bb.0: // %entry
532 ; CHECK-NEXT:    str s0, [x0]
533 ; CHECK-NEXT:    ret
534 entry:
535   %0 = extractelement <4 x i32> %b, i32 0
536   store i32 %0, ptr %a, align 4
537   ret void
540 define void @test_vst1q_lane_s64(ptr %a, <2 x i64> %b) {
541 ; CHECK-LABEL: test_vst1q_lane_s64:
542 ; CHECK:       // %bb.0: // %entry
543 ; CHECK-NEXT:    st1 { v0.d }[1], [x0]
544 ; CHECK-NEXT:    ret
545 entry:
546   %0 = extractelement <2 x i64> %b, i32 1
547   store i64 %0, ptr %a, align 8
548   ret void
551 define void @test_vst1q_lane0_s64(ptr %a, <2 x i64> %b) {
552 ; CHECK-LABEL: test_vst1q_lane0_s64:
553 ; CHECK:       // %bb.0: // %entry
554 ; CHECK-NEXT:    str d0, [x0]
555 ; CHECK-NEXT:    ret
556 entry:
557   %0 = extractelement <2 x i64> %b, i32 0
558   store i64 %0, ptr %a, align 8
559   ret void
562 define void @test_vst1q_lane_f32(ptr %a, <4 x float> %b) {
563 ; CHECK-LABEL: test_vst1q_lane_f32:
564 ; CHECK:       // %bb.0: // %entry
565 ; CHECK-NEXT:    st1 { v0.s }[3], [x0]
566 ; CHECK-NEXT:    ret
567 entry:
568   %0 = extractelement <4 x float> %b, i32 3
569   store float %0, ptr %a, align 4
570   ret void
573 define void @test_vst1q_lane0_f32(ptr %a, <4 x float> %b) {
574 ; CHECK-LABEL: test_vst1q_lane0_f32:
575 ; CHECK:       // %bb.0: // %entry
576 ; CHECK-NEXT:    str s0, [x0]
577 ; CHECK-NEXT:    ret
578 entry:
579   %0 = extractelement <4 x float> %b, i32 0
580   store float %0, ptr %a, align 4
581   ret void
584 define void @test_vst1q_lane_f64(ptr %a, <2 x double> %b) {
585 ; CHECK-LABEL: test_vst1q_lane_f64:
586 ; CHECK:       // %bb.0: // %entry
587 ; CHECK-NEXT:    st1 { v0.d }[1], [x0]
588 ; CHECK-NEXT:    ret
589 entry:
590   %0 = extractelement <2 x double> %b, i32 1
591   store double %0, ptr %a, align 8
592   ret void
595 define void @test_vst1q_lane0_f64(ptr %a, <2 x double> %b) {
596 ; CHECK-LABEL: test_vst1q_lane0_f64:
597 ; CHECK:       // %bb.0: // %entry
598 ; CHECK-NEXT:    str d0, [x0]
599 ; CHECK-NEXT:    ret
600 entry:
601   %0 = extractelement <2 x double> %b, i32 0
602   store double %0, ptr %a, align 8
603   ret void
606 define void @test_vst1_lane_s8(ptr %a, <8 x i8> %b) {
607 ; CHECK-LABEL: test_vst1_lane_s8:
608 ; CHECK:       // %bb.0: // %entry
609 ; CHECK-NEXT:    // kill: def $d0 killed $d0 def $q0
610 ; CHECK-NEXT:    st1 { v0.b }[7], [x0]
611 ; CHECK-NEXT:    ret
612 entry:
613   %0 = extractelement <8 x i8> %b, i32 7
614   store i8 %0, ptr %a, align 1
615   ret void
618 define void @test_vst1_lane_s16(ptr %a, <4 x i16> %b) {
619 ; CHECK-LABEL: test_vst1_lane_s16:
620 ; CHECK:       // %bb.0: // %entry
621 ; CHECK-NEXT:    // kill: def $d0 killed $d0 def $q0
622 ; CHECK-NEXT:    st1 { v0.h }[3], [x0]
623 ; CHECK-NEXT:    ret
624 entry:
625   %0 = extractelement <4 x i16> %b, i32 3
626   store i16 %0, ptr %a, align 2
627   ret void
630 define void @test_vst1_lane0_s16(ptr %a, <4 x i16> %b) {
631 ; CHECK-GI-LABEL: test_vst1_lane0_s16:
632 ; CHECK-GI:       // %bb.0: // %entry
633 ; CHECK-GI-NEXT:    // kill: def $d0 killed $d0 def $q0
634 ; CHECK-GI-NEXT:    str h0, [x0]
635 ; CHECK-GI-NEXT:    ret
637 ; CHECK-SD-LABEL: test_vst1_lane0_s16:
638 ; CHECK-SD:       // %bb.0: // %entry
639 ; CHECK-SD-NEXT:    str h0, [x0]
640 ; CHECK-SD-NEXT:    ret
641 entry:
642   %0 = extractelement <4 x i16> %b, i32 0
643   store i16 %0, ptr %a, align 2
644   ret void
647 define void @test_vst1_lane_s32(ptr %a, <2 x i32> %b) {
648 ; CHECK-LABEL: test_vst1_lane_s32:
649 ; CHECK:       // %bb.0: // %entry
650 ; CHECK-NEXT:    // kill: def $d0 killed $d0 def $q0
651 ; CHECK-NEXT:    st1 { v0.s }[1], [x0]
652 ; CHECK-NEXT:    ret
653 entry:
654   %0 = extractelement <2 x i32> %b, i32 1
655   store i32 %0, ptr %a, align 4
656   ret void
659 define void @test_vst1_lane0_s32(ptr %a, <2 x i32> %b) {
660 ; CHECK-GI-LABEL: test_vst1_lane0_s32:
661 ; CHECK-GI:       // %bb.0: // %entry
662 ; CHECK-GI-NEXT:    // kill: def $d0 killed $d0 def $q0
663 ; CHECK-GI-NEXT:    str s0, [x0]
664 ; CHECK-GI-NEXT:    ret
666 ; CHECK-SD-LABEL: test_vst1_lane0_s32:
667 ; CHECK-SD:       // %bb.0: // %entry
668 ; CHECK-SD-NEXT:    str s0, [x0]
669 ; CHECK-SD-NEXT:    ret
670 entry:
671   %0 = extractelement <2 x i32> %b, i32 0
672   store i32 %0, ptr %a, align 4
673   ret void
676 define void @test_vst1_lane_s64(ptr %a, <1 x i64> %b) {
677 ; CHECK-GI-LABEL: test_vst1_lane_s64:
678 ; CHECK-GI:       // %bb.0: // %entry
679 ; CHECK-GI-NEXT:    // kill: def $d0 killed $d0 def $q0
680 ; CHECK-GI-NEXT:    str d0, [x0]
681 ; CHECK-GI-NEXT:    ret
683 ; CHECK-SD-LABEL: test_vst1_lane_s64:
684 ; CHECK-SD:       // %bb.0: // %entry
685 ; CHECK-SD-NEXT:    str d0, [x0]
686 ; CHECK-SD-NEXT:    ret
687 entry:
688   %0 = extractelement <1 x i64> %b, i32 0
689   store i64 %0, ptr %a, align 8
690   ret void
693 define void @test_vst1_lane_f32(ptr %a, <2 x float> %b) {
694 ; CHECK-LABEL: test_vst1_lane_f32:
695 ; CHECK:       // %bb.0: // %entry
696 ; CHECK-NEXT:    // kill: def $d0 killed $d0 def $q0
697 ; CHECK-NEXT:    st1 { v0.s }[1], [x0]
698 ; CHECK-NEXT:    ret
699 entry:
700   %0 = extractelement <2 x float> %b, i32 1
701   store float %0, ptr %a, align 4
702   ret void
705 define void @test_vst1_lane0_f32(ptr %a, <2 x float> %b) {
706 ; CHECK-GI-LABEL: test_vst1_lane0_f32:
707 ; CHECK-GI:       // %bb.0: // %entry
708 ; CHECK-GI-NEXT:    // kill: def $d0 killed $d0 def $q0
709 ; CHECK-GI-NEXT:    str s0, [x0]
710 ; CHECK-GI-NEXT:    ret
712 ; CHECK-SD-LABEL: test_vst1_lane0_f32:
713 ; CHECK-SD:       // %bb.0: // %entry
714 ; CHECK-SD-NEXT:    str s0, [x0]
715 ; CHECK-SD-NEXT:    ret
716 entry:
717   %0 = extractelement <2 x float> %b, i32 0
718   store float %0, ptr %a, align 4
719   ret void
722 define void @test_vst1_lane_f64(ptr %a, <1 x double> %b) {
723 ; CHECK-LABEL: test_vst1_lane_f64:
724 ; CHECK:       // %bb.0: // %entry
725 ; CHECK-NEXT:    str d0, [x0]
726 ; CHECK-NEXT:    ret
727 entry:
728   %0 = extractelement <1 x double> %b, i32 0
729   store double %0, ptr %a, align 8
730   ret void