Run DCE after a LoopFlatten test to reduce spurious output [nfc]
[llvm-project.git] / llvm / test / CodeGen / AArch64 / sve-intrinsics-ff-gather-loads-32bit-scaled-offsets.ll
blob9c9a8b10376d83dbfde29ed2685347d9e2189cde
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc -mtriple=aarch64-linux-gnu -mattr=+sve < %s | FileCheck %s
5 ; LDFF1H, LDFF1W, LDFF1D: base + 32-bit scaled offset, sign (sxtw) or zero (uxtw)
6 ; extended to 64 bits
7 ;   e.g. ldff1h z0.d, p0/z, [x0, z0.d, uxtw #1]
10 ; LDFF1H
11 define <vscale x 4 x i32> @gldff1h_s_uxtw_index(<vscale x 4 x i1> %pg, ptr %base, <vscale x 4 x i32> %b) {
12 ; CHECK-LABEL: gldff1h_s_uxtw_index:
13 ; CHECK:       // %bb.0:
14 ; CHECK-NEXT:    ldff1h { z0.s }, p0/z, [x0, z0.s, uxtw #1]
15 ; CHECK-NEXT:    ret
16   %load = call <vscale x 4 x i16> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv4i16(<vscale x 4 x i1> %pg,
17                                                                                     ptr %base,
18                                                                                     <vscale x 4 x i32> %b)
19   %res = zext <vscale x 4 x i16> %load to <vscale x 4 x i32>
20   ret <vscale x 4 x i32> %res
23 define <vscale x 4 x i32> @gldff1h_s_sxtw_index(<vscale x 4 x i1> %pg, ptr %base, <vscale x 4 x i32> %b) {
24 ; CHECK-LABEL: gldff1h_s_sxtw_index:
25 ; CHECK:       // %bb.0:
26 ; CHECK-NEXT:    ldff1h { z0.s }, p0/z, [x0, z0.s, sxtw #1]
27 ; CHECK-NEXT:    ret
28   %load = call <vscale x 4 x i16> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv4i16(<vscale x 4 x i1> %pg,
29                                                                                     ptr %base,
30                                                                                     <vscale x 4 x i32> %b)
31   %res = zext <vscale x 4 x i16> %load to <vscale x 4 x i32>
32   ret <vscale x 4 x i32> %res
35 define <vscale x 2 x i64> @gldff1h_d_uxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
36 ; CHECK-LABEL: gldff1h_d_uxtw_index:
37 ; CHECK:       // %bb.0:
38 ; CHECK-NEXT:    ldff1h { z0.d }, p0/z, [x0, z0.d, uxtw #1]
39 ; CHECK-NEXT:    ret
40   %load = call <vscale x 2 x i16> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2i16(<vscale x 2 x i1> %pg,
41                                                                                     ptr %base,
42                                                                                     <vscale x 2 x i32> %b)
43   %res = zext <vscale x 2 x i16> %load to <vscale x 2 x i64>
44   ret <vscale x 2 x i64> %res
47 define <vscale x 2 x i64> @gldff1h_d_sxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
48 ; CHECK-LABEL: gldff1h_d_sxtw_index:
49 ; CHECK:       // %bb.0:
50 ; CHECK-NEXT:    ldff1h { z0.d }, p0/z, [x0, z0.d, sxtw #1]
51 ; CHECK-NEXT:    ret
52   %load = call <vscale x 2 x i16> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2i16(<vscale x 2 x i1> %pg,
53                                                                                     ptr %base,
54                                                                                     <vscale x 2 x i32> %b)
55   %res = zext <vscale x 2 x i16> %load to <vscale x 2 x i64>
56   ret <vscale x 2 x i64> %res
59 ; LDFF1W
60 define <vscale x 4 x i32> @gldff1w_s_uxtw_index(<vscale x 4 x i1> %pg, ptr %base, <vscale x 4 x i32> %b) {
61 ; CHECK-LABEL: gldff1w_s_uxtw_index:
62 ; CHECK:       // %bb.0:
63 ; CHECK-NEXT:    ldff1w { z0.s }, p0/z, [x0, z0.s, uxtw #2]
64 ; CHECK-NEXT:    ret
65   %load = call <vscale x 4 x i32> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv4i32(<vscale x 4 x i1> %pg,
66                                                                                     ptr %base,
67                                                                                     <vscale x 4 x i32> %b)
68   ret <vscale x 4 x i32> %load
71 define <vscale x 4 x i32> @gldff1w_s_sxtw_index(<vscale x 4 x i1> %pg, ptr %base, <vscale x 4 x i32> %b) {
72 ; CHECK-LABEL: gldff1w_s_sxtw_index:
73 ; CHECK:       // %bb.0:
74 ; CHECK-NEXT:    ldff1w { z0.s }, p0/z, [x0, z0.s, sxtw #2]
75 ; CHECK-NEXT:    ret
76   %load = call <vscale x 4 x i32> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv4i32(<vscale x 4 x i1> %pg,
77                                                                                     ptr %base,
78                                                                                     <vscale x 4 x i32> %b)
79   ret <vscale x 4 x i32> %load
82 define <vscale x 2 x i64> @gldff1w_d_uxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
83 ; CHECK-LABEL: gldff1w_d_uxtw_index:
84 ; CHECK:       // %bb.0:
85 ; CHECK-NEXT:    ldff1w { z0.d }, p0/z, [x0, z0.d, uxtw #2]
86 ; CHECK-NEXT:    ret
87   %load = call <vscale x 2 x i32> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2i32(<vscale x 2 x i1> %pg,
88                                                                                     ptr %base,
89                                                                                     <vscale x 2 x i32> %b)
90   %res = zext <vscale x 2 x i32> %load to <vscale x 2 x i64>
91   ret <vscale x 2 x i64> %res
94 define <vscale x 2 x i64> @gldff1w_d_sxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
95 ; CHECK-LABEL: gldff1w_d_sxtw_index:
96 ; CHECK:       // %bb.0:
97 ; CHECK-NEXT:    ldff1w { z0.d }, p0/z, [x0, z0.d, sxtw #2]
98 ; CHECK-NEXT:    ret
99   %load = call <vscale x 2 x i32> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2i32(<vscale x 2 x i1> %pg,
100                                                                                     ptr %base,
101                                                                                     <vscale x 2 x i32> %b)
102   %res = zext <vscale x 2 x i32> %load to <vscale x 2 x i64>
103   ret <vscale x 2 x i64> %res
106 define <vscale x 4 x float> @gldff1w_s_uxtw_index_float(<vscale x 4 x i1> %pg, ptr %base, <vscale x 4 x i32> %b) {
107 ; CHECK-LABEL: gldff1w_s_uxtw_index_float:
108 ; CHECK:       // %bb.0:
109 ; CHECK-NEXT:    ldff1w { z0.s }, p0/z, [x0, z0.s, uxtw #2]
110 ; CHECK-NEXT:    ret
111   %load = call <vscale x 4 x float> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv4f32(<vscale x 4 x i1> %pg,
112                                                                                       ptr %base,
113                                                                                       <vscale x 4 x i32> %b)
114   ret <vscale x 4 x float> %load
117 define <vscale x 4 x float> @gldff1w_s_sxtw_index_float(<vscale x 4 x i1> %pg, ptr %base, <vscale x 4 x i32> %b) {
118 ; CHECK-LABEL: gldff1w_s_sxtw_index_float:
119 ; CHECK:       // %bb.0:
120 ; CHECK-NEXT:    ldff1w { z0.s }, p0/z, [x0, z0.s, sxtw #2]
121 ; CHECK-NEXT:    ret
122   %load = call <vscale x 4 x float> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv4f32(<vscale x 4 x i1> %pg,
123                                                                                       ptr %base,
124                                                                                       <vscale x 4 x i32> %b)
125   ret <vscale x 4 x float> %load
128 ; LDFF1D
129 define <vscale x 2 x i64> @gldff1d_s_uxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
130 ; CHECK-LABEL: gldff1d_s_uxtw_index:
131 ; CHECK:       // %bb.0:
132 ; CHECK-NEXT:    ldff1d { z0.d }, p0/z, [x0, z0.d, uxtw #3]
133 ; CHECK-NEXT:    ret
134   %load = call <vscale x 2 x i64> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2i64(<vscale x 2 x i1> %pg,
135                                                                                     ptr %base,
136                                                                                     <vscale x 2 x i32> %b)
137   ret <vscale x 2 x i64> %load
140 define <vscale x 2 x i64> @gldff1d_sxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
141 ; CHECK-LABEL: gldff1d_sxtw_index:
142 ; CHECK:       // %bb.0:
143 ; CHECK-NEXT:    ldff1d { z0.d }, p0/z, [x0, z0.d, sxtw #3]
144 ; CHECK-NEXT:    ret
145   %load = call <vscale x 2 x i64> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2i64(<vscale x 2 x i1> %pg,
146                                                                                     ptr %base,
147                                                                                     <vscale x 2 x i32> %b)
148   ret <vscale x 2 x i64> %load
151 define <vscale x 2 x double> @gldff1d_uxtw_index_double(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
152 ; CHECK-LABEL: gldff1d_uxtw_index_double:
153 ; CHECK:       // %bb.0:
154 ; CHECK-NEXT:    ldff1d { z0.d }, p0/z, [x0, z0.d, uxtw #3]
155 ; CHECK-NEXT:    ret
156   %load = call <vscale x 2 x double> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2f64(<vscale x 2 x i1> %pg,
157                                                                                        ptr %base,
158                                                                                        <vscale x 2 x i32> %b)
159   ret <vscale x 2 x double> %load
162 define <vscale x 2 x double> @gldff1d_sxtw_index_double(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
163 ; CHECK-LABEL: gldff1d_sxtw_index_double:
164 ; CHECK:       // %bb.0:
165 ; CHECK-NEXT:    ldff1d { z0.d }, p0/z, [x0, z0.d, sxtw #3]
166 ; CHECK-NEXT:    ret
167   %load = call <vscale x 2 x double> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2f64(<vscale x 2 x i1> %pg,
168                                                                                        ptr %base,
169                                                                                        <vscale x 2 x i32> %b)
170   ret <vscale x 2 x double> %load
174 ; LDFF1SH, LDFF1SW, LDFF1SD: base + 32-bit scaled offset, sign (sxtw) or zero (uxtw)
175 ; extended to 64 bits
176 ;   e.g. ldff1sh z0.d, p0/z, [x0, z0.d, uxtw #1]
179 ; LDFF1SH
180 define <vscale x 4 x i32> @gldff1sh_s_uxtw_index(<vscale x 4 x i1> %pg, ptr %base, <vscale x 4 x i32> %b) {
181 ; CHECK-LABEL: gldff1sh_s_uxtw_index:
182 ; CHECK:       // %bb.0:
183 ; CHECK-NEXT:    ldff1sh { z0.s }, p0/z, [x0, z0.s, uxtw #1]
184 ; CHECK-NEXT:    ret
185   %load = call <vscale x 4 x i16> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv4i16(<vscale x 4 x i1> %pg,
186                                                                                     ptr %base,
187                                                                                     <vscale x 4 x i32> %b)
188   %res = sext <vscale x 4 x i16> %load to <vscale x 4 x i32>
189   ret <vscale x 4 x i32> %res
192 define <vscale x 4 x i32> @gldff1sh_s_sxtw_index(<vscale x 4 x i1> %pg, ptr %base, <vscale x 4 x i32> %b) {
193 ; CHECK-LABEL: gldff1sh_s_sxtw_index:
194 ; CHECK:       // %bb.0:
195 ; CHECK-NEXT:    ldff1sh { z0.s }, p0/z, [x0, z0.s, sxtw #1]
196 ; CHECK-NEXT:    ret
197   %load = call <vscale x 4 x i16> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv4i16(<vscale x 4 x i1> %pg,
198                                                                                     ptr %base,
199                                                                                     <vscale x 4 x i32> %b)
200   %res = sext <vscale x 4 x i16> %load to <vscale x 4 x i32>
201   ret <vscale x 4 x i32> %res
204 define <vscale x 2 x i64> @gldff1sh_d_uxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
205 ; CHECK-LABEL: gldff1sh_d_uxtw_index:
206 ; CHECK:       // %bb.0:
207 ; CHECK-NEXT:    ldff1sh { z0.d }, p0/z, [x0, z0.d, uxtw #1]
208 ; CHECK-NEXT:    ret
209   %load = call <vscale x 2 x i16> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2i16(<vscale x 2 x i1> %pg,
210                                                                                     ptr %base,
211                                                                                     <vscale x 2 x i32> %b)
212   %res = sext <vscale x 2 x i16> %load to <vscale x 2 x i64>
213   ret <vscale x 2 x i64> %res
216 define <vscale x 2 x i64> @gldff1sh_d_sxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
217 ; CHECK-LABEL: gldff1sh_d_sxtw_index:
218 ; CHECK:       // %bb.0:
219 ; CHECK-NEXT:    ldff1sh { z0.d }, p0/z, [x0, z0.d, sxtw #1]
220 ; CHECK-NEXT:    ret
221   %load = call <vscale x 2 x i16> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2i16(<vscale x 2 x i1> %pg,
222                                                                                     ptr %base,
223                                                                                     <vscale x 2 x i32> %b)
224   %res = sext <vscale x 2 x i16> %load to <vscale x 2 x i64>
225   ret <vscale x 2 x i64> %res
228 ; LDFF1SW
229 define <vscale x 2 x i64> @gldff1sw_d_uxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
230 ; CHECK-LABEL: gldff1sw_d_uxtw_index:
231 ; CHECK:       // %bb.0:
232 ; CHECK-NEXT:    ldff1sw { z0.d }, p0/z, [x0, z0.d, uxtw #2]
233 ; CHECK-NEXT:    ret
234   %load = call <vscale x 2 x i32> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2i32(<vscale x 2 x i1> %pg,
235                                                                                     ptr %base,
236                                                                                     <vscale x 2 x i32> %b)
237   %res = sext <vscale x 2 x i32> %load to <vscale x 2 x i64>
238   ret <vscale x 2 x i64> %res
241 define <vscale x 2 x i64> @gldff1sw_d_sxtw_index(<vscale x 2 x i1> %pg, ptr %base, <vscale x 2 x i32> %b) {
242 ; CHECK-LABEL: gldff1sw_d_sxtw_index:
243 ; CHECK:       // %bb.0:
244 ; CHECK-NEXT:    ldff1sw { z0.d }, p0/z, [x0, z0.d, sxtw #2]
245 ; CHECK-NEXT:    ret
246   %load = call <vscale x 2 x i32> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2i32(<vscale x 2 x i1> %pg,
247                                                                                     ptr %base,
248                                                                                     <vscale x 2 x i32> %b)
249   %res = sext <vscale x 2 x i32> %load to <vscale x 2 x i64>
250   ret <vscale x 2 x i64> %res
254 ; LDFF1H/LDFF1SH
255 declare <vscale x 4 x i16> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv4i16(<vscale x 4 x i1>, ptr, <vscale x 4 x i32>)
256 declare <vscale x 4 x i16> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv4i16(<vscale x 4 x i1>, ptr, <vscale x 4 x i32>)
258 declare <vscale x 2 x i16> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2i16(<vscale x 2 x i1>, ptr, <vscale x 2 x i32>)
259 declare <vscale x 2 x i16> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2i16(<vscale x 2 x i1>, ptr, <vscale x 2 x i32>)
261 ; LDFF1W/LDFF1SW
262 declare <vscale x 4 x i32> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv4i32(<vscale x 4 x i1>, ptr, <vscale x 4 x i32>)
263 declare <vscale x 4 x i32> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv4i32(<vscale x 4 x i1>, ptr, <vscale x 4 x i32>)
265 declare <vscale x 2 x i32> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2i32(<vscale x 2 x i1>, ptr, <vscale x 2 x i32>)
266 declare <vscale x 2 x i32> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2i32(<vscale x 2 x i1>, ptr, <vscale x 2 x i32>)
268 declare <vscale x 4 x float> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv4f32(<vscale x 4 x i1>, ptr, <vscale x 4 x i32>)
269 declare <vscale x 4 x float> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv4f32(<vscale x 4 x i1>, ptr, <vscale x 4 x i32>)
271 ; LDFF1D
272 declare <vscale x 2 x i64> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2i64(<vscale x 2 x i1>, ptr, <vscale x 2 x i32>)
273 declare <vscale x 2 x i64> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2i64(<vscale x 2 x i1>, ptr, <vscale x 2 x i32>)
275 declare <vscale x 2 x double> @llvm.aarch64.sve.ldff1.gather.uxtw.index.nxv2f64(<vscale x 2 x i1>, ptr, <vscale x 2 x i32>)
276 declare <vscale x 2 x double> @llvm.aarch64.sve.ldff1.gather.sxtw.index.nxv2f64(<vscale x 2 x i1>, ptr, <vscale x 2 x i32>)