1 ; RUN: llc < %s -march=arm -mattr=+neon | FileCheck %s
3 define <8 x i8> @vshls8(<8 x i8>* %A, <8 x i8>* %B) nounwind {
6 %tmp1 = load <8 x i8>* %A
7 %tmp2 = load <8 x i8>* %B
8 %tmp3 = shl <8 x i8> %tmp1, %tmp2
12 define <4 x i16> @vshls16(<4 x i16>* %A, <4 x i16>* %B) nounwind {
15 %tmp1 = load <4 x i16>* %A
16 %tmp2 = load <4 x i16>* %B
17 %tmp3 = shl <4 x i16> %tmp1, %tmp2
21 define <2 x i32> @vshls32(<2 x i32>* %A, <2 x i32>* %B) nounwind {
24 %tmp1 = load <2 x i32>* %A
25 %tmp2 = load <2 x i32>* %B
26 %tmp3 = shl <2 x i32> %tmp1, %tmp2
30 define <1 x i64> @vshls64(<1 x i64>* %A, <1 x i64>* %B) nounwind {
33 %tmp1 = load <1 x i64>* %A
34 %tmp2 = load <1 x i64>* %B
35 %tmp3 = shl <1 x i64> %tmp1, %tmp2
39 define <8 x i8> @vshli8(<8 x i8>* %A) nounwind {
42 %tmp1 = load <8 x i8>* %A
43 %tmp2 = shl <8 x i8> %tmp1, < i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7 >
47 define <4 x i16> @vshli16(<4 x i16>* %A) nounwind {
50 %tmp1 = load <4 x i16>* %A
51 %tmp2 = shl <4 x i16> %tmp1, < i16 15, i16 15, i16 15, i16 15 >
55 define <2 x i32> @vshli32(<2 x i32>* %A) nounwind {
58 %tmp1 = load <2 x i32>* %A
59 %tmp2 = shl <2 x i32> %tmp1, < i32 31, i32 31 >
63 define <1 x i64> @vshli64(<1 x i64>* %A) nounwind {
66 %tmp1 = load <1 x i64>* %A
67 %tmp2 = shl <1 x i64> %tmp1, < i64 63 >
71 define <16 x i8> @vshlQs8(<16 x i8>* %A, <16 x i8>* %B) nounwind {
74 %tmp1 = load <16 x i8>* %A
75 %tmp2 = load <16 x i8>* %B
76 %tmp3 = shl <16 x i8> %tmp1, %tmp2
80 define <8 x i16> @vshlQs16(<8 x i16>* %A, <8 x i16>* %B) nounwind {
83 %tmp1 = load <8 x i16>* %A
84 %tmp2 = load <8 x i16>* %B
85 %tmp3 = shl <8 x i16> %tmp1, %tmp2
89 define <4 x i32> @vshlQs32(<4 x i32>* %A, <4 x i32>* %B) nounwind {
92 %tmp1 = load <4 x i32>* %A
93 %tmp2 = load <4 x i32>* %B
94 %tmp3 = shl <4 x i32> %tmp1, %tmp2
98 define <2 x i64> @vshlQs64(<2 x i64>* %A, <2 x i64>* %B) nounwind {
101 %tmp1 = load <2 x i64>* %A
102 %tmp2 = load <2 x i64>* %B
103 %tmp3 = shl <2 x i64> %tmp1, %tmp2
107 define <16 x i8> @vshlQi8(<16 x i8>* %A) nounwind {
110 %tmp1 = load <16 x i8>* %A
111 %tmp2 = shl <16 x i8> %tmp1, < i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7 >
115 define <8 x i16> @vshlQi16(<8 x i16>* %A) nounwind {
118 %tmp1 = load <8 x i16>* %A
119 %tmp2 = shl <8 x i16> %tmp1, < i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15, i16 15 >
123 define <4 x i32> @vshlQi32(<4 x i32>* %A) nounwind {
126 %tmp1 = load <4 x i32>* %A
127 %tmp2 = shl <4 x i32> %tmp1, < i32 31, i32 31, i32 31, i32 31 >
131 define <2 x i64> @vshlQi64(<2 x i64>* %A) nounwind {
134 %tmp1 = load <2 x i64>* %A
135 %tmp2 = shl <2 x i64> %tmp1, < i64 63, i64 63 >
139 define <8 x i8> @vlshru8(<8 x i8>* %A, <8 x i8>* %B) nounwind {
143 %tmp1 = load <8 x i8>* %A
144 %tmp2 = load <8 x i8>* %B
145 %tmp3 = lshr <8 x i8> %tmp1, %tmp2
149 define <4 x i16> @vlshru16(<4 x i16>* %A, <4 x i16>* %B) nounwind {
153 %tmp1 = load <4 x i16>* %A
154 %tmp2 = load <4 x i16>* %B
155 %tmp3 = lshr <4 x i16> %tmp1, %tmp2
159 define <2 x i32> @vlshru32(<2 x i32>* %A, <2 x i32>* %B) nounwind {
163 %tmp1 = load <2 x i32>* %A
164 %tmp2 = load <2 x i32>* %B
165 %tmp3 = lshr <2 x i32> %tmp1, %tmp2
169 define <1 x i64> @vlshru64(<1 x i64>* %A, <1 x i64>* %B) nounwind {
173 %tmp1 = load <1 x i64>* %A
174 %tmp2 = load <1 x i64>* %B
175 %tmp3 = lshr <1 x i64> %tmp1, %tmp2
179 define <8 x i8> @vlshri8(<8 x i8>* %A) nounwind {
182 %tmp1 = load <8 x i8>* %A
183 %tmp2 = lshr <8 x i8> %tmp1, < i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8 >
187 define <4 x i16> @vlshri16(<4 x i16>* %A) nounwind {
190 %tmp1 = load <4 x i16>* %A
191 %tmp2 = lshr <4 x i16> %tmp1, < i16 16, i16 16, i16 16, i16 16 >
195 define <2 x i32> @vlshri32(<2 x i32>* %A) nounwind {
198 %tmp1 = load <2 x i32>* %A
199 %tmp2 = lshr <2 x i32> %tmp1, < i32 32, i32 32 >
203 define <1 x i64> @vlshri64(<1 x i64>* %A) nounwind {
206 %tmp1 = load <1 x i64>* %A
207 %tmp2 = lshr <1 x i64> %tmp1, < i64 64 >
211 define <16 x i8> @vlshrQu8(<16 x i8>* %A, <16 x i8>* %B) nounwind {
215 %tmp1 = load <16 x i8>* %A
216 %tmp2 = load <16 x i8>* %B
217 %tmp3 = lshr <16 x i8> %tmp1, %tmp2
221 define <8 x i16> @vlshrQu16(<8 x i16>* %A, <8 x i16>* %B) nounwind {
225 %tmp1 = load <8 x i16>* %A
226 %tmp2 = load <8 x i16>* %B
227 %tmp3 = lshr <8 x i16> %tmp1, %tmp2
231 define <4 x i32> @vlshrQu32(<4 x i32>* %A, <4 x i32>* %B) nounwind {
235 %tmp1 = load <4 x i32>* %A
236 %tmp2 = load <4 x i32>* %B
237 %tmp3 = lshr <4 x i32> %tmp1, %tmp2
241 define <2 x i64> @vlshrQu64(<2 x i64>* %A, <2 x i64>* %B) nounwind {
245 %tmp1 = load <2 x i64>* %A
246 %tmp2 = load <2 x i64>* %B
247 %tmp3 = lshr <2 x i64> %tmp1, %tmp2
251 define <16 x i8> @vlshrQi8(<16 x i8>* %A) nounwind {
254 %tmp1 = load <16 x i8>* %A
255 %tmp2 = lshr <16 x i8> %tmp1, < i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8 >
259 define <8 x i16> @vlshrQi16(<8 x i16>* %A) nounwind {
262 %tmp1 = load <8 x i16>* %A
263 %tmp2 = lshr <8 x i16> %tmp1, < i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16 >
267 define <4 x i32> @vlshrQi32(<4 x i32>* %A) nounwind {
270 %tmp1 = load <4 x i32>* %A
271 %tmp2 = lshr <4 x i32> %tmp1, < i32 32, i32 32, i32 32, i32 32 >
275 define <2 x i64> @vlshrQi64(<2 x i64>* %A) nounwind {
278 %tmp1 = load <2 x i64>* %A
279 %tmp2 = lshr <2 x i64> %tmp1, < i64 64, i64 64 >
283 ; Example that requires splitting and expanding a vector shift.
284 define <2 x i64> @update(<2 x i64> %val) nounwind readnone {
286 %shr = lshr <2 x i64> %val, < i64 2, i64 2 > ; <<2 x i64>> [#uses=1]
290 define <8 x i8> @vashrs8(<8 x i8>* %A, <8 x i8>* %B) nounwind {
294 %tmp1 = load <8 x i8>* %A
295 %tmp2 = load <8 x i8>* %B
296 %tmp3 = ashr <8 x i8> %tmp1, %tmp2
300 define <4 x i16> @vashrs16(<4 x i16>* %A, <4 x i16>* %B) nounwind {
304 %tmp1 = load <4 x i16>* %A
305 %tmp2 = load <4 x i16>* %B
306 %tmp3 = ashr <4 x i16> %tmp1, %tmp2
310 define <2 x i32> @vashrs32(<2 x i32>* %A, <2 x i32>* %B) nounwind {
314 %tmp1 = load <2 x i32>* %A
315 %tmp2 = load <2 x i32>* %B
316 %tmp3 = ashr <2 x i32> %tmp1, %tmp2
320 define <1 x i64> @vashrs64(<1 x i64>* %A, <1 x i64>* %B) nounwind {
324 %tmp1 = load <1 x i64>* %A
325 %tmp2 = load <1 x i64>* %B
326 %tmp3 = ashr <1 x i64> %tmp1, %tmp2
330 define <8 x i8> @vashri8(<8 x i8>* %A) nounwind {
333 %tmp1 = load <8 x i8>* %A
334 %tmp2 = ashr <8 x i8> %tmp1, < i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8 >
338 define <4 x i16> @vashri16(<4 x i16>* %A) nounwind {
341 %tmp1 = load <4 x i16>* %A
342 %tmp2 = ashr <4 x i16> %tmp1, < i16 16, i16 16, i16 16, i16 16 >
346 define <2 x i32> @vashri32(<2 x i32>* %A) nounwind {
349 %tmp1 = load <2 x i32>* %A
350 %tmp2 = ashr <2 x i32> %tmp1, < i32 32, i32 32 >
354 define <1 x i64> @vashri64(<1 x i64>* %A) nounwind {
357 %tmp1 = load <1 x i64>* %A
358 %tmp2 = ashr <1 x i64> %tmp1, < i64 64 >
362 define <16 x i8> @vashrQs8(<16 x i8>* %A, <16 x i8>* %B) nounwind {
366 %tmp1 = load <16 x i8>* %A
367 %tmp2 = load <16 x i8>* %B
368 %tmp3 = ashr <16 x i8> %tmp1, %tmp2
372 define <8 x i16> @vashrQs16(<8 x i16>* %A, <8 x i16>* %B) nounwind {
376 %tmp1 = load <8 x i16>* %A
377 %tmp2 = load <8 x i16>* %B
378 %tmp3 = ashr <8 x i16> %tmp1, %tmp2
382 define <4 x i32> @vashrQs32(<4 x i32>* %A, <4 x i32>* %B) nounwind {
386 %tmp1 = load <4 x i32>* %A
387 %tmp2 = load <4 x i32>* %B
388 %tmp3 = ashr <4 x i32> %tmp1, %tmp2
392 define <2 x i64> @vashrQs64(<2 x i64>* %A, <2 x i64>* %B) nounwind {
396 %tmp1 = load <2 x i64>* %A
397 %tmp2 = load <2 x i64>* %B
398 %tmp3 = ashr <2 x i64> %tmp1, %tmp2
402 define <16 x i8> @vashrQi8(<16 x i8>* %A) nounwind {
405 %tmp1 = load <16 x i8>* %A
406 %tmp2 = ashr <16 x i8> %tmp1, < i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8 >
410 define <8 x i16> @vashrQi16(<8 x i16>* %A) nounwind {
413 %tmp1 = load <8 x i16>* %A
414 %tmp2 = ashr <8 x i16> %tmp1, < i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16 >
418 define <4 x i32> @vashrQi32(<4 x i32>* %A) nounwind {
421 %tmp1 = load <4 x i32>* %A
422 %tmp2 = ashr <4 x i32> %tmp1, < i32 32, i32 32, i32 32, i32 32 >
426 define <2 x i64> @vashrQi64(<2 x i64>* %A) nounwind {
429 %tmp1 = load <2 x i64>* %A
430 %tmp2 = ashr <2 x i64> %tmp1, < i64 64, i64 64 >