Bump version to 19.1.0-rc3
[llvm-project.git] / llvm / test / Transforms / SLPVectorizer / X86 / arith-fshl-rot.ll
blob16977c025e3eaac2593866b7e1143b3b5d0240a9
1 ; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
2 ; RUN: opt < %s -mtriple=x86_64-unknown -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE
3 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=slm -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE
4 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=corei7-avx -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX1
5 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=core-avx2 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX2
6 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=+prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX256
7 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=-prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
8 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=knl -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
10 @a64 = common global [8 x i64] zeroinitializer, align 64
11 @b64 = common global [8 x i64] zeroinitializer, align 64
12 @c64 = common global [8 x i64] zeroinitializer, align 64
13 @d64 = common global [8 x i64] zeroinitializer, align 64
14 @a32 = common global [16 x i32] zeroinitializer, align 64
15 @b32 = common global [16 x i32] zeroinitializer, align 64
16 @c32 = common global [16 x i32] zeroinitializer, align 64
17 @d32 = common global [16 x i32] zeroinitializer, align 64
18 @a16 = common global [32 x i16] zeroinitializer, align 64
19 @b16 = common global [32 x i16] zeroinitializer, align 64
20 @c16 = common global [32 x i16] zeroinitializer, align 64
21 @d16 = common global [32 x i16] zeroinitializer, align 64
22 @a8  = common global [64 x i8] zeroinitializer, align 64
23 @b8  = common global [64 x i8] zeroinitializer, align 64
24 @c8  = common global [64 x i8] zeroinitializer, align 64
25 @d8  = common global [64 x i8] zeroinitializer, align 64
27 declare i64 @llvm.fshl.i64(i64, i64, i64)
28 declare i32 @llvm.fshl.i32(i32, i32, i32)
29 declare i16 @llvm.fshl.i16(i16, i16, i16)
30 declare i8  @llvm.fshl.i8 (i8 , i8 , i8 )
32 define void @fshl_v8i64() {
33 ; SSE-LABEL: @fshl_v8i64(
34 ; SSE-NEXT:    [[A0:%.*]] = load i64, ptr @a64, align 8
35 ; SSE-NEXT:    [[A1:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 1), align 8
36 ; SSE-NEXT:    [[A2:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 2), align 8
37 ; SSE-NEXT:    [[A3:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 3), align 8
38 ; SSE-NEXT:    [[A4:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 4), align 8
39 ; SSE-NEXT:    [[A5:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 5), align 8
40 ; SSE-NEXT:    [[A6:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 6), align 8
41 ; SSE-NEXT:    [[A7:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 7), align 8
42 ; SSE-NEXT:    [[B0:%.*]] = load i64, ptr @b64, align 8
43 ; SSE-NEXT:    [[B1:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 1), align 8
44 ; SSE-NEXT:    [[B2:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 2), align 8
45 ; SSE-NEXT:    [[B3:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 3), align 8
46 ; SSE-NEXT:    [[B4:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 4), align 8
47 ; SSE-NEXT:    [[B5:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 5), align 8
48 ; SSE-NEXT:    [[B6:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 6), align 8
49 ; SSE-NEXT:    [[B7:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 7), align 8
50 ; SSE-NEXT:    [[R0:%.*]] = call i64 @llvm.fshl.i64(i64 [[A0]], i64 [[A0]], i64 [[B0]])
51 ; SSE-NEXT:    [[R1:%.*]] = call i64 @llvm.fshl.i64(i64 [[A1]], i64 [[A1]], i64 [[B1]])
52 ; SSE-NEXT:    [[R2:%.*]] = call i64 @llvm.fshl.i64(i64 [[A2]], i64 [[A2]], i64 [[B2]])
53 ; SSE-NEXT:    [[R3:%.*]] = call i64 @llvm.fshl.i64(i64 [[A3]], i64 [[A3]], i64 [[B3]])
54 ; SSE-NEXT:    [[R4:%.*]] = call i64 @llvm.fshl.i64(i64 [[A4]], i64 [[A4]], i64 [[B4]])
55 ; SSE-NEXT:    [[R5:%.*]] = call i64 @llvm.fshl.i64(i64 [[A5]], i64 [[A5]], i64 [[B5]])
56 ; SSE-NEXT:    [[R6:%.*]] = call i64 @llvm.fshl.i64(i64 [[A6]], i64 [[A6]], i64 [[B6]])
57 ; SSE-NEXT:    [[R7:%.*]] = call i64 @llvm.fshl.i64(i64 [[A7]], i64 [[A7]], i64 [[B7]])
58 ; SSE-NEXT:    store i64 [[R0]], ptr @d64, align 8
59 ; SSE-NEXT:    store i64 [[R1]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 1), align 8
60 ; SSE-NEXT:    store i64 [[R2]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 2), align 8
61 ; SSE-NEXT:    store i64 [[R3]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 3), align 8
62 ; SSE-NEXT:    store i64 [[R4]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 4), align 8
63 ; SSE-NEXT:    store i64 [[R5]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 5), align 8
64 ; SSE-NEXT:    store i64 [[R6]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 6), align 8
65 ; SSE-NEXT:    store i64 [[R7]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 7), align 8
66 ; SSE-NEXT:    ret void
68 ; AVX1-LABEL: @fshl_v8i64(
69 ; AVX1-NEXT:    [[A0:%.*]] = load i64, ptr @a64, align 8
70 ; AVX1-NEXT:    [[A1:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 1), align 8
71 ; AVX1-NEXT:    [[A2:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 2), align 8
72 ; AVX1-NEXT:    [[A3:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 3), align 8
73 ; AVX1-NEXT:    [[A4:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 4), align 8
74 ; AVX1-NEXT:    [[A5:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 5), align 8
75 ; AVX1-NEXT:    [[A6:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 6), align 8
76 ; AVX1-NEXT:    [[A7:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 7), align 8
77 ; AVX1-NEXT:    [[B0:%.*]] = load i64, ptr @b64, align 8
78 ; AVX1-NEXT:    [[B1:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 1), align 8
79 ; AVX1-NEXT:    [[B2:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 2), align 8
80 ; AVX1-NEXT:    [[B3:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 3), align 8
81 ; AVX1-NEXT:    [[B4:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 4), align 8
82 ; AVX1-NEXT:    [[B5:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 5), align 8
83 ; AVX1-NEXT:    [[B6:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 6), align 8
84 ; AVX1-NEXT:    [[B7:%.*]] = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 7), align 8
85 ; AVX1-NEXT:    [[R0:%.*]] = call i64 @llvm.fshl.i64(i64 [[A0]], i64 [[A0]], i64 [[B0]])
86 ; AVX1-NEXT:    [[R1:%.*]] = call i64 @llvm.fshl.i64(i64 [[A1]], i64 [[A1]], i64 [[B1]])
87 ; AVX1-NEXT:    [[R2:%.*]] = call i64 @llvm.fshl.i64(i64 [[A2]], i64 [[A2]], i64 [[B2]])
88 ; AVX1-NEXT:    [[R3:%.*]] = call i64 @llvm.fshl.i64(i64 [[A3]], i64 [[A3]], i64 [[B3]])
89 ; AVX1-NEXT:    [[R4:%.*]] = call i64 @llvm.fshl.i64(i64 [[A4]], i64 [[A4]], i64 [[B4]])
90 ; AVX1-NEXT:    [[R5:%.*]] = call i64 @llvm.fshl.i64(i64 [[A5]], i64 [[A5]], i64 [[B5]])
91 ; AVX1-NEXT:    [[R6:%.*]] = call i64 @llvm.fshl.i64(i64 [[A6]], i64 [[A6]], i64 [[B6]])
92 ; AVX1-NEXT:    [[R7:%.*]] = call i64 @llvm.fshl.i64(i64 [[A7]], i64 [[A7]], i64 [[B7]])
93 ; AVX1-NEXT:    store i64 [[R0]], ptr @d64, align 8
94 ; AVX1-NEXT:    store i64 [[R1]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 1), align 8
95 ; AVX1-NEXT:    store i64 [[R2]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 2), align 8
96 ; AVX1-NEXT:    store i64 [[R3]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 3), align 8
97 ; AVX1-NEXT:    store i64 [[R4]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 4), align 8
98 ; AVX1-NEXT:    store i64 [[R5]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 5), align 8
99 ; AVX1-NEXT:    store i64 [[R6]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 6), align 8
100 ; AVX1-NEXT:    store i64 [[R7]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 7), align 8
101 ; AVX1-NEXT:    ret void
103 ; AVX2-LABEL: @fshl_v8i64(
104 ; AVX2-NEXT:    [[TMP1:%.*]] = load <4 x i64>, ptr @a64, align 8
105 ; AVX2-NEXT:    [[TMP2:%.*]] = load <4 x i64>, ptr @b64, align 8
106 ; AVX2-NEXT:    [[TMP3:%.*]] = call <4 x i64> @llvm.fshl.v4i64(<4 x i64> [[TMP1]], <4 x i64> [[TMP1]], <4 x i64> [[TMP2]])
107 ; AVX2-NEXT:    store <4 x i64> [[TMP3]], ptr @d64, align 8
108 ; AVX2-NEXT:    [[TMP4:%.*]] = load <4 x i64>, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 4), align 8
109 ; AVX2-NEXT:    [[TMP5:%.*]] = load <4 x i64>, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 4), align 8
110 ; AVX2-NEXT:    [[TMP6:%.*]] = call <4 x i64> @llvm.fshl.v4i64(<4 x i64> [[TMP4]], <4 x i64> [[TMP4]], <4 x i64> [[TMP5]])
111 ; AVX2-NEXT:    store <4 x i64> [[TMP6]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 4), align 8
112 ; AVX2-NEXT:    ret void
114 ; AVX256-LABEL: @fshl_v8i64(
115 ; AVX256-NEXT:    [[TMP1:%.*]] = load <4 x i64>, ptr @a64, align 8
116 ; AVX256-NEXT:    [[TMP2:%.*]] = load <4 x i64>, ptr @b64, align 8
117 ; AVX256-NEXT:    [[TMP3:%.*]] = call <4 x i64> @llvm.fshl.v4i64(<4 x i64> [[TMP1]], <4 x i64> [[TMP1]], <4 x i64> [[TMP2]])
118 ; AVX256-NEXT:    store <4 x i64> [[TMP3]], ptr @d64, align 8
119 ; AVX256-NEXT:    [[TMP4:%.*]] = load <4 x i64>, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 4), align 8
120 ; AVX256-NEXT:    [[TMP5:%.*]] = load <4 x i64>, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 4), align 8
121 ; AVX256-NEXT:    [[TMP6:%.*]] = call <4 x i64> @llvm.fshl.v4i64(<4 x i64> [[TMP4]], <4 x i64> [[TMP4]], <4 x i64> [[TMP5]])
122 ; AVX256-NEXT:    store <4 x i64> [[TMP6]], ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 4), align 8
123 ; AVX256-NEXT:    ret void
125 ; AVX512-LABEL: @fshl_v8i64(
126 ; AVX512-NEXT:    [[TMP1:%.*]] = load <8 x i64>, ptr @a64, align 8
127 ; AVX512-NEXT:    [[TMP2:%.*]] = load <8 x i64>, ptr @b64, align 8
128 ; AVX512-NEXT:    [[TMP3:%.*]] = call <8 x i64> @llvm.fshl.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP1]], <8 x i64> [[TMP2]])
129 ; AVX512-NEXT:    store <8 x i64> [[TMP3]], ptr @d64, align 8
130 ; AVX512-NEXT:    ret void
132   %a0 = load i64, ptr @a64, align 8
133   %a1 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 1), align 8
134   %a2 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 2), align 8
135   %a3 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 3), align 8
136   %a4 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 4), align 8
137   %a5 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 5), align 8
138   %a6 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 6), align 8
139   %a7 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 7), align 8
140   %b0 = load i64, ptr @b64, align 8
141   %b1 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 1), align 8
142   %b2 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 2), align 8
143   %b3 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 3), align 8
144   %b4 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 4), align 8
145   %b5 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 5), align 8
146   %b6 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 6), align 8
147   %b7 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @b64, i32 0, i64 7), align 8
148   %r0 = call i64 @llvm.fshl.i64(i64 %a0, i64 %a0, i64 %b0)
149   %r1 = call i64 @llvm.fshl.i64(i64 %a1, i64 %a1, i64 %b1)
150   %r2 = call i64 @llvm.fshl.i64(i64 %a2, i64 %a2, i64 %b2)
151   %r3 = call i64 @llvm.fshl.i64(i64 %a3, i64 %a3, i64 %b3)
152   %r4 = call i64 @llvm.fshl.i64(i64 %a4, i64 %a4, i64 %b4)
153   %r5 = call i64 @llvm.fshl.i64(i64 %a5, i64 %a5, i64 %b5)
154   %r6 = call i64 @llvm.fshl.i64(i64 %a6, i64 %a6, i64 %b6)
155   %r7 = call i64 @llvm.fshl.i64(i64 %a7, i64 %a7, i64 %b7)
156   store i64 %r0, ptr @d64, align 8
157   store i64 %r1, ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 1), align 8
158   store i64 %r2, ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 2), align 8
159   store i64 %r3, ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 3), align 8
160   store i64 %r4, ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 4), align 8
161   store i64 %r5, ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 5), align 8
162   store i64 %r6, ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 6), align 8
163   store i64 %r7, ptr getelementptr inbounds ([8 x i64], ptr @d64, i32 0, i64 7), align 8
164   ret void
167 define void @fshl_v16i32() {
168 ; SSE-LABEL: @fshl_v16i32(
169 ; SSE-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
170 ; SSE-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
171 ; SSE-NEXT:    [[A2:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 2), align 4
172 ; SSE-NEXT:    [[A3:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 3), align 4
173 ; SSE-NEXT:    [[A4:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 4), align 4
174 ; SSE-NEXT:    [[A5:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 5), align 4
175 ; SSE-NEXT:    [[A6:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 6), align 4
176 ; SSE-NEXT:    [[A7:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 7), align 4
177 ; SSE-NEXT:    [[A8:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 8), align 4
178 ; SSE-NEXT:    [[A9:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 9), align 4
179 ; SSE-NEXT:    [[A10:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 10), align 4
180 ; SSE-NEXT:    [[A11:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 11), align 4
181 ; SSE-NEXT:    [[A12:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 12), align 4
182 ; SSE-NEXT:    [[A13:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 13), align 4
183 ; SSE-NEXT:    [[A14:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 14), align 4
184 ; SSE-NEXT:    [[A15:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 15), align 4
185 ; SSE-NEXT:    [[B0:%.*]] = load i32, ptr @b32, align 4
186 ; SSE-NEXT:    [[B1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 1), align 4
187 ; SSE-NEXT:    [[B2:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 2), align 4
188 ; SSE-NEXT:    [[B3:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 3), align 4
189 ; SSE-NEXT:    [[B4:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 4), align 4
190 ; SSE-NEXT:    [[B5:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 5), align 4
191 ; SSE-NEXT:    [[B6:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 6), align 4
192 ; SSE-NEXT:    [[B7:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 7), align 4
193 ; SSE-NEXT:    [[B8:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 8), align 4
194 ; SSE-NEXT:    [[B9:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 9), align 4
195 ; SSE-NEXT:    [[B10:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 10), align 4
196 ; SSE-NEXT:    [[B11:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 11), align 4
197 ; SSE-NEXT:    [[B12:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 12), align 4
198 ; SSE-NEXT:    [[B13:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 13), align 4
199 ; SSE-NEXT:    [[B14:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 14), align 4
200 ; SSE-NEXT:    [[B15:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 15), align 4
201 ; SSE-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 [[B0]])
202 ; SSE-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 [[B1]])
203 ; SSE-NEXT:    [[R2:%.*]] = call i32 @llvm.fshl.i32(i32 [[A2]], i32 [[A2]], i32 [[B2]])
204 ; SSE-NEXT:    [[R3:%.*]] = call i32 @llvm.fshl.i32(i32 [[A3]], i32 [[A3]], i32 [[B3]])
205 ; SSE-NEXT:    [[R4:%.*]] = call i32 @llvm.fshl.i32(i32 [[A4]], i32 [[A4]], i32 [[B4]])
206 ; SSE-NEXT:    [[R5:%.*]] = call i32 @llvm.fshl.i32(i32 [[A5]], i32 [[A5]], i32 [[B5]])
207 ; SSE-NEXT:    [[R6:%.*]] = call i32 @llvm.fshl.i32(i32 [[A6]], i32 [[A6]], i32 [[B6]])
208 ; SSE-NEXT:    [[R7:%.*]] = call i32 @llvm.fshl.i32(i32 [[A7]], i32 [[A7]], i32 [[B7]])
209 ; SSE-NEXT:    [[R8:%.*]] = call i32 @llvm.fshl.i32(i32 [[A8]], i32 [[A8]], i32 [[B8]])
210 ; SSE-NEXT:    [[R9:%.*]] = call i32 @llvm.fshl.i32(i32 [[A9]], i32 [[A9]], i32 [[B9]])
211 ; SSE-NEXT:    [[R10:%.*]] = call i32 @llvm.fshl.i32(i32 [[A10]], i32 [[A10]], i32 [[B10]])
212 ; SSE-NEXT:    [[R11:%.*]] = call i32 @llvm.fshl.i32(i32 [[A11]], i32 [[A11]], i32 [[B11]])
213 ; SSE-NEXT:    [[R12:%.*]] = call i32 @llvm.fshl.i32(i32 [[A12]], i32 [[A12]], i32 [[B12]])
214 ; SSE-NEXT:    [[R13:%.*]] = call i32 @llvm.fshl.i32(i32 [[A13]], i32 [[A13]], i32 [[B13]])
215 ; SSE-NEXT:    [[R14:%.*]] = call i32 @llvm.fshl.i32(i32 [[A14]], i32 [[A14]], i32 [[B14]])
216 ; SSE-NEXT:    [[R15:%.*]] = call i32 @llvm.fshl.i32(i32 [[A15]], i32 [[A15]], i32 [[B15]])
217 ; SSE-NEXT:    store i32 [[R0]], ptr @d32, align 4
218 ; SSE-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
219 ; SSE-NEXT:    store i32 [[R2]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 2), align 4
220 ; SSE-NEXT:    store i32 [[R3]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 3), align 4
221 ; SSE-NEXT:    store i32 [[R4]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 4), align 4
222 ; SSE-NEXT:    store i32 [[R5]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 5), align 4
223 ; SSE-NEXT:    store i32 [[R6]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 6), align 4
224 ; SSE-NEXT:    store i32 [[R7]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 7), align 4
225 ; SSE-NEXT:    store i32 [[R8]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 8), align 4
226 ; SSE-NEXT:    store i32 [[R9]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 9), align 4
227 ; SSE-NEXT:    store i32 [[R10]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 10), align 4
228 ; SSE-NEXT:    store i32 [[R11]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 11), align 4
229 ; SSE-NEXT:    store i32 [[R12]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 12), align 4
230 ; SSE-NEXT:    store i32 [[R13]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 13), align 4
231 ; SSE-NEXT:    store i32 [[R14]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 14), align 4
232 ; SSE-NEXT:    store i32 [[R15]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 15), align 4
233 ; SSE-NEXT:    ret void
235 ; AVX-LABEL: @fshl_v16i32(
236 ; AVX-NEXT:    [[TMP1:%.*]] = load <8 x i32>, ptr @a32, align 4
237 ; AVX-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr @b32, align 4
238 ; AVX-NEXT:    [[TMP3:%.*]] = call <8 x i32> @llvm.fshl.v8i32(<8 x i32> [[TMP1]], <8 x i32> [[TMP1]], <8 x i32> [[TMP2]])
239 ; AVX-NEXT:    store <8 x i32> [[TMP3]], ptr @d32, align 4
240 ; AVX-NEXT:    [[TMP4:%.*]] = load <8 x i32>, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 8), align 4
241 ; AVX-NEXT:    [[TMP5:%.*]] = load <8 x i32>, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 8), align 4
242 ; AVX-NEXT:    [[TMP6:%.*]] = call <8 x i32> @llvm.fshl.v8i32(<8 x i32> [[TMP4]], <8 x i32> [[TMP4]], <8 x i32> [[TMP5]])
243 ; AVX-NEXT:    store <8 x i32> [[TMP6]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 8), align 4
244 ; AVX-NEXT:    ret void
246 ; AVX512-LABEL: @fshl_v16i32(
247 ; AVX512-NEXT:    [[TMP1:%.*]] = load <16 x i32>, ptr @a32, align 4
248 ; AVX512-NEXT:    [[TMP2:%.*]] = load <16 x i32>, ptr @b32, align 4
249 ; AVX512-NEXT:    [[TMP3:%.*]] = call <16 x i32> @llvm.fshl.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP1]], <16 x i32> [[TMP2]])
250 ; AVX512-NEXT:    store <16 x i32> [[TMP3]], ptr @d32, align 4
251 ; AVX512-NEXT:    ret void
253   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
254   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
255   %a2  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 2 ), align 4
256   %a3  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 3 ), align 4
257   %a4  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 4 ), align 4
258   %a5  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 5 ), align 4
259   %a6  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 6 ), align 4
260   %a7  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 7 ), align 4
261   %a8  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 8 ), align 4
262   %a9  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 9 ), align 4
263   %a10 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 10), align 4
264   %a11 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 11), align 4
265   %a12 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 12), align 4
266   %a13 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 13), align 4
267   %a14 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 14), align 4
268   %a15 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 15), align 4
269   %b0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 0 ), align 4
270   %b1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 1 ), align 4
271   %b2  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 2 ), align 4
272   %b3  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 3 ), align 4
273   %b4  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 4 ), align 4
274   %b5  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 5 ), align 4
275   %b6  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 6 ), align 4
276   %b7  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 7 ), align 4
277   %b8  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 8 ), align 4
278   %b9  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 9 ), align 4
279   %b10 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 10), align 4
280   %b11 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 11), align 4
281   %b12 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 12), align 4
282   %b13 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 13), align 4
283   %b14 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 14), align 4
284   %b15 = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 15), align 4
285   %r0  = call i32 @llvm.fshl.i32(i32 %a0 , i32 %a0 , i32 %b0 )
286   %r1  = call i32 @llvm.fshl.i32(i32 %a1 , i32 %a1 , i32 %b1 )
287   %r2  = call i32 @llvm.fshl.i32(i32 %a2 , i32 %a2 , i32 %b2 )
288   %r3  = call i32 @llvm.fshl.i32(i32 %a3 , i32 %a3 , i32 %b3 )
289   %r4  = call i32 @llvm.fshl.i32(i32 %a4 , i32 %a4 , i32 %b4 )
290   %r5  = call i32 @llvm.fshl.i32(i32 %a5 , i32 %a5 , i32 %b5 )
291   %r6  = call i32 @llvm.fshl.i32(i32 %a6 , i32 %a6 , i32 %b6 )
292   %r7  = call i32 @llvm.fshl.i32(i32 %a7 , i32 %a7 , i32 %b7 )
293   %r8  = call i32 @llvm.fshl.i32(i32 %a8 , i32 %a8 , i32 %b8 )
294   %r9  = call i32 @llvm.fshl.i32(i32 %a9 , i32 %a9 , i32 %b9 )
295   %r10 = call i32 @llvm.fshl.i32(i32 %a10, i32 %a10, i32 %b10)
296   %r11 = call i32 @llvm.fshl.i32(i32 %a11, i32 %a11, i32 %b11)
297   %r12 = call i32 @llvm.fshl.i32(i32 %a12, i32 %a12, i32 %b12)
298   %r13 = call i32 @llvm.fshl.i32(i32 %a13, i32 %a13, i32 %b13)
299   %r14 = call i32 @llvm.fshl.i32(i32 %a14, i32 %a14, i32 %b14)
300   %r15 = call i32 @llvm.fshl.i32(i32 %a15, i32 %a15, i32 %b15)
301   store i32 %r0 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 0 ), align 4
302   store i32 %r1 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1 ), align 4
303   store i32 %r2 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 2 ), align 4
304   store i32 %r3 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 3 ), align 4
305   store i32 %r4 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 4 ), align 4
306   store i32 %r5 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 5 ), align 4
307   store i32 %r6 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 6 ), align 4
308   store i32 %r7 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 7 ), align 4
309   store i32 %r8 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 8 ), align 4
310   store i32 %r9 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 9 ), align 4
311   store i32 %r10, ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 10), align 4
312   store i32 %r11, ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 11), align 4
313   store i32 %r12, ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 12), align 4
314   store i32 %r13, ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 13), align 4
315   store i32 %r14, ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 14), align 4
316   store i32 %r15, ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 15), align 4
317   ret void
320 define void @fshl_v32i16() {
321 ; AVX-LABEL: @fshl_v32i16(
322 ; AVX-NEXT:    [[TMP1:%.*]] = load <16 x i16>, ptr @a16, align 2
323 ; AVX-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr @b16, align 2
324 ; AVX-NEXT:    [[TMP3:%.*]] = call <16 x i16> @llvm.fshl.v16i16(<16 x i16> [[TMP1]], <16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
325 ; AVX-NEXT:    store <16 x i16> [[TMP3]], ptr @d16, align 2
326 ; AVX-NEXT:    [[TMP4:%.*]] = load <16 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 16), align 2
327 ; AVX-NEXT:    [[TMP5:%.*]] = load <16 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 16), align 2
328 ; AVX-NEXT:    [[TMP6:%.*]] = call <16 x i16> @llvm.fshl.v16i16(<16 x i16> [[TMP4]], <16 x i16> [[TMP4]], <16 x i16> [[TMP5]])
329 ; AVX-NEXT:    store <16 x i16> [[TMP6]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 16), align 2
330 ; AVX-NEXT:    ret void
332 ; AVX512-LABEL: @fshl_v32i16(
333 ; AVX512-NEXT:    [[TMP1:%.*]] = load <32 x i16>, ptr @a16, align 2
334 ; AVX512-NEXT:    [[TMP2:%.*]] = load <32 x i16>, ptr @b16, align 2
335 ; AVX512-NEXT:    [[TMP3:%.*]] = call <32 x i16> @llvm.fshl.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP1]], <32 x i16> [[TMP2]])
336 ; AVX512-NEXT:    store <32 x i16> [[TMP3]], ptr @d16, align 2
337 ; AVX512-NEXT:    ret void
339   %a0  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 0 ), align 2
340   %a1  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 1 ), align 2
341   %a2  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 2 ), align 2
342   %a3  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 3 ), align 2
343   %a4  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 4 ), align 2
344   %a5  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 5 ), align 2
345   %a6  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 6 ), align 2
346   %a7  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 7 ), align 2
347   %a8  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 8 ), align 2
348   %a9  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 9 ), align 2
349   %a10 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 10), align 2
350   %a11 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 11), align 2
351   %a12 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 12), align 2
352   %a13 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 13), align 2
353   %a14 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 14), align 2
354   %a15 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 15), align 2
355   %a16 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 16), align 2
356   %a17 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 17), align 2
357   %a18 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 18), align 2
358   %a19 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 19), align 2
359   %a20 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 20), align 2
360   %a21 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 21), align 2
361   %a22 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 22), align 2
362   %a23 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 23), align 2
363   %a24 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 24), align 2
364   %a25 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 25), align 2
365   %a26 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 26), align 2
366   %a27 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 27), align 2
367   %a28 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 28), align 2
368   %a29 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 29), align 2
369   %a30 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 30), align 2
370   %a31 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 31), align 2
371   %b0  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 0 ), align 2
372   %b1  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 1 ), align 2
373   %b2  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 2 ), align 2
374   %b3  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 3 ), align 2
375   %b4  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 4 ), align 2
376   %b5  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 5 ), align 2
377   %b6  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 6 ), align 2
378   %b7  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 7 ), align 2
379   %b8  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 8 ), align 2
380   %b9  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 9 ), align 2
381   %b10 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 10), align 2
382   %b11 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 11), align 2
383   %b12 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 12), align 2
384   %b13 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 13), align 2
385   %b14 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 14), align 2
386   %b15 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 15), align 2
387   %b16 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 16), align 2
388   %b17 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 17), align 2
389   %b18 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 18), align 2
390   %b19 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 19), align 2
391   %b20 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 20), align 2
392   %b21 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 21), align 2
393   %b22 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 22), align 2
394   %b23 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 23), align 2
395   %b24 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 24), align 2
396   %b25 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 25), align 2
397   %b26 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 26), align 2
398   %b27 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 27), align 2
399   %b28 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 28), align 2
400   %b29 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 29), align 2
401   %b30 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 30), align 2
402   %b31 = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 31), align 2
403   %r0  = call i16 @llvm.fshl.i16(i16 %a0 , i16 %a0 , i16 %b0 )
404   %r1  = call i16 @llvm.fshl.i16(i16 %a1 , i16 %a1 , i16 %b1 )
405   %r2  = call i16 @llvm.fshl.i16(i16 %a2 , i16 %a2 , i16 %b2 )
406   %r3  = call i16 @llvm.fshl.i16(i16 %a3 , i16 %a3 , i16 %b3 )
407   %r4  = call i16 @llvm.fshl.i16(i16 %a4 , i16 %a4 , i16 %b4 )
408   %r5  = call i16 @llvm.fshl.i16(i16 %a5 , i16 %a5 , i16 %b5 )
409   %r6  = call i16 @llvm.fshl.i16(i16 %a6 , i16 %a6 , i16 %b6 )
410   %r7  = call i16 @llvm.fshl.i16(i16 %a7 , i16 %a7 , i16 %b7 )
411   %r8  = call i16 @llvm.fshl.i16(i16 %a8 , i16 %a8 , i16 %b8 )
412   %r9  = call i16 @llvm.fshl.i16(i16 %a9 , i16 %a9 , i16 %b9 )
413   %r10 = call i16 @llvm.fshl.i16(i16 %a10, i16 %a10, i16 %b10)
414   %r11 = call i16 @llvm.fshl.i16(i16 %a11, i16 %a11, i16 %b11)
415   %r12 = call i16 @llvm.fshl.i16(i16 %a12, i16 %a12, i16 %b12)
416   %r13 = call i16 @llvm.fshl.i16(i16 %a13, i16 %a13, i16 %b13)
417   %r14 = call i16 @llvm.fshl.i16(i16 %a14, i16 %a14, i16 %b14)
418   %r15 = call i16 @llvm.fshl.i16(i16 %a15, i16 %a15, i16 %b15)
419   %r16 = call i16 @llvm.fshl.i16(i16 %a16, i16 %a16, i16 %b16)
420   %r17 = call i16 @llvm.fshl.i16(i16 %a17, i16 %a17, i16 %b17)
421   %r18 = call i16 @llvm.fshl.i16(i16 %a18, i16 %a18, i16 %b18)
422   %r19 = call i16 @llvm.fshl.i16(i16 %a19, i16 %a19, i16 %b19)
423   %r20 = call i16 @llvm.fshl.i16(i16 %a20, i16 %a20, i16 %b20)
424   %r21 = call i16 @llvm.fshl.i16(i16 %a21, i16 %a21, i16 %b21)
425   %r22 = call i16 @llvm.fshl.i16(i16 %a22, i16 %a22, i16 %b22)
426   %r23 = call i16 @llvm.fshl.i16(i16 %a23, i16 %a23, i16 %b23)
427   %r24 = call i16 @llvm.fshl.i16(i16 %a24, i16 %a24, i16 %b24)
428   %r25 = call i16 @llvm.fshl.i16(i16 %a25, i16 %a25, i16 %b25)
429   %r26 = call i16 @llvm.fshl.i16(i16 %a26, i16 %a26, i16 %b26)
430   %r27 = call i16 @llvm.fshl.i16(i16 %a27, i16 %a27, i16 %b27)
431   %r28 = call i16 @llvm.fshl.i16(i16 %a28, i16 %a28, i16 %b28)
432   %r29 = call i16 @llvm.fshl.i16(i16 %a29, i16 %a29, i16 %b29)
433   %r30 = call i16 @llvm.fshl.i16(i16 %a30, i16 %a30, i16 %b30)
434   %r31 = call i16 @llvm.fshl.i16(i16 %a31, i16 %a31, i16 %b31)
435   store i16 %r0 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 0 ), align 2
436   store i16 %r1 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 1 ), align 2
437   store i16 %r2 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 2 ), align 2
438   store i16 %r3 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 3 ), align 2
439   store i16 %r4 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 4 ), align 2
440   store i16 %r5 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 5 ), align 2
441   store i16 %r6 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 6 ), align 2
442   store i16 %r7 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 7 ), align 2
443   store i16 %r8 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 8 ), align 2
444   store i16 %r9 , ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 9 ), align 2
445   store i16 %r10, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 10), align 2
446   store i16 %r11, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 11), align 2
447   store i16 %r12, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 12), align 2
448   store i16 %r13, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 13), align 2
449   store i16 %r14, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 14), align 2
450   store i16 %r15, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 15), align 2
451   store i16 %r16, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 16), align 2
452   store i16 %r17, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 17), align 2
453   store i16 %r18, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 18), align 2
454   store i16 %r19, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 19), align 2
455   store i16 %r20, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 20), align 2
456   store i16 %r21, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 21), align 2
457   store i16 %r22, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 22), align 2
458   store i16 %r23, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 23), align 2
459   store i16 %r24, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 24), align 2
460   store i16 %r25, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 25), align 2
461   store i16 %r26, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 26), align 2
462   store i16 %r27, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 27), align 2
463   store i16 %r28, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 28), align 2
464   store i16 %r29, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 29), align 2
465   store i16 %r30, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 30), align 2
466   store i16 %r31, ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 31), align 2
467   ret void
470 define void @fshl_v64i8() {
471 ; SSE-LABEL: @fshl_v64i8(
472 ; SSE-NEXT:    [[TMP1:%.*]] = load <16 x i8>, ptr @a8, align 1
473 ; SSE-NEXT:    [[TMP2:%.*]] = load <16 x i8>, ptr @b8, align 1
474 ; SSE-NEXT:    [[TMP3:%.*]] = call <16 x i8> @llvm.fshl.v16i8(<16 x i8> [[TMP1]], <16 x i8> [[TMP1]], <16 x i8> [[TMP2]])
475 ; SSE-NEXT:    store <16 x i8> [[TMP3]], ptr @d8, align 1
476 ; SSE-NEXT:    [[TMP4:%.*]] = load <16 x i8>, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 16), align 1
477 ; SSE-NEXT:    [[TMP5:%.*]] = load <16 x i8>, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 16), align 1
478 ; SSE-NEXT:    [[TMP6:%.*]] = call <16 x i8> @llvm.fshl.v16i8(<16 x i8> [[TMP4]], <16 x i8> [[TMP4]], <16 x i8> [[TMP5]])
479 ; SSE-NEXT:    store <16 x i8> [[TMP6]], ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 16), align 1
480 ; SSE-NEXT:    [[TMP7:%.*]] = load <16 x i8>, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 32), align 1
481 ; SSE-NEXT:    [[TMP8:%.*]] = load <16 x i8>, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 32), align 1
482 ; SSE-NEXT:    [[TMP9:%.*]] = call <16 x i8> @llvm.fshl.v16i8(<16 x i8> [[TMP7]], <16 x i8> [[TMP7]], <16 x i8> [[TMP8]])
483 ; SSE-NEXT:    store <16 x i8> [[TMP9]], ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 32), align 1
484 ; SSE-NEXT:    [[TMP10:%.*]] = load <16 x i8>, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 48), align 1
485 ; SSE-NEXT:    [[TMP11:%.*]] = load <16 x i8>, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 48), align 1
486 ; SSE-NEXT:    [[TMP12:%.*]] = call <16 x i8> @llvm.fshl.v16i8(<16 x i8> [[TMP10]], <16 x i8> [[TMP10]], <16 x i8> [[TMP11]])
487 ; SSE-NEXT:    store <16 x i8> [[TMP12]], ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 48), align 1
488 ; SSE-NEXT:    ret void
490 ; AVX-LABEL: @fshl_v64i8(
491 ; AVX-NEXT:    [[TMP1:%.*]] = load <32 x i8>, ptr @a8, align 1
492 ; AVX-NEXT:    [[TMP2:%.*]] = load <32 x i8>, ptr @b8, align 1
493 ; AVX-NEXT:    [[TMP3:%.*]] = call <32 x i8> @llvm.fshl.v32i8(<32 x i8> [[TMP1]], <32 x i8> [[TMP1]], <32 x i8> [[TMP2]])
494 ; AVX-NEXT:    store <32 x i8> [[TMP3]], ptr @d8, align 1
495 ; AVX-NEXT:    [[TMP4:%.*]] = load <32 x i8>, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 32), align 1
496 ; AVX-NEXT:    [[TMP5:%.*]] = load <32 x i8>, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 32), align 1
497 ; AVX-NEXT:    [[TMP6:%.*]] = call <32 x i8> @llvm.fshl.v32i8(<32 x i8> [[TMP4]], <32 x i8> [[TMP4]], <32 x i8> [[TMP5]])
498 ; AVX-NEXT:    store <32 x i8> [[TMP6]], ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 32), align 1
499 ; AVX-NEXT:    ret void
501 ; AVX512-LABEL: @fshl_v64i8(
502 ; AVX512-NEXT:    [[TMP1:%.*]] = load <64 x i8>, ptr @a8, align 1
503 ; AVX512-NEXT:    [[TMP2:%.*]] = load <64 x i8>, ptr @b8, align 1
504 ; AVX512-NEXT:    [[TMP3:%.*]] = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP1]], <64 x i8> [[TMP2]])
505 ; AVX512-NEXT:    store <64 x i8> [[TMP3]], ptr @d8, align 1
506 ; AVX512-NEXT:    ret void
508   %a0  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 0 ), align 1
509   %a1  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 1 ), align 1
510   %a2  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 2 ), align 1
511   %a3  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 3 ), align 1
512   %a4  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 4 ), align 1
513   %a5  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 5 ), align 1
514   %a6  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 6 ), align 1
515   %a7  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 7 ), align 1
516   %a8  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 8 ), align 1
517   %a9  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 9 ), align 1
518   %a10 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 10), align 1
519   %a11 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 11), align 1
520   %a12 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 12), align 1
521   %a13 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 13), align 1
522   %a14 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 14), align 1
523   %a15 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 15), align 1
524   %a16 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 16), align 1
525   %a17 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 17), align 1
526   %a18 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 18), align 1
527   %a19 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 19), align 1
528   %a20 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 20), align 1
529   %a21 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 21), align 1
530   %a22 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 22), align 1
531   %a23 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 23), align 1
532   %a24 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 24), align 1
533   %a25 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 25), align 1
534   %a26 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 26), align 1
535   %a27 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 27), align 1
536   %a28 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 28), align 1
537   %a29 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 29), align 1
538   %a30 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 30), align 1
539   %a31 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 31), align 1
540   %a32 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 32), align 1
541   %a33 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 33), align 1
542   %a34 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 34), align 1
543   %a35 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 35), align 1
544   %a36 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 36), align 1
545   %a37 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 37), align 1
546   %a38 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 38), align 1
547   %a39 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 39), align 1
548   %a40 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 40), align 1
549   %a41 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 41), align 1
550   %a42 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 42), align 1
551   %a43 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 43), align 1
552   %a44 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 44), align 1
553   %a45 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 45), align 1
554   %a46 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 46), align 1
555   %a47 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 47), align 1
556   %a48 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 48), align 1
557   %a49 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 49), align 1
558   %a50 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 50), align 1
559   %a51 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 51), align 1
560   %a52 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 52), align 1
561   %a53 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 53), align 1
562   %a54 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 54), align 1
563   %a55 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 55), align 1
564   %a56 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 56), align 1
565   %a57 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 57), align 1
566   %a58 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 58), align 1
567   %a59 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 59), align 1
568   %a60 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 60), align 1
569   %a61 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 61), align 1
570   %a62 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 62), align 1
571   %a63 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 63), align 1
572   %b0  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 0 ), align 1
573   %b1  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 1 ), align 1
574   %b2  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 2 ), align 1
575   %b3  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 3 ), align 1
576   %b4  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 4 ), align 1
577   %b5  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 5 ), align 1
578   %b6  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 6 ), align 1
579   %b7  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 7 ), align 1
580   %b8  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 8 ), align 1
581   %b9  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 9 ), align 1
582   %b10 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 10), align 1
583   %b11 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 11), align 1
584   %b12 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 12), align 1
585   %b13 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 13), align 1
586   %b14 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 14), align 1
587   %b15 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 15), align 1
588   %b16 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 16), align 1
589   %b17 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 17), align 1
590   %b18 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 18), align 1
591   %b19 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 19), align 1
592   %b20 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 20), align 1
593   %b21 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 21), align 1
594   %b22 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 22), align 1
595   %b23 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 23), align 1
596   %b24 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 24), align 1
597   %b25 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 25), align 1
598   %b26 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 26), align 1
599   %b27 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 27), align 1
600   %b28 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 28), align 1
601   %b29 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 29), align 1
602   %b30 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 30), align 1
603   %b31 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 31), align 1
604   %b32 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 32), align 1
605   %b33 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 33), align 1
606   %b34 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 34), align 1
607   %b35 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 35), align 1
608   %b36 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 36), align 1
609   %b37 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 37), align 1
610   %b38 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 38), align 1
611   %b39 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 39), align 1
612   %b40 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 40), align 1
613   %b41 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 41), align 1
614   %b42 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 42), align 1
615   %b43 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 43), align 1
616   %b44 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 44), align 1
617   %b45 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 45), align 1
618   %b46 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 46), align 1
619   %b47 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 47), align 1
620   %b48 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 48), align 1
621   %b49 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 49), align 1
622   %b50 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 50), align 1
623   %b51 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 51), align 1
624   %b52 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 52), align 1
625   %b53 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 53), align 1
626   %b54 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 54), align 1
627   %b55 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 55), align 1
628   %b56 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 56), align 1
629   %b57 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 57), align 1
630   %b58 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 58), align 1
631   %b59 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 59), align 1
632   %b60 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 60), align 1
633   %b61 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 61), align 1
634   %b62 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 62), align 1
635   %b63 = load i8, ptr getelementptr inbounds ([64 x i8], ptr @b8, i32 0, i64 63), align 1
636   %r0  = call i8 @llvm.fshl.i8(i8 %a0 , i8 %a0 , i8 %b0 )
637   %r1  = call i8 @llvm.fshl.i8(i8 %a1 , i8 %a1 , i8 %b1 )
638   %r2  = call i8 @llvm.fshl.i8(i8 %a2 , i8 %a2 , i8 %b2 )
639   %r3  = call i8 @llvm.fshl.i8(i8 %a3 , i8 %a3 , i8 %b3 )
640   %r4  = call i8 @llvm.fshl.i8(i8 %a4 , i8 %a4 , i8 %b4 )
641   %r5  = call i8 @llvm.fshl.i8(i8 %a5 , i8 %a5 , i8 %b5 )
642   %r6  = call i8 @llvm.fshl.i8(i8 %a6 , i8 %a6 , i8 %b6 )
643   %r7  = call i8 @llvm.fshl.i8(i8 %a7 , i8 %a7 , i8 %b7 )
644   %r8  = call i8 @llvm.fshl.i8(i8 %a8 , i8 %a8 , i8 %b8 )
645   %r9  = call i8 @llvm.fshl.i8(i8 %a9 , i8 %a9 , i8 %b9 )
646   %r10 = call i8 @llvm.fshl.i8(i8 %a10, i8 %a10, i8 %b10)
647   %r11 = call i8 @llvm.fshl.i8(i8 %a11, i8 %a11, i8 %b11)
648   %r12 = call i8 @llvm.fshl.i8(i8 %a12, i8 %a12, i8 %b12)
649   %r13 = call i8 @llvm.fshl.i8(i8 %a13, i8 %a13, i8 %b13)
650   %r14 = call i8 @llvm.fshl.i8(i8 %a14, i8 %a14, i8 %b14)
651   %r15 = call i8 @llvm.fshl.i8(i8 %a15, i8 %a15, i8 %b15)
652   %r16 = call i8 @llvm.fshl.i8(i8 %a16, i8 %a16, i8 %b16)
653   %r17 = call i8 @llvm.fshl.i8(i8 %a17, i8 %a17, i8 %b17)
654   %r18 = call i8 @llvm.fshl.i8(i8 %a18, i8 %a18, i8 %b18)
655   %r19 = call i8 @llvm.fshl.i8(i8 %a19, i8 %a19, i8 %b19)
656   %r20 = call i8 @llvm.fshl.i8(i8 %a20, i8 %a20, i8 %b20)
657   %r21 = call i8 @llvm.fshl.i8(i8 %a21, i8 %a21, i8 %b21)
658   %r22 = call i8 @llvm.fshl.i8(i8 %a22, i8 %a22, i8 %b22)
659   %r23 = call i8 @llvm.fshl.i8(i8 %a23, i8 %a23, i8 %b23)
660   %r24 = call i8 @llvm.fshl.i8(i8 %a24, i8 %a24, i8 %b24)
661   %r25 = call i8 @llvm.fshl.i8(i8 %a25, i8 %a25, i8 %b25)
662   %r26 = call i8 @llvm.fshl.i8(i8 %a26, i8 %a26, i8 %b26)
663   %r27 = call i8 @llvm.fshl.i8(i8 %a27, i8 %a27, i8 %b27)
664   %r28 = call i8 @llvm.fshl.i8(i8 %a28, i8 %a28, i8 %b28)
665   %r29 = call i8 @llvm.fshl.i8(i8 %a29, i8 %a29, i8 %b29)
666   %r30 = call i8 @llvm.fshl.i8(i8 %a30, i8 %a30, i8 %b30)
667   %r31 = call i8 @llvm.fshl.i8(i8 %a31, i8 %a31, i8 %b31)
668   %r32 = call i8 @llvm.fshl.i8(i8 %a32, i8 %a32, i8 %b32)
669   %r33 = call i8 @llvm.fshl.i8(i8 %a33, i8 %a33, i8 %b33)
670   %r34 = call i8 @llvm.fshl.i8(i8 %a34, i8 %a34, i8 %b34)
671   %r35 = call i8 @llvm.fshl.i8(i8 %a35, i8 %a35, i8 %b35)
672   %r36 = call i8 @llvm.fshl.i8(i8 %a36, i8 %a36, i8 %b36)
673   %r37 = call i8 @llvm.fshl.i8(i8 %a37, i8 %a37, i8 %b37)
674   %r38 = call i8 @llvm.fshl.i8(i8 %a38, i8 %a38, i8 %b38)
675   %r39 = call i8 @llvm.fshl.i8(i8 %a39, i8 %a39, i8 %b39)
676   %r40 = call i8 @llvm.fshl.i8(i8 %a40, i8 %a40, i8 %b40)
677   %r41 = call i8 @llvm.fshl.i8(i8 %a41, i8 %a41, i8 %b41)
678   %r42 = call i8 @llvm.fshl.i8(i8 %a42, i8 %a42, i8 %b42)
679   %r43 = call i8 @llvm.fshl.i8(i8 %a43, i8 %a43, i8 %b43)
680   %r44 = call i8 @llvm.fshl.i8(i8 %a44, i8 %a44, i8 %b44)
681   %r45 = call i8 @llvm.fshl.i8(i8 %a45, i8 %a45, i8 %b45)
682   %r46 = call i8 @llvm.fshl.i8(i8 %a46, i8 %a46, i8 %b46)
683   %r47 = call i8 @llvm.fshl.i8(i8 %a47, i8 %a47, i8 %b47)
684   %r48 = call i8 @llvm.fshl.i8(i8 %a48, i8 %a48, i8 %b48)
685   %r49 = call i8 @llvm.fshl.i8(i8 %a49, i8 %a49, i8 %b49)
686   %r50 = call i8 @llvm.fshl.i8(i8 %a50, i8 %a50, i8 %b50)
687   %r51 = call i8 @llvm.fshl.i8(i8 %a51, i8 %a51, i8 %b51)
688   %r52 = call i8 @llvm.fshl.i8(i8 %a52, i8 %a52, i8 %b52)
689   %r53 = call i8 @llvm.fshl.i8(i8 %a53, i8 %a53, i8 %b53)
690   %r54 = call i8 @llvm.fshl.i8(i8 %a54, i8 %a54, i8 %b54)
691   %r55 = call i8 @llvm.fshl.i8(i8 %a55, i8 %a55, i8 %b55)
692   %r56 = call i8 @llvm.fshl.i8(i8 %a56, i8 %a56, i8 %b56)
693   %r57 = call i8 @llvm.fshl.i8(i8 %a57, i8 %a57, i8 %b57)
694   %r58 = call i8 @llvm.fshl.i8(i8 %a58, i8 %a58, i8 %b58)
695   %r59 = call i8 @llvm.fshl.i8(i8 %a59, i8 %a59, i8 %b59)
696   %r60 = call i8 @llvm.fshl.i8(i8 %a60, i8 %a60, i8 %b60)
697   %r61 = call i8 @llvm.fshl.i8(i8 %a61, i8 %a61, i8 %b61)
698   %r62 = call i8 @llvm.fshl.i8(i8 %a62, i8 %a62, i8 %b62)
699   %r63 = call i8 @llvm.fshl.i8(i8 %a63, i8 %a63, i8 %b63)
700   store i8 %r0 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 0 ), align 1
701   store i8 %r1 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 1 ), align 1
702   store i8 %r2 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 2 ), align 1
703   store i8 %r3 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 3 ), align 1
704   store i8 %r4 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 4 ), align 1
705   store i8 %r5 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 5 ), align 1
706   store i8 %r6 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 6 ), align 1
707   store i8 %r7 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 7 ), align 1
708   store i8 %r8 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 8 ), align 1
709   store i8 %r9 , ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 9 ), align 1
710   store i8 %r10, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 10), align 1
711   store i8 %r11, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 11), align 1
712   store i8 %r12, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 12), align 1
713   store i8 %r13, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 13), align 1
714   store i8 %r14, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 14), align 1
715   store i8 %r15, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 15), align 1
716   store i8 %r16, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 16), align 1
717   store i8 %r17, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 17), align 1
718   store i8 %r18, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 18), align 1
719   store i8 %r19, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 19), align 1
720   store i8 %r20, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 20), align 1
721   store i8 %r21, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 21), align 1
722   store i8 %r22, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 22), align 1
723   store i8 %r23, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 23), align 1
724   store i8 %r24, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 24), align 1
725   store i8 %r25, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 25), align 1
726   store i8 %r26, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 26), align 1
727   store i8 %r27, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 27), align 1
728   store i8 %r28, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 28), align 1
729   store i8 %r29, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 29), align 1
730   store i8 %r30, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 30), align 1
731   store i8 %r31, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 31), align 1
732   store i8 %r32, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 32), align 1
733   store i8 %r33, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 33), align 1
734   store i8 %r34, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 34), align 1
735   store i8 %r35, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 35), align 1
736   store i8 %r36, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 36), align 1
737   store i8 %r37, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 37), align 1
738   store i8 %r38, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 38), align 1
739   store i8 %r39, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 39), align 1
740   store i8 %r40, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 40), align 1
741   store i8 %r41, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 41), align 1
742   store i8 %r42, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 42), align 1
743   store i8 %r43, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 43), align 1
744   store i8 %r44, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 44), align 1
745   store i8 %r45, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 45), align 1
746   store i8 %r46, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 46), align 1
747   store i8 %r47, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 47), align 1
748   store i8 %r48, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 48), align 1
749   store i8 %r49, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 49), align 1
750   store i8 %r50, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 50), align 1
751   store i8 %r51, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 51), align 1
752   store i8 %r52, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 52), align 1
753   store i8 %r53, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 53), align 1
754   store i8 %r54, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 54), align 1
755   store i8 %r55, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 55), align 1
756   store i8 %r56, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 56), align 1
757   store i8 %r57, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 57), align 1
758   store i8 %r58, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 58), align 1
759   store i8 %r59, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 59), align 1
760   store i8 %r60, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 60), align 1
761   store i8 %r61, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 61), align 1
762   store i8 %r62, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 62), align 1
763   store i8 %r63, ptr getelementptr inbounds ([64 x i8], ptr @d8, i32 0, i64 63), align 1
764   ret void
767 define void @fshl_v2i32() {
768 ; SSE-LABEL: @fshl_v2i32(
769 ; SSE-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
770 ; SSE-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
771 ; SSE-NEXT:    [[B0:%.*]] = load i32, ptr @b32, align 4
772 ; SSE-NEXT:    [[B1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 1), align 4
773 ; SSE-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 [[B0]])
774 ; SSE-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 [[B1]])
775 ; SSE-NEXT:    store i32 [[R0]], ptr @d32, align 4
776 ; SSE-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
777 ; SSE-NEXT:    ret void
779 ; AVX1-LABEL: @fshl_v2i32(
780 ; AVX1-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
781 ; AVX1-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
782 ; AVX1-NEXT:    [[B0:%.*]] = load i32, ptr @b32, align 4
783 ; AVX1-NEXT:    [[B1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 1), align 4
784 ; AVX1-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 [[B0]])
785 ; AVX1-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 [[B1]])
786 ; AVX1-NEXT:    store i32 [[R0]], ptr @d32, align 4
787 ; AVX1-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
788 ; AVX1-NEXT:    ret void
790 ; AVX2-LABEL: @fshl_v2i32(
791 ; AVX2-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
792 ; AVX2-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
793 ; AVX2-NEXT:    [[B0:%.*]] = load i32, ptr @b32, align 4
794 ; AVX2-NEXT:    [[B1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 1), align 4
795 ; AVX2-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 [[B0]])
796 ; AVX2-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 [[B1]])
797 ; AVX2-NEXT:    store i32 [[R0]], ptr @d32, align 4
798 ; AVX2-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
799 ; AVX2-NEXT:    ret void
801 ; AVX256-LABEL: @fshl_v2i32(
802 ; AVX256-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
803 ; AVX256-NEXT:    [[TMP2:%.*]] = load <2 x i32>, ptr @b32, align 4
804 ; AVX256-NEXT:    [[TMP3:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> [[TMP2]])
805 ; AVX256-NEXT:    store <2 x i32> [[TMP3]], ptr @d32, align 4
806 ; AVX256-NEXT:    ret void
808 ; AVX512-LABEL: @fshl_v2i32(
809 ; AVX512-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
810 ; AVX512-NEXT:    [[TMP2:%.*]] = load <2 x i32>, ptr @b32, align 4
811 ; AVX512-NEXT:    [[TMP3:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> [[TMP2]])
812 ; AVX512-NEXT:    store <2 x i32> [[TMP3]], ptr @d32, align 4
813 ; AVX512-NEXT:    ret void
815   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
816   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
817   %b0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 0 ), align 4
818   %b1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @b32, i32 0, i64 1 ), align 4
819   %r0  = call i32 @llvm.fshl.i32(i32 %a0 , i32 %a0 , i32 %b0 )
820   %r1  = call i32 @llvm.fshl.i32(i32 %a1 , i32 %a1 , i32 %b1 )
821   store i32 %r0 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 0 ), align 4
822   store i32 %r1 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1 ), align 4
823   ret void
826 ; PR63980
827 define void @fshl_v2i32_uniformconst() {
828 ; SSE-LABEL: @fshl_v2i32_uniformconst(
829 ; SSE-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
830 ; SSE-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
831 ; SSE-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 1)
832 ; SSE-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 1)
833 ; SSE-NEXT:    store i32 [[R0]], ptr @d32, align 4
834 ; SSE-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
835 ; SSE-NEXT:    ret void
837 ; AVX1-LABEL: @fshl_v2i32_uniformconst(
838 ; AVX1-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
839 ; AVX1-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
840 ; AVX1-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 1)
841 ; AVX1-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 1)
842 ; AVX1-NEXT:    store i32 [[R0]], ptr @d32, align 4
843 ; AVX1-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
844 ; AVX1-NEXT:    ret void
846 ; AVX2-LABEL: @fshl_v2i32_uniformconst(
847 ; AVX2-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
848 ; AVX2-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
849 ; AVX2-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 1)
850 ; AVX2-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 1)
851 ; AVX2-NEXT:    store i32 [[R0]], ptr @d32, align 4
852 ; AVX2-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
853 ; AVX2-NEXT:    ret void
855 ; AVX256-LABEL: @fshl_v2i32_uniformconst(
856 ; AVX256-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
857 ; AVX256-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> <i32 1, i32 1>)
858 ; AVX256-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
859 ; AVX256-NEXT:    ret void
861 ; AVX512-LABEL: @fshl_v2i32_uniformconst(
862 ; AVX512-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
863 ; AVX512-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> <i32 1, i32 1>)
864 ; AVX512-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
865 ; AVX512-NEXT:    ret void
867   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
868   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
869   %r0  = call i32 @llvm.fshl.i32(i32 %a0 , i32 %a0 , i32 1 )
870   %r1  = call i32 @llvm.fshl.i32(i32 %a1 , i32 %a1 , i32 1 )
871   store i32 %r0 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 0 ), align 4
872   store i32 %r1 , ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1 ), align 4
873   ret void