[AMDGPU] Add True16 register classes.
[llvm-project.git] / llvm / test / CodeGen / AMDGPU / vni8-across-blocks.ll
blobb8d18f56b760239b386a9fc3028f0c40988b4cd4
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 2
2 ; RUN: llc -march=amdgcn -mcpu=gfx906 < %s | FileCheck --check-prefix=GFX906 %s
4 define amdgpu_kernel void @v3i8_liveout(ptr addrspace(1) %src1, ptr addrspace(1) %src2, ptr addrspace(1) nocapture %dst) {
5 ; GFX906-LABEL: v3i8_liveout:
6 ; GFX906:       ; %bb.0: ; %entry
7 ; GFX906-NEXT:    s_load_dwordx4 s[4:7], s[0:1], 0x24
8 ; GFX906-NEXT:    s_load_dwordx2 s[2:3], s[0:1], 0x34
9 ; GFX906-NEXT:    v_lshlrev_b32_e32 v1, 2, v0
10 ; GFX906-NEXT:    v_cmp_gt_u32_e32 vcc, 15, v0
11 ; GFX906-NEXT:    s_waitcnt lgkmcnt(0)
12 ; GFX906-NEXT:    global_load_dword v2, v1, s[4:5]
13 ; GFX906-NEXT:    v_mov_b32_e32 v1, 0
14 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
15 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v2
16 ; GFX906-NEXT:    v_lshrrev_b32_e32 v4, 8, v2
17 ; GFX906-NEXT:    s_and_saveexec_b64 s[0:1], vcc
18 ; GFX906-NEXT:    s_cbranch_execz .LBB0_2
19 ; GFX906-NEXT:  ; %bb.1: ; %bb.1
20 ; GFX906-NEXT:    v_lshlrev_b64 v[2:3], 2, v[0:1]
21 ; GFX906-NEXT:    v_mov_b32_e32 v0, s7
22 ; GFX906-NEXT:    v_add_co_u32_e32 v2, vcc, s6, v2
23 ; GFX906-NEXT:    v_addc_co_u32_e32 v3, vcc, v0, v3, vcc
24 ; GFX906-NEXT:    global_load_dword v2, v[2:3], off
25 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
26 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v2
27 ; GFX906-NEXT:    v_lshrrev_b32_e32 v4, 8, v2
28 ; GFX906-NEXT:  .LBB0_2: ; %bb.2
29 ; GFX906-NEXT:    s_or_b64 exec, exec, s[0:1]
30 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v4
31 ; GFX906-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
32 ; GFX906-NEXT:    global_store_byte v1, v3, s[2:3] offset:2
33 ; GFX906-NEXT:    global_store_short v1, v0, s[2:3]
34 ; GFX906-NEXT:    s_endpgm
35 entry:
36   %idx = call i32 @llvm.amdgcn.workitem.id.x()
37   %gep1 = getelementptr <3 x i8>, ptr addrspace(1) %src1, i32 %idx
38   %vec1 = load <3 x i8>, ptr addrspace(1) %gep1
39   %gep2 = getelementptr <3 x i8>, ptr addrspace(1) %src2, i32 %idx
40   %vec2 = load <3 x i8>, ptr addrspace(1) %gep2
41   %cmp = icmp ult i32 %idx, 15
42   br i1 %cmp, label %bb.1, label %bb.2
43 bb.1:
44   br label %bb.2
46 bb.2:
47   %tmp5 = phi <3 x i8> [ %vec1, %entry ], [ %vec2, %bb.1 ]
48   store <3 x i8> %tmp5, ptr addrspace(1) %dst, align 4
49   ret void
52 define amdgpu_kernel void @v4i8_liveout(ptr addrspace(1) %src1, ptr addrspace(1) %src2, ptr addrspace(1) nocapture %dst) {
53 ; GFX906-LABEL: v4i8_liveout:
54 ; GFX906:       ; %bb.0: ; %entry
55 ; GFX906-NEXT:    s_load_dwordx4 s[4:7], s[0:1], 0x24
56 ; GFX906-NEXT:    s_load_dwordx2 s[2:3], s[0:1], 0x34
57 ; GFX906-NEXT:    v_lshlrev_b32_e32 v1, 2, v0
58 ; GFX906-NEXT:    v_cmp_gt_u32_e32 vcc, 15, v0
59 ; GFX906-NEXT:    s_waitcnt lgkmcnt(0)
60 ; GFX906-NEXT:    global_load_dword v2, v1, s[4:5]
61 ; GFX906-NEXT:    v_mov_b32_e32 v1, 0
62 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
63 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v2
64 ; GFX906-NEXT:    v_lshrrev_b32_e32 v4, 16, v2
65 ; GFX906-NEXT:    v_lshrrev_b32_e32 v5, 8, v2
66 ; GFX906-NEXT:    s_and_saveexec_b64 s[0:1], vcc
67 ; GFX906-NEXT:    s_cbranch_execz .LBB1_2
68 ; GFX906-NEXT:  ; %bb.1: ; %bb.1
69 ; GFX906-NEXT:    v_lshlrev_b64 v[2:3], 2, v[0:1]
70 ; GFX906-NEXT:    v_mov_b32_e32 v0, s7
71 ; GFX906-NEXT:    v_add_co_u32_e32 v2, vcc, s6, v2
72 ; GFX906-NEXT:    v_addc_co_u32_e32 v3, vcc, v0, v3, vcc
73 ; GFX906-NEXT:    global_load_dword v2, v[2:3], off
74 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
75 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v2
76 ; GFX906-NEXT:    v_lshrrev_b32_e32 v4, 16, v2
77 ; GFX906-NEXT:    v_lshrrev_b32_e32 v5, 8, v2
78 ; GFX906-NEXT:  .LBB1_2: ; %bb.2
79 ; GFX906-NEXT:    s_or_b64 exec, exec, s[0:1]
80 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v5
81 ; GFX906-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
82 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v3
83 ; GFX906-NEXT:    v_or_b32_sdwa v2, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
84 ; GFX906-NEXT:    v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
85 ; GFX906-NEXT:    global_store_dword v1, v0, s[2:3]
86 ; GFX906-NEXT:    s_endpgm
87 entry:
88   %idx = call i32 @llvm.amdgcn.workitem.id.x()
89   %gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
90   %vec1 = load <4 x i8>, ptr addrspace(1) %gep1
91   %gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
92   %vec2 = load <4 x i8>, ptr addrspace(1) %gep2
93   %cmp = icmp ult i32 %idx, 15
94   br i1 %cmp, label %bb.1, label %bb.2
95 bb.1:
96   br label %bb.2
98 bb.2:
99   %tmp5 = phi <4 x i8> [ %vec1, %entry ], [ %vec2, %bb.1 ]
100   store <4 x i8> %tmp5, ptr addrspace(1) %dst, align 4
101   ret void
104 define amdgpu_kernel void @v5i8_liveout(ptr addrspace(1) %src1, ptr addrspace(1) %src2, ptr addrspace(1) nocapture %dst) {
105 ; GFX906-LABEL: v5i8_liveout:
106 ; GFX906:       ; %bb.0: ; %entry
107 ; GFX906-NEXT:    s_load_dwordx4 s[4:7], s[0:1], 0x24
108 ; GFX906-NEXT:    s_load_dwordx2 s[2:3], s[0:1], 0x34
109 ; GFX906-NEXT:    v_lshlrev_b32_e32 v1, 3, v0
110 ; GFX906-NEXT:    v_cmp_gt_u32_e32 vcc, 15, v0
111 ; GFX906-NEXT:    s_waitcnt lgkmcnt(0)
112 ; GFX906-NEXT:    global_load_dwordx2 v[2:3], v1, s[4:5]
113 ; GFX906-NEXT:    v_mov_b32_e32 v1, 0
114 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
115 ; GFX906-NEXT:    v_lshrrev_b64 v[4:5], 24, v[2:3]
116 ; GFX906-NEXT:    v_lshrrev_b32_e32 v5, 16, v2
117 ; GFX906-NEXT:    v_lshrrev_b32_e32 v6, 8, v2
118 ; GFX906-NEXT:    s_and_saveexec_b64 s[0:1], vcc
119 ; GFX906-NEXT:    s_cbranch_execz .LBB2_2
120 ; GFX906-NEXT:  ; %bb.1: ; %bb.1
121 ; GFX906-NEXT:    v_lshlrev_b64 v[2:3], 3, v[0:1]
122 ; GFX906-NEXT:    v_mov_b32_e32 v0, s7
123 ; GFX906-NEXT:    v_add_co_u32_e32 v2, vcc, s6, v2
124 ; GFX906-NEXT:    v_addc_co_u32_e32 v3, vcc, v0, v3, vcc
125 ; GFX906-NEXT:    global_load_dwordx2 v[2:3], v[2:3], off
126 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
127 ; GFX906-NEXT:    v_lshrrev_b64 v[4:5], 24, v[2:3]
128 ; GFX906-NEXT:    v_lshrrev_b32_e32 v5, 16, v2
129 ; GFX906-NEXT:    v_lshrrev_b32_e32 v6, 8, v2
130 ; GFX906-NEXT:  .LBB2_2: ; %bb.2
131 ; GFX906-NEXT:    s_or_b64 exec, exec, s[0:1]
132 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v6
133 ; GFX906-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
134 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v4
135 ; GFX906-NEXT:    v_or_b32_sdwa v2, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
136 ; GFX906-NEXT:    v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
137 ; GFX906-NEXT:    global_store_byte v1, v3, s[2:3] offset:4
138 ; GFX906-NEXT:    global_store_dword v1, v0, s[2:3]
139 ; GFX906-NEXT:    s_endpgm
140 entry:
141   %idx = call i32 @llvm.amdgcn.workitem.id.x()
142   %gep1 = getelementptr <5 x i8>, ptr addrspace(1) %src1, i32 %idx
143   %vec1 = load <5 x i8>, ptr addrspace(1) %gep1
144   %gep2 = getelementptr <5 x i8>, ptr addrspace(1) %src2, i32 %idx
145   %vec2 = load <5 x i8>, ptr addrspace(1) %gep2
146   %cmp = icmp ult i32 %idx, 15
147   br i1 %cmp, label %bb.1, label %bb.2
148 bb.1:
149   br label %bb.2
151 bb.2:
152   %tmp5 = phi <5 x i8> [ %vec1, %entry ], [ %vec2, %bb.1 ]
153   store <5 x i8> %tmp5, ptr addrspace(1) %dst, align 4
154   ret void
157 define amdgpu_kernel void @v8i8_liveout(ptr addrspace(1) %src1, ptr addrspace(1) %src2, ptr addrspace(1) nocapture %dst) {
158 ; GFX906-LABEL: v8i8_liveout:
159 ; GFX906:       ; %bb.0: ; %entry
160 ; GFX906-NEXT:    s_load_dwordx4 s[4:7], s[0:1], 0x24
161 ; GFX906-NEXT:    s_load_dwordx2 s[2:3], s[0:1], 0x34
162 ; GFX906-NEXT:    v_lshlrev_b32_e32 v1, 3, v0
163 ; GFX906-NEXT:    v_cmp_gt_u32_e32 vcc, 15, v0
164 ; GFX906-NEXT:    s_waitcnt lgkmcnt(0)
165 ; GFX906-NEXT:    global_load_dwordx2 v[2:3], v1, s[4:5]
166 ; GFX906-NEXT:    v_mov_b32_e32 v1, 0
167 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
168 ; GFX906-NEXT:    v_lshrrev_b32_e32 v4, 24, v3
169 ; GFX906-NEXT:    v_lshrrev_b32_e32 v5, 16, v3
170 ; GFX906-NEXT:    v_lshrrev_b32_e32 v6, 8, v3
171 ; GFX906-NEXT:    v_lshrrev_b32_e32 v7, 24, v2
172 ; GFX906-NEXT:    v_lshrrev_b32_e32 v8, 16, v2
173 ; GFX906-NEXT:    v_lshrrev_b32_e32 v9, 8, v2
174 ; GFX906-NEXT:    s_and_saveexec_b64 s[0:1], vcc
175 ; GFX906-NEXT:    s_cbranch_execz .LBB3_2
176 ; GFX906-NEXT:  ; %bb.1: ; %bb.1
177 ; GFX906-NEXT:    v_lshlrev_b64 v[2:3], 3, v[0:1]
178 ; GFX906-NEXT:    v_mov_b32_e32 v0, s7
179 ; GFX906-NEXT:    v_add_co_u32_e32 v2, vcc, s6, v2
180 ; GFX906-NEXT:    v_addc_co_u32_e32 v3, vcc, v0, v3, vcc
181 ; GFX906-NEXT:    global_load_dwordx2 v[2:3], v[2:3], off
182 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
183 ; GFX906-NEXT:    v_lshrrev_b32_e32 v4, 24, v3
184 ; GFX906-NEXT:    v_lshrrev_b32_e32 v5, 16, v3
185 ; GFX906-NEXT:    v_lshrrev_b32_e32 v6, 8, v3
186 ; GFX906-NEXT:    v_lshrrev_b32_e32 v7, 24, v2
187 ; GFX906-NEXT:    v_lshrrev_b32_e32 v8, 16, v2
188 ; GFX906-NEXT:    v_lshrrev_b32_e32 v9, 8, v2
189 ; GFX906-NEXT:  .LBB3_2: ; %bb.2
190 ; GFX906-NEXT:    s_or_b64 exec, exec, s[0:1]
191 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v9
192 ; GFX906-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
193 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v7
194 ; GFX906-NEXT:    v_or_b32_sdwa v2, v8, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
195 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
196 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v6
197 ; GFX906-NEXT:    v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
198 ; GFX906-NEXT:    v_lshlrev_b16_e32 v3, 8, v4
199 ; GFX906-NEXT:    v_or_b32_sdwa v3, v5, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
200 ; GFX906-NEXT:    v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
201 ; GFX906-NEXT:    global_store_dwordx2 v1, v[2:3], s[2:3]
202 ; GFX906-NEXT:    s_endpgm
203 entry:
204   %idx = call i32 @llvm.amdgcn.workitem.id.x()
205   %gep1 = getelementptr <8 x i8>, ptr addrspace(1) %src1, i32 %idx
206   %vec1 = load <8 x i8>, ptr addrspace(1) %gep1
207   %gep2 = getelementptr <8 x i8>, ptr addrspace(1) %src2, i32 %idx
208   %vec2 = load <8 x i8>, ptr addrspace(1) %gep2
209   %cmp = icmp ult i32 %idx, 15
210   br i1 %cmp, label %bb.1, label %bb.2
211 bb.1:
212   br label %bb.2
214 bb.2:
215   %tmp5 = phi <8 x i8> [ %vec1, %entry ], [ %vec2, %bb.1 ]
216   store <8 x i8> %tmp5, ptr addrspace(1) %dst, align 4
217   ret void
220 define amdgpu_kernel void @v16i8_liveout(ptr addrspace(1) %src1, ptr addrspace(1) %src2, ptr addrspace(1) nocapture %dst) {
221 ; GFX906-LABEL: v16i8_liveout:
222 ; GFX906:       ; %bb.0: ; %entry
223 ; GFX906-NEXT:    s_load_dwordx4 s[4:7], s[0:1], 0x24
224 ; GFX906-NEXT:    s_load_dwordx2 s[2:3], s[0:1], 0x34
225 ; GFX906-NEXT:    v_lshlrev_b32_e32 v1, 4, v0
226 ; GFX906-NEXT:    v_cmp_gt_u32_e32 vcc, 15, v0
227 ; GFX906-NEXT:    s_waitcnt lgkmcnt(0)
228 ; GFX906-NEXT:    global_load_dwordx4 v[2:5], v1, s[4:5]
229 ; GFX906-NEXT:    v_mov_b32_e32 v1, 0
230 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
231 ; GFX906-NEXT:    v_lshrrev_b32_e32 v6, 24, v5
232 ; GFX906-NEXT:    v_lshrrev_b32_e32 v7, 16, v5
233 ; GFX906-NEXT:    v_lshrrev_b32_e32 v8, 8, v5
234 ; GFX906-NEXT:    v_lshrrev_b32_e32 v9, 24, v4
235 ; GFX906-NEXT:    v_lshrrev_b32_e32 v10, 16, v4
236 ; GFX906-NEXT:    v_lshrrev_b32_e32 v11, 8, v4
237 ; GFX906-NEXT:    v_lshrrev_b32_e32 v12, 24, v3
238 ; GFX906-NEXT:    v_lshrrev_b32_e32 v13, 16, v3
239 ; GFX906-NEXT:    v_lshrrev_b32_e32 v14, 8, v3
240 ; GFX906-NEXT:    v_lshrrev_b32_e32 v15, 24, v2
241 ; GFX906-NEXT:    v_lshrrev_b32_e32 v16, 16, v2
242 ; GFX906-NEXT:    v_lshrrev_b32_e32 v17, 8, v2
243 ; GFX906-NEXT:    s_and_saveexec_b64 s[0:1], vcc
244 ; GFX906-NEXT:    s_cbranch_execz .LBB4_2
245 ; GFX906-NEXT:  ; %bb.1: ; %bb.1
246 ; GFX906-NEXT:    v_lshlrev_b64 v[2:3], 4, v[0:1]
247 ; GFX906-NEXT:    v_mov_b32_e32 v0, s7
248 ; GFX906-NEXT:    v_add_co_u32_e32 v2, vcc, s6, v2
249 ; GFX906-NEXT:    v_addc_co_u32_e32 v3, vcc, v0, v3, vcc
250 ; GFX906-NEXT:    global_load_dwordx4 v[2:5], v[2:3], off
251 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
252 ; GFX906-NEXT:    v_lshrrev_b32_e32 v6, 24, v5
253 ; GFX906-NEXT:    v_lshrrev_b32_e32 v7, 16, v5
254 ; GFX906-NEXT:    v_lshrrev_b32_e32 v8, 8, v5
255 ; GFX906-NEXT:    v_lshrrev_b32_e32 v9, 24, v4
256 ; GFX906-NEXT:    v_lshrrev_b32_e32 v10, 16, v4
257 ; GFX906-NEXT:    v_lshrrev_b32_e32 v11, 8, v4
258 ; GFX906-NEXT:    v_lshrrev_b32_e32 v12, 24, v3
259 ; GFX906-NEXT:    v_lshrrev_b32_e32 v13, 16, v3
260 ; GFX906-NEXT:    v_lshrrev_b32_e32 v14, 8, v3
261 ; GFX906-NEXT:    v_lshrrev_b32_e32 v15, 24, v2
262 ; GFX906-NEXT:    v_lshrrev_b32_e32 v16, 16, v2
263 ; GFX906-NEXT:    v_lshrrev_b32_e32 v17, 8, v2
264 ; GFX906-NEXT:  .LBB4_2: ; %bb.2
265 ; GFX906-NEXT:    s_or_b64 exec, exec, s[0:1]
266 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v17
267 ; GFX906-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
268 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v15
269 ; GFX906-NEXT:    v_or_b32_sdwa v2, v16, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
270 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
271 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v14
272 ; GFX906-NEXT:    v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
273 ; GFX906-NEXT:    v_lshlrev_b16_e32 v3, 8, v12
274 ; GFX906-NEXT:    v_or_b32_sdwa v3, v13, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
275 ; GFX906-NEXT:    v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
276 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v11
277 ; GFX906-NEXT:    v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
278 ; GFX906-NEXT:    v_lshlrev_b16_e32 v4, 8, v9
279 ; GFX906-NEXT:    v_or_b32_sdwa v4, v10, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
280 ; GFX906-NEXT:    v_or_b32_sdwa v4, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
281 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v8
282 ; GFX906-NEXT:    v_or_b32_sdwa v0, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
283 ; GFX906-NEXT:    v_lshlrev_b16_e32 v5, 8, v6
284 ; GFX906-NEXT:    v_or_b32_sdwa v5, v7, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
285 ; GFX906-NEXT:    v_or_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
286 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3]
287 ; GFX906-NEXT:    s_endpgm
288 entry:
289   %idx = call i32 @llvm.amdgcn.workitem.id.x()
290   %gep1 = getelementptr <16 x i8>, ptr addrspace(1) %src1, i32 %idx
291   %vec1 = load <16 x i8>, ptr addrspace(1) %gep1
292   %gep2 = getelementptr <16 x i8>, ptr addrspace(1) %src2, i32 %idx
293   %vec2 = load <16 x i8>, ptr addrspace(1) %gep2
294   %cmp = icmp ult i32 %idx, 15
295   br i1 %cmp, label %bb.1, label %bb.2
296 bb.1:
297   br label %bb.2
299 bb.2:
300   %tmp5 = phi <16 x i8> [ %vec1, %entry ], [ %vec2, %bb.1 ]
301   store <16 x i8> %tmp5, ptr addrspace(1) %dst, align 4
302   ret void
305 define amdgpu_kernel void @v32i8_liveout(ptr addrspace(1) %src1, ptr addrspace(1) %src2, ptr addrspace(1) nocapture %dst) {
306 ; GFX906-LABEL: v32i8_liveout:
307 ; GFX906:       ; %bb.0: ; %entry
308 ; GFX906-NEXT:    s_load_dwordx4 s[4:7], s[0:1], 0x24
309 ; GFX906-NEXT:    v_lshlrev_b32_e32 v1, 5, v0
310 ; GFX906-NEXT:    s_load_dwordx2 s[0:1], s[0:1], 0x34
311 ; GFX906-NEXT:    v_cmp_gt_u32_e32 vcc, 15, v0
312 ; GFX906-NEXT:    s_waitcnt lgkmcnt(0)
313 ; GFX906-NEXT:    global_load_dwordx4 v[2:5], v1, s[4:5] offset:16
314 ; GFX906-NEXT:    global_load_dwordx4 v[6:9], v1, s[4:5]
315 ; GFX906-NEXT:    v_mov_b32_e32 v1, 0
316 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
317 ; GFX906-NEXT:    v_lshrrev_b32_e32 v10, 24, v5
318 ; GFX906-NEXT:    v_lshrrev_b32_e32 v11, 16, v5
319 ; GFX906-NEXT:    v_lshrrev_b32_e32 v12, 8, v5
320 ; GFX906-NEXT:    v_lshrrev_b32_e32 v13, 24, v4
321 ; GFX906-NEXT:    v_lshrrev_b32_e32 v14, 16, v4
322 ; GFX906-NEXT:    v_lshrrev_b32_e32 v15, 8, v4
323 ; GFX906-NEXT:    v_lshrrev_b32_e32 v16, 24, v3
324 ; GFX906-NEXT:    v_lshrrev_b32_e32 v17, 16, v3
325 ; GFX906-NEXT:    v_lshrrev_b32_e32 v18, 8, v3
326 ; GFX906-NEXT:    v_lshrrev_b32_e32 v19, 24, v2
327 ; GFX906-NEXT:    v_lshrrev_b32_e32 v20, 16, v2
328 ; GFX906-NEXT:    v_lshrrev_b32_e32 v21, 8, v2
329 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
330 ; GFX906-NEXT:    v_lshrrev_b32_e32 v22, 24, v9
331 ; GFX906-NEXT:    v_lshrrev_b32_e32 v23, 16, v9
332 ; GFX906-NEXT:    v_lshrrev_b32_e32 v24, 8, v9
333 ; GFX906-NEXT:    v_lshrrev_b32_e32 v25, 24, v8
334 ; GFX906-NEXT:    v_lshrrev_b32_e32 v26, 16, v8
335 ; GFX906-NEXT:    v_lshrrev_b32_e32 v27, 8, v8
336 ; GFX906-NEXT:    v_lshrrev_b32_e32 v28, 24, v7
337 ; GFX906-NEXT:    v_lshrrev_b32_e32 v30, 16, v7
338 ; GFX906-NEXT:    v_lshrrev_b32_e32 v29, 8, v7
339 ; GFX906-NEXT:    v_lshrrev_b32_e32 v32, 24, v6
340 ; GFX906-NEXT:    v_lshrrev_b32_e32 v33, 16, v6
341 ; GFX906-NEXT:    v_lshrrev_b32_e32 v31, 8, v6
342 ; GFX906-NEXT:    s_and_saveexec_b64 s[2:3], vcc
343 ; GFX906-NEXT:    s_cbranch_execz .LBB5_2
344 ; GFX906-NEXT:  ; %bb.1: ; %bb.1
345 ; GFX906-NEXT:    v_lshlrev_b64 v[2:3], 5, v[0:1]
346 ; GFX906-NEXT:    v_mov_b32_e32 v0, s7
347 ; GFX906-NEXT:    v_add_co_u32_e32 v10, vcc, s6, v2
348 ; GFX906-NEXT:    v_addc_co_u32_e32 v11, vcc, v0, v3, vcc
349 ; GFX906-NEXT:    global_load_dwordx4 v[2:5], v[10:11], off offset:16
350 ; GFX906-NEXT:    global_load_dwordx4 v[6:9], v[10:11], off
351 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
352 ; GFX906-NEXT:    v_lshrrev_b32_e32 v10, 24, v5
353 ; GFX906-NEXT:    v_lshrrev_b32_e32 v11, 16, v5
354 ; GFX906-NEXT:    v_lshrrev_b32_e32 v12, 8, v5
355 ; GFX906-NEXT:    v_lshrrev_b32_e32 v13, 24, v4
356 ; GFX906-NEXT:    v_lshrrev_b32_e32 v14, 16, v4
357 ; GFX906-NEXT:    v_lshrrev_b32_e32 v15, 8, v4
358 ; GFX906-NEXT:    v_lshrrev_b32_e32 v16, 24, v3
359 ; GFX906-NEXT:    v_lshrrev_b32_e32 v17, 16, v3
360 ; GFX906-NEXT:    v_lshrrev_b32_e32 v18, 8, v3
361 ; GFX906-NEXT:    v_lshrrev_b32_e32 v19, 24, v2
362 ; GFX906-NEXT:    v_lshrrev_b32_e32 v20, 16, v2
363 ; GFX906-NEXT:    v_lshrrev_b32_e32 v21, 8, v2
364 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
365 ; GFX906-NEXT:    v_lshrrev_b32_e32 v22, 24, v9
366 ; GFX906-NEXT:    v_lshrrev_b32_e32 v23, 16, v9
367 ; GFX906-NEXT:    v_lshrrev_b32_e32 v24, 8, v9
368 ; GFX906-NEXT:    v_lshrrev_b32_e32 v25, 24, v8
369 ; GFX906-NEXT:    v_lshrrev_b32_e32 v26, 16, v8
370 ; GFX906-NEXT:    v_lshrrev_b32_e32 v27, 8, v8
371 ; GFX906-NEXT:    v_lshrrev_b32_e32 v28, 24, v7
372 ; GFX906-NEXT:    v_lshrrev_b32_e32 v30, 16, v7
373 ; GFX906-NEXT:    v_lshrrev_b32_e32 v29, 8, v7
374 ; GFX906-NEXT:    v_lshrrev_b32_e32 v32, 24, v6
375 ; GFX906-NEXT:    v_lshrrev_b32_e32 v33, 16, v6
376 ; GFX906-NEXT:    v_lshrrev_b32_e32 v31, 8, v6
377 ; GFX906-NEXT:  .LBB5_2: ; %bb.2
378 ; GFX906-NEXT:    s_or_b64 exec, exec, s[2:3]
379 ; GFX906-NEXT:    v_lshlrev_b16_e32 v28, 8, v28
380 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v32
381 ; GFX906-NEXT:    v_or_b32_sdwa v28, v30, v28 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
382 ; GFX906-NEXT:    v_lshlrev_b16_e32 v30, 8, v31
383 ; GFX906-NEXT:    v_or_b32_sdwa v0, v33, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
384 ; GFX906-NEXT:    v_or_b32_sdwa v6, v6, v30 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
385 ; GFX906-NEXT:    v_or_b32_sdwa v6, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
386 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v27
387 ; GFX906-NEXT:    v_or_b32_sdwa v0, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
388 ; GFX906-NEXT:    v_lshlrev_b16_e32 v8, 8, v25
389 ; GFX906-NEXT:    v_or_b32_sdwa v8, v26, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
390 ; GFX906-NEXT:    v_or_b32_sdwa v8, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
391 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v24
392 ; GFX906-NEXT:    v_or_b32_sdwa v0, v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
393 ; GFX906-NEXT:    v_lshlrev_b16_e32 v9, 8, v22
394 ; GFX906-NEXT:    v_or_b32_sdwa v9, v23, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
395 ; GFX906-NEXT:    v_or_b32_sdwa v9, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
396 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v21
397 ; GFX906-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
398 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v19
399 ; GFX906-NEXT:    v_or_b32_sdwa v2, v20, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
400 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
401 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v18
402 ; GFX906-NEXT:    v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
403 ; GFX906-NEXT:    v_lshlrev_b16_e32 v3, 8, v16
404 ; GFX906-NEXT:    v_or_b32_sdwa v3, v17, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
405 ; GFX906-NEXT:    v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
406 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v15
407 ; GFX906-NEXT:    v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
408 ; GFX906-NEXT:    v_lshlrev_b16_e32 v4, 8, v13
409 ; GFX906-NEXT:    v_or_b32_sdwa v4, v14, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
410 ; GFX906-NEXT:    v_or_b32_sdwa v4, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
411 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v12
412 ; GFX906-NEXT:    v_lshlrev_b16_e32 v29, 8, v29
413 ; GFX906-NEXT:    v_or_b32_sdwa v0, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
414 ; GFX906-NEXT:    v_lshlrev_b16_e32 v5, 8, v10
415 ; GFX906-NEXT:    v_or_b32_sdwa v7, v7, v29 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
416 ; GFX906-NEXT:    v_or_b32_sdwa v5, v11, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
417 ; GFX906-NEXT:    v_or_b32_sdwa v7, v7, v28 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
418 ; GFX906-NEXT:    v_or_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
419 ; GFX906-NEXT:    global_store_dwordx4 v1, v[6:9], s[0:1]
420 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[0:1] offset:16
421 ; GFX906-NEXT:    s_endpgm
422 entry:
423   %idx = call i32 @llvm.amdgcn.workitem.id.x()
424   %gep1 = getelementptr <32 x i8>, ptr addrspace(1) %src1, i32 %idx
425   %vec1 = load <32 x i8>, ptr addrspace(1) %gep1
426   %gep2 = getelementptr <32 x i8>, ptr addrspace(1) %src2, i32 %idx
427   %vec2 = load <32 x i8>, ptr addrspace(1) %gep2
428   %cmp = icmp ult i32 %idx, 15
429   br i1 %cmp, label %bb.1, label %bb.2
430 bb.1:
431   br label %bb.2
433 bb.2:
434   %tmp5 = phi <32 x i8> [ %vec1, %entry ], [ %vec2, %bb.1 ]
435   store <32 x i8> %tmp5, ptr addrspace(1) %dst, align 4
436   ret void
439 define amdgpu_kernel void @v256i8_liveout(ptr addrspace(1) %src1, ptr addrspace(1) %src2, ptr addrspace(1) nocapture %dst) {
440 ; GFX906-LABEL: v256i8_liveout:
441 ; GFX906:       ; %bb.0: ; %entry
442 ; GFX906-NEXT:    s_mov_b32 s8, SCRATCH_RSRC_DWORD0
443 ; GFX906-NEXT:    s_mov_b32 s9, SCRATCH_RSRC_DWORD1
444 ; GFX906-NEXT:    s_mov_b32 s10, -1
445 ; GFX906-NEXT:    s_mov_b32 s11, 0xe00000
446 ; GFX906-NEXT:    s_add_u32 s8, s8, s3
447 ; GFX906-NEXT:    s_load_dwordx4 s[4:7], s[0:1], 0x24
448 ; GFX906-NEXT:    s_load_dwordx2 s[2:3], s[0:1], 0x34
449 ; GFX906-NEXT:    v_lshlrev_b32_e32 v2, 3, v0
450 ; GFX906-NEXT:    s_addc_u32 s9, s9, 0
451 ; GFX906-NEXT:    s_waitcnt lgkmcnt(0)
452 ; GFX906-NEXT:    global_load_dwordx4 v[18:21], v2, s[4:5] offset:240
453 ; GFX906-NEXT:    global_load_dwordx4 v[6:9], v2, s[4:5] offset:224
454 ; GFX906-NEXT:    global_load_dwordx4 v[10:13], v2, s[4:5] offset:208
455 ; GFX906-NEXT:    global_load_dwordx4 v[14:17], v2, s[4:5] offset:192
456 ; GFX906-NEXT:    v_mov_b32_e32 v1, 0
457 ; GFX906-NEXT:    v_cmp_gt_u32_e32 vcc, 15, v0
458 ; GFX906-NEXT:    s_waitcnt vmcnt(3)
459 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v21
460 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:20 ; 4-byte Folded Spill
461 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v21
462 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:24 ; 4-byte Folded Spill
463 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v21
464 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:28 ; 4-byte Folded Spill
465 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v20
466 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:32 ; 4-byte Folded Spill
467 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v20
468 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:36 ; 4-byte Folded Spill
469 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v20
470 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:40 ; 4-byte Folded Spill
471 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v19
472 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:44 ; 4-byte Folded Spill
473 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v19
474 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:48 ; 4-byte Folded Spill
475 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v19
476 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:52 ; 4-byte Folded Spill
477 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v18
478 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:56 ; 4-byte Folded Spill
479 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v18
480 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:60 ; 4-byte Folded Spill
481 ; GFX906-NEXT:    buffer_store_dword v18, off, s[8:11], 0 offset:4 ; 4-byte Folded Spill
482 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
483 ; GFX906-NEXT:    buffer_store_dword v19, off, s[8:11], 0 offset:8 ; 4-byte Folded Spill
484 ; GFX906-NEXT:    buffer_store_dword v20, off, s[8:11], 0 offset:12 ; 4-byte Folded Spill
485 ; GFX906-NEXT:    buffer_store_dword v21, off, s[8:11], 0 offset:16 ; 4-byte Folded Spill
486 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v18
487 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:64 ; 4-byte Folded Spill
488 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v9
489 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:68 ; 4-byte Folded Spill
490 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v9
491 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:72 ; 4-byte Folded Spill
492 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v9
493 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:76 ; 4-byte Folded Spill
494 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v8
495 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:80 ; 4-byte Folded Spill
496 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v8
497 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:84 ; 4-byte Folded Spill
498 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v8
499 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:88 ; 4-byte Folded Spill
500 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v7
501 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:92 ; 4-byte Folded Spill
502 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v7
503 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:96 ; 4-byte Folded Spill
504 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v7
505 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:100 ; 4-byte Folded Spill
506 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v6
507 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:104 ; 4-byte Folded Spill
508 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v6
509 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:108 ; 4-byte Folded Spill
510 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v6
511 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:112 ; 4-byte Folded Spill
512 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v13
513 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:116 ; 4-byte Folded Spill
514 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v13
515 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:120 ; 4-byte Folded Spill
516 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v13
517 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:124 ; 4-byte Folded Spill
518 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v12
519 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:128 ; 4-byte Folded Spill
520 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v12
521 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:132 ; 4-byte Folded Spill
522 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v12
523 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:136 ; 4-byte Folded Spill
524 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v11
525 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:140 ; 4-byte Folded Spill
526 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v11
527 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:144 ; 4-byte Folded Spill
528 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v11
529 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:148 ; 4-byte Folded Spill
530 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v10
531 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:152 ; 4-byte Folded Spill
532 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v10
533 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:156 ; 4-byte Folded Spill
534 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v10
535 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:160 ; 4-byte Folded Spill
536 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v17
537 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:164 ; 4-byte Folded Spill
538 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v17
539 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:168 ; 4-byte Folded Spill
540 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v17
541 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:180 ; 4-byte Folded Spill
542 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v16
543 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:172 ; 4-byte Folded Spill
544 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v16
545 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:176 ; 4-byte Folded Spill
546 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v16
547 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:192 ; 4-byte Folded Spill
548 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v15
549 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:184 ; 4-byte Folded Spill
550 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v15
551 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:188 ; 4-byte Folded Spill
552 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v15
553 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:204 ; 4-byte Folded Spill
554 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v14
555 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:196 ; 4-byte Folded Spill
556 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v14
557 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:200 ; 4-byte Folded Spill
558 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v14
559 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:208 ; 4-byte Folded Spill
560 ; GFX906-NEXT:    global_load_dwordx4 v[18:21], v2, s[4:5] offset:176
561 ; GFX906-NEXT:    global_load_dwordx4 v[22:25], v2, s[4:5] offset:160
562 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
563 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v21
564 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:212 ; 4-byte Folded Spill
565 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v21
566 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:216 ; 4-byte Folded Spill
567 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v21
568 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:228 ; 4-byte Folded Spill
569 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v20
570 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:220 ; 4-byte Folded Spill
571 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v20
572 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:224 ; 4-byte Folded Spill
573 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v20
574 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:240 ; 4-byte Folded Spill
575 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v19
576 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:232 ; 4-byte Folded Spill
577 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v19
578 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:236 ; 4-byte Folded Spill
579 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v19
580 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:252 ; 4-byte Folded Spill
581 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v18
582 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:244 ; 4-byte Folded Spill
583 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v18
584 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:248 ; 4-byte Folded Spill
585 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v18
586 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:256 ; 4-byte Folded Spill
587 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
588 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v25
589 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:260 ; 4-byte Folded Spill
590 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v25
591 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:264 ; 4-byte Folded Spill
592 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v25
593 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:276 ; 4-byte Folded Spill
594 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v24
595 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:268 ; 4-byte Folded Spill
596 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v24
597 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:272 ; 4-byte Folded Spill
598 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v24
599 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:288 ; 4-byte Folded Spill
600 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v23
601 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:280 ; 4-byte Folded Spill
602 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v23
603 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:284 ; 4-byte Folded Spill
604 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v23
605 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:300 ; 4-byte Folded Spill
606 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v22
607 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:292 ; 4-byte Folded Spill
608 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v22
609 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:296 ; 4-byte Folded Spill
610 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v22
611 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:304 ; 4-byte Folded Spill
612 ; GFX906-NEXT:    global_load_dwordx4 v[26:29], v2, s[4:5] offset:144
613 ; GFX906-NEXT:    global_load_dwordx4 v[30:33], v2, s[4:5] offset:128
614 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
615 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v29
616 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:308 ; 4-byte Folded Spill
617 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v29
618 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:312 ; 4-byte Folded Spill
619 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v29
620 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:324 ; 4-byte Folded Spill
621 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v28
622 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:316 ; 4-byte Folded Spill
623 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v28
624 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:320 ; 4-byte Folded Spill
625 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v28
626 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:336 ; 4-byte Folded Spill
627 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v27
628 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:328 ; 4-byte Folded Spill
629 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v27
630 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:332 ; 4-byte Folded Spill
631 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v27
632 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:348 ; 4-byte Folded Spill
633 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v26
634 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:340 ; 4-byte Folded Spill
635 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v26
636 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:344 ; 4-byte Folded Spill
637 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v26
638 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:352 ; 4-byte Folded Spill
639 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
640 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v33
641 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:356 ; 4-byte Folded Spill
642 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v33
643 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:360 ; 4-byte Folded Spill
644 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v33
645 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:372 ; 4-byte Folded Spill
646 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v32
647 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:364 ; 4-byte Folded Spill
648 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v32
649 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:368 ; 4-byte Folded Spill
650 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v32
651 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:384 ; 4-byte Folded Spill
652 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v31
653 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:376 ; 4-byte Folded Spill
654 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v31
655 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:380 ; 4-byte Folded Spill
656 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v31
657 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:396 ; 4-byte Folded Spill
658 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v30
659 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:388 ; 4-byte Folded Spill
660 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v30
661 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:392 ; 4-byte Folded Spill
662 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v30
663 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:400 ; 4-byte Folded Spill
664 ; GFX906-NEXT:    global_load_dwordx4 v[34:37], v2, s[4:5] offset:112
665 ; GFX906-NEXT:    global_load_dwordx4 v[38:41], v2, s[4:5] offset:96
666 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
667 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v37
668 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:404 ; 4-byte Folded Spill
669 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v37
670 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:408 ; 4-byte Folded Spill
671 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v37
672 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:420 ; 4-byte Folded Spill
673 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v36
674 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:412 ; 4-byte Folded Spill
675 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v36
676 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:416 ; 4-byte Folded Spill
677 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v36
678 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:432 ; 4-byte Folded Spill
679 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v35
680 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:424 ; 4-byte Folded Spill
681 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v35
682 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:428 ; 4-byte Folded Spill
683 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v35
684 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:444 ; 4-byte Folded Spill
685 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v34
686 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:436 ; 4-byte Folded Spill
687 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v34
688 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:440 ; 4-byte Folded Spill
689 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v34
690 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:448 ; 4-byte Folded Spill
691 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
692 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v41
693 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:452 ; 4-byte Folded Spill
694 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v41
695 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:456 ; 4-byte Folded Spill
696 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v41
697 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:468 ; 4-byte Folded Spill
698 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v40
699 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:460 ; 4-byte Folded Spill
700 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v40
701 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:464 ; 4-byte Folded Spill
702 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v40
703 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:480 ; 4-byte Folded Spill
704 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v39
705 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:472 ; 4-byte Folded Spill
706 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v39
707 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:476 ; 4-byte Folded Spill
708 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v39
709 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:492 ; 4-byte Folded Spill
710 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v38
711 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:484 ; 4-byte Folded Spill
712 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v38
713 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:488 ; 4-byte Folded Spill
714 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v38
715 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:496 ; 4-byte Folded Spill
716 ; GFX906-NEXT:    global_load_dwordx4 v[42:45], v2, s[4:5] offset:80
717 ; GFX906-NEXT:    global_load_dwordx4 v[46:49], v2, s[4:5] offset:64
718 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
719 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v45
720 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:500 ; 4-byte Folded Spill
721 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v45
722 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:504 ; 4-byte Folded Spill
723 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v45
724 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:516 ; 4-byte Folded Spill
725 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v44
726 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:508 ; 4-byte Folded Spill
727 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v44
728 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:512 ; 4-byte Folded Spill
729 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v44
730 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:528 ; 4-byte Folded Spill
731 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v43
732 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:520 ; 4-byte Folded Spill
733 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v43
734 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:524 ; 4-byte Folded Spill
735 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v43
736 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:540 ; 4-byte Folded Spill
737 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v42
738 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:532 ; 4-byte Folded Spill
739 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v42
740 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:536 ; 4-byte Folded Spill
741 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v42
742 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:544 ; 4-byte Folded Spill
743 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
744 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v49
745 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:548 ; 4-byte Folded Spill
746 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v49
747 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:552 ; 4-byte Folded Spill
748 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v49
749 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:564 ; 4-byte Folded Spill
750 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v48
751 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:556 ; 4-byte Folded Spill
752 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v48
753 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:560 ; 4-byte Folded Spill
754 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v48
755 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:576 ; 4-byte Folded Spill
756 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v47
757 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:568 ; 4-byte Folded Spill
758 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v47
759 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:572 ; 4-byte Folded Spill
760 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v47
761 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:588 ; 4-byte Folded Spill
762 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v46
763 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:580 ; 4-byte Folded Spill
764 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v46
765 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:584 ; 4-byte Folded Spill
766 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v46
767 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:592 ; 4-byte Folded Spill
768 ; GFX906-NEXT:    global_load_dwordx4 v[50:53], v2, s[4:5] offset:48
769 ; GFX906-NEXT:    global_load_dwordx4 v[54:57], v2, s[4:5] offset:32
770 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
771 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v53
772 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:596 ; 4-byte Folded Spill
773 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v53
774 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:600 ; 4-byte Folded Spill
775 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v53
776 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:612 ; 4-byte Folded Spill
777 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v52
778 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:604 ; 4-byte Folded Spill
779 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v52
780 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:608 ; 4-byte Folded Spill
781 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v52
782 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:624 ; 4-byte Folded Spill
783 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v51
784 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:616 ; 4-byte Folded Spill
785 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v51
786 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:620 ; 4-byte Folded Spill
787 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v51
788 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:636 ; 4-byte Folded Spill
789 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v50
790 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:628 ; 4-byte Folded Spill
791 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v50
792 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:632 ; 4-byte Folded Spill
793 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v50
794 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:640 ; 4-byte Folded Spill
795 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
796 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v57
797 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:644 ; 4-byte Folded Spill
798 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v57
799 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:648 ; 4-byte Folded Spill
800 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v57
801 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:660 ; 4-byte Folded Spill
802 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v56
803 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:652 ; 4-byte Folded Spill
804 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v56
805 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:656 ; 4-byte Folded Spill
806 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v56
807 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:672 ; 4-byte Folded Spill
808 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v55
809 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:664 ; 4-byte Folded Spill
810 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v55
811 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:668 ; 4-byte Folded Spill
812 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v55
813 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:684 ; 4-byte Folded Spill
814 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 24, v54
815 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:676 ; 4-byte Folded Spill
816 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 16, v54
817 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:680 ; 4-byte Folded Spill
818 ; GFX906-NEXT:    v_lshrrev_b32_e32 v3, 8, v54
819 ; GFX906-NEXT:    buffer_store_dword v3, off, s[8:11], 0 offset:688 ; 4-byte Folded Spill
820 ; GFX906-NEXT:    global_load_dwordx4 v[58:61], v2, s[4:5] offset:16
821 ; GFX906-NEXT:    s_nop 0
822 ; GFX906-NEXT:    global_load_dwordx4 v[2:5], v2, s[4:5]
823 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
824 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 24, v61
825 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:692 ; 4-byte Folded Spill
826 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 16, v61
827 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:696 ; 4-byte Folded Spill
828 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 8, v61
829 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:708 ; 4-byte Folded Spill
830 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 24, v60
831 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:700 ; 4-byte Folded Spill
832 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 16, v60
833 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:704 ; 4-byte Folded Spill
834 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 8, v60
835 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:720 ; 4-byte Folded Spill
836 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 24, v59
837 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:712 ; 4-byte Folded Spill
838 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 16, v59
839 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:716 ; 4-byte Folded Spill
840 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 8, v59
841 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:732 ; 4-byte Folded Spill
842 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 24, v58
843 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:724 ; 4-byte Folded Spill
844 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 16, v58
845 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:728 ; 4-byte Folded Spill
846 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 8, v58
847 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:736 ; 4-byte Folded Spill
848 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
849 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 24, v5
850 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:740 ; 4-byte Folded Spill
851 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 16, v5
852 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:744 ; 4-byte Folded Spill
853 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 8, v5
854 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:756 ; 4-byte Folded Spill
855 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 24, v4
856 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:748 ; 4-byte Folded Spill
857 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 16, v4
858 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:752 ; 4-byte Folded Spill
859 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 8, v4
860 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:768 ; 4-byte Folded Spill
861 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 24, v3
862 ; GFX906-NEXT:    v_lshrrev_b32_e32 v63, 24, v2
863 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:760 ; 4-byte Folded Spill
864 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 16, v3
865 ; GFX906-NEXT:    buffer_store_dword v63, off, s[8:11], 0 offset:772 ; 4-byte Folded Spill
866 ; GFX906-NEXT:    v_lshrrev_b32_e32 v63, 16, v2
867 ; GFX906-NEXT:    buffer_store_dword v62, off, s[8:11], 0 offset:764 ; 4-byte Folded Spill
868 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 8, v3
869 ; GFX906-NEXT:    buffer_store_dword v63, off, s[8:11], 0 offset:776 ; 4-byte Folded Spill
870 ; GFX906-NEXT:    v_lshrrev_b32_e32 v63, 8, v2
871 ; GFX906-NEXT:    s_and_saveexec_b64 s[0:1], vcc
872 ; GFX906-NEXT:    s_cbranch_execz .LBB6_2
873 ; GFX906-NEXT:  ; %bb.1: ; %bb.1
874 ; GFX906-NEXT:    v_lshlrev_b64 v[2:3], 3, v[0:1]
875 ; GFX906-NEXT:    v_mov_b32_e32 v0, s7
876 ; GFX906-NEXT:    v_add_co_u32_e32 v2, vcc, s6, v2
877 ; GFX906-NEXT:    v_addc_co_u32_e32 v3, vcc, v0, v3, vcc
878 ; GFX906-NEXT:    global_load_dwordx4 v[18:21], v[2:3], off offset:240
879 ; GFX906-NEXT:    global_load_dwordx4 v[6:9], v[2:3], off offset:224
880 ; GFX906-NEXT:    global_load_dwordx4 v[10:13], v[2:3], off offset:208
881 ; GFX906-NEXT:    global_load_dwordx4 v[14:17], v[2:3], off offset:192
882 ; GFX906-NEXT:    s_waitcnt vmcnt(3)
883 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v21
884 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:20 ; 4-byte Folded Spill
885 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v21
886 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:24 ; 4-byte Folded Spill
887 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v21
888 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:28 ; 4-byte Folded Spill
889 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v20
890 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:32 ; 4-byte Folded Spill
891 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v20
892 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:36 ; 4-byte Folded Spill
893 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v20
894 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:40 ; 4-byte Folded Spill
895 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v19
896 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:44 ; 4-byte Folded Spill
897 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v19
898 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:48 ; 4-byte Folded Spill
899 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v19
900 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:52 ; 4-byte Folded Spill
901 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v18
902 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:56 ; 4-byte Folded Spill
903 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v18
904 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:60 ; 4-byte Folded Spill
905 ; GFX906-NEXT:    buffer_store_dword v18, off, s[8:11], 0 offset:4 ; 4-byte Folded Spill
906 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
907 ; GFX906-NEXT:    buffer_store_dword v19, off, s[8:11], 0 offset:8 ; 4-byte Folded Spill
908 ; GFX906-NEXT:    buffer_store_dword v20, off, s[8:11], 0 offset:12 ; 4-byte Folded Spill
909 ; GFX906-NEXT:    buffer_store_dword v21, off, s[8:11], 0 offset:16 ; 4-byte Folded Spill
910 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v18
911 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:64 ; 4-byte Folded Spill
912 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v9
913 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:68 ; 4-byte Folded Spill
914 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v9
915 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:72 ; 4-byte Folded Spill
916 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v9
917 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:76 ; 4-byte Folded Spill
918 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v8
919 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:80 ; 4-byte Folded Spill
920 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v8
921 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:84 ; 4-byte Folded Spill
922 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v8
923 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:88 ; 4-byte Folded Spill
924 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v7
925 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:92 ; 4-byte Folded Spill
926 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v7
927 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:96 ; 4-byte Folded Spill
928 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v7
929 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:100 ; 4-byte Folded Spill
930 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v6
931 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:104 ; 4-byte Folded Spill
932 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v6
933 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:108 ; 4-byte Folded Spill
934 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v6
935 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:112 ; 4-byte Folded Spill
936 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v13
937 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:116 ; 4-byte Folded Spill
938 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v13
939 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:120 ; 4-byte Folded Spill
940 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v13
941 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:124 ; 4-byte Folded Spill
942 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v12
943 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:128 ; 4-byte Folded Spill
944 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v12
945 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:132 ; 4-byte Folded Spill
946 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v12
947 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:136 ; 4-byte Folded Spill
948 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v11
949 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:140 ; 4-byte Folded Spill
950 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v11
951 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:144 ; 4-byte Folded Spill
952 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v11
953 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:148 ; 4-byte Folded Spill
954 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v10
955 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:152 ; 4-byte Folded Spill
956 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v10
957 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:156 ; 4-byte Folded Spill
958 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v10
959 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:160 ; 4-byte Folded Spill
960 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v17
961 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:164 ; 4-byte Folded Spill
962 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v17
963 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:168 ; 4-byte Folded Spill
964 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v17
965 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:180 ; 4-byte Folded Spill
966 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v16
967 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:172 ; 4-byte Folded Spill
968 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v16
969 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:176 ; 4-byte Folded Spill
970 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v16
971 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:192 ; 4-byte Folded Spill
972 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v15
973 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:184 ; 4-byte Folded Spill
974 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v15
975 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:188 ; 4-byte Folded Spill
976 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v15
977 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:204 ; 4-byte Folded Spill
978 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v14
979 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:196 ; 4-byte Folded Spill
980 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v14
981 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:200 ; 4-byte Folded Spill
982 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v14
983 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:208 ; 4-byte Folded Spill
984 ; GFX906-NEXT:    global_load_dwordx4 v[18:21], v[2:3], off offset:176
985 ; GFX906-NEXT:    global_load_dwordx4 v[22:25], v[2:3], off offset:160
986 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
987 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v21
988 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:212 ; 4-byte Folded Spill
989 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v21
990 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:216 ; 4-byte Folded Spill
991 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v21
992 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:228 ; 4-byte Folded Spill
993 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v20
994 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:220 ; 4-byte Folded Spill
995 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v20
996 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:224 ; 4-byte Folded Spill
997 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v20
998 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:240 ; 4-byte Folded Spill
999 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v19
1000 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:232 ; 4-byte Folded Spill
1001 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v19
1002 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:236 ; 4-byte Folded Spill
1003 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v19
1004 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:252 ; 4-byte Folded Spill
1005 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v18
1006 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:244 ; 4-byte Folded Spill
1007 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v18
1008 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:248 ; 4-byte Folded Spill
1009 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v18
1010 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:256 ; 4-byte Folded Spill
1011 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
1012 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v25
1013 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:260 ; 4-byte Folded Spill
1014 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v25
1015 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:264 ; 4-byte Folded Spill
1016 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v25
1017 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:276 ; 4-byte Folded Spill
1018 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v24
1019 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:268 ; 4-byte Folded Spill
1020 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v24
1021 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:272 ; 4-byte Folded Spill
1022 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v24
1023 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:288 ; 4-byte Folded Spill
1024 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v23
1025 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:280 ; 4-byte Folded Spill
1026 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v23
1027 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:284 ; 4-byte Folded Spill
1028 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v23
1029 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:300 ; 4-byte Folded Spill
1030 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v22
1031 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:292 ; 4-byte Folded Spill
1032 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v22
1033 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:296 ; 4-byte Folded Spill
1034 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v22
1035 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:304 ; 4-byte Folded Spill
1036 ; GFX906-NEXT:    global_load_dwordx4 v[26:29], v[2:3], off offset:144
1037 ; GFX906-NEXT:    global_load_dwordx4 v[30:33], v[2:3], off offset:128
1038 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1039 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v29
1040 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:308 ; 4-byte Folded Spill
1041 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v29
1042 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:312 ; 4-byte Folded Spill
1043 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v29
1044 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:324 ; 4-byte Folded Spill
1045 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v28
1046 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:316 ; 4-byte Folded Spill
1047 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v28
1048 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:320 ; 4-byte Folded Spill
1049 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v28
1050 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:336 ; 4-byte Folded Spill
1051 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v27
1052 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:328 ; 4-byte Folded Spill
1053 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v27
1054 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:332 ; 4-byte Folded Spill
1055 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v27
1056 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:348 ; 4-byte Folded Spill
1057 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v26
1058 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:340 ; 4-byte Folded Spill
1059 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v26
1060 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:344 ; 4-byte Folded Spill
1061 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v26
1062 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:352 ; 4-byte Folded Spill
1063 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
1064 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v33
1065 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:356 ; 4-byte Folded Spill
1066 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v33
1067 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:360 ; 4-byte Folded Spill
1068 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v33
1069 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:372 ; 4-byte Folded Spill
1070 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v32
1071 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:364 ; 4-byte Folded Spill
1072 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v32
1073 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:368 ; 4-byte Folded Spill
1074 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v32
1075 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:384 ; 4-byte Folded Spill
1076 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v31
1077 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:376 ; 4-byte Folded Spill
1078 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v31
1079 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:380 ; 4-byte Folded Spill
1080 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v31
1081 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:396 ; 4-byte Folded Spill
1082 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v30
1083 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:388 ; 4-byte Folded Spill
1084 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v30
1085 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:392 ; 4-byte Folded Spill
1086 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v30
1087 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:400 ; 4-byte Folded Spill
1088 ; GFX906-NEXT:    global_load_dwordx4 v[34:37], v[2:3], off offset:112
1089 ; GFX906-NEXT:    global_load_dwordx4 v[38:41], v[2:3], off offset:96
1090 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1091 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v37
1092 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:404 ; 4-byte Folded Spill
1093 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v37
1094 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:408 ; 4-byte Folded Spill
1095 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v37
1096 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:420 ; 4-byte Folded Spill
1097 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v36
1098 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:412 ; 4-byte Folded Spill
1099 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v36
1100 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:416 ; 4-byte Folded Spill
1101 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v36
1102 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:432 ; 4-byte Folded Spill
1103 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v35
1104 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:424 ; 4-byte Folded Spill
1105 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v35
1106 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:428 ; 4-byte Folded Spill
1107 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v35
1108 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:444 ; 4-byte Folded Spill
1109 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v34
1110 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:436 ; 4-byte Folded Spill
1111 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v34
1112 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:440 ; 4-byte Folded Spill
1113 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v34
1114 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:448 ; 4-byte Folded Spill
1115 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
1116 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v41
1117 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:452 ; 4-byte Folded Spill
1118 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v41
1119 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:456 ; 4-byte Folded Spill
1120 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v41
1121 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:468 ; 4-byte Folded Spill
1122 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v40
1123 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:460 ; 4-byte Folded Spill
1124 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v40
1125 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:464 ; 4-byte Folded Spill
1126 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v40
1127 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:480 ; 4-byte Folded Spill
1128 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v39
1129 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:472 ; 4-byte Folded Spill
1130 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v39
1131 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:476 ; 4-byte Folded Spill
1132 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v39
1133 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:492 ; 4-byte Folded Spill
1134 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v38
1135 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:484 ; 4-byte Folded Spill
1136 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v38
1137 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:488 ; 4-byte Folded Spill
1138 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v38
1139 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:496 ; 4-byte Folded Spill
1140 ; GFX906-NEXT:    global_load_dwordx4 v[42:45], v[2:3], off offset:80
1141 ; GFX906-NEXT:    global_load_dwordx4 v[46:49], v[2:3], off offset:64
1142 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1143 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v45
1144 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:500 ; 4-byte Folded Spill
1145 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v45
1146 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:504 ; 4-byte Folded Spill
1147 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v45
1148 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:516 ; 4-byte Folded Spill
1149 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v44
1150 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:508 ; 4-byte Folded Spill
1151 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v44
1152 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:512 ; 4-byte Folded Spill
1153 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v44
1154 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:528 ; 4-byte Folded Spill
1155 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v43
1156 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:520 ; 4-byte Folded Spill
1157 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v43
1158 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:524 ; 4-byte Folded Spill
1159 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v43
1160 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:540 ; 4-byte Folded Spill
1161 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v42
1162 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:532 ; 4-byte Folded Spill
1163 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v42
1164 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:536 ; 4-byte Folded Spill
1165 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v42
1166 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:544 ; 4-byte Folded Spill
1167 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
1168 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v49
1169 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:548 ; 4-byte Folded Spill
1170 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v49
1171 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:552 ; 4-byte Folded Spill
1172 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v49
1173 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:564 ; 4-byte Folded Spill
1174 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v48
1175 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:556 ; 4-byte Folded Spill
1176 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v48
1177 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:560 ; 4-byte Folded Spill
1178 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v48
1179 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:576 ; 4-byte Folded Spill
1180 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v47
1181 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:568 ; 4-byte Folded Spill
1182 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v47
1183 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:572 ; 4-byte Folded Spill
1184 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v47
1185 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:588 ; 4-byte Folded Spill
1186 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v46
1187 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:580 ; 4-byte Folded Spill
1188 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v46
1189 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:584 ; 4-byte Folded Spill
1190 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v46
1191 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:592 ; 4-byte Folded Spill
1192 ; GFX906-NEXT:    global_load_dwordx4 v[50:53], v[2:3], off offset:48
1193 ; GFX906-NEXT:    global_load_dwordx4 v[54:57], v[2:3], off offset:32
1194 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1195 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v53
1196 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:596 ; 4-byte Folded Spill
1197 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v53
1198 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:600 ; 4-byte Folded Spill
1199 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v53
1200 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:612 ; 4-byte Folded Spill
1201 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v52
1202 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:604 ; 4-byte Folded Spill
1203 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v52
1204 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:608 ; 4-byte Folded Spill
1205 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v52
1206 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:624 ; 4-byte Folded Spill
1207 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v51
1208 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:616 ; 4-byte Folded Spill
1209 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v51
1210 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:620 ; 4-byte Folded Spill
1211 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v51
1212 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:636 ; 4-byte Folded Spill
1213 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v50
1214 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:628 ; 4-byte Folded Spill
1215 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v50
1216 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:632 ; 4-byte Folded Spill
1217 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v50
1218 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:640 ; 4-byte Folded Spill
1219 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
1220 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v57
1221 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:644 ; 4-byte Folded Spill
1222 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v57
1223 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:648 ; 4-byte Folded Spill
1224 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v57
1225 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:660 ; 4-byte Folded Spill
1226 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v56
1227 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:652 ; 4-byte Folded Spill
1228 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v56
1229 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:656 ; 4-byte Folded Spill
1230 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v56
1231 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:672 ; 4-byte Folded Spill
1232 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v55
1233 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:664 ; 4-byte Folded Spill
1234 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v55
1235 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:668 ; 4-byte Folded Spill
1236 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v55
1237 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:684 ; 4-byte Folded Spill
1238 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v54
1239 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:676 ; 4-byte Folded Spill
1240 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v54
1241 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:680 ; 4-byte Folded Spill
1242 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v54
1243 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:688 ; 4-byte Folded Spill
1244 ; GFX906-NEXT:    global_load_dwordx4 v[58:61], v[2:3], off offset:16
1245 ; GFX906-NEXT:    s_nop 0
1246 ; GFX906-NEXT:    global_load_dwordx4 v[2:5], v[2:3], off
1247 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1248 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v61
1249 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:692 ; 4-byte Folded Spill
1250 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v61
1251 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:696 ; 4-byte Folded Spill
1252 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v61
1253 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:708 ; 4-byte Folded Spill
1254 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v60
1255 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:700 ; 4-byte Folded Spill
1256 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v60
1257 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:704 ; 4-byte Folded Spill
1258 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v60
1259 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:720 ; 4-byte Folded Spill
1260 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v59
1261 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:712 ; 4-byte Folded Spill
1262 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v59
1263 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:716 ; 4-byte Folded Spill
1264 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v59
1265 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:732 ; 4-byte Folded Spill
1266 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v58
1267 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:724 ; 4-byte Folded Spill
1268 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v58
1269 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:728 ; 4-byte Folded Spill
1270 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v58
1271 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:736 ; 4-byte Folded Spill
1272 ; GFX906-NEXT:    s_waitcnt vmcnt(12)
1273 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v5
1274 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:740 ; 4-byte Folded Spill
1275 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v5
1276 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:744 ; 4-byte Folded Spill
1277 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v5
1278 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:756 ; 4-byte Folded Spill
1279 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v4
1280 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:748 ; 4-byte Folded Spill
1281 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v4
1282 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:752 ; 4-byte Folded Spill
1283 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 8, v4
1284 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:768 ; 4-byte Folded Spill
1285 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v3
1286 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:760 ; 4-byte Folded Spill
1287 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v3
1288 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:764 ; 4-byte Folded Spill
1289 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 24, v2
1290 ; GFX906-NEXT:    v_lshrrev_b32_e32 v62, 8, v3
1291 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:772 ; 4-byte Folded Spill
1292 ; GFX906-NEXT:    v_lshrrev_b32_e32 v0, 16, v2
1293 ; GFX906-NEXT:    v_lshrrev_b32_e32 v63, 8, v2
1294 ; GFX906-NEXT:    buffer_store_dword v0, off, s[8:11], 0 offset:776 ; 4-byte Folded Spill
1295 ; GFX906-NEXT:  .LBB6_2: ; %bb.2
1296 ; GFX906-NEXT:    s_or_b64 exec, exec, s[0:1]
1297 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v63
1298 ; GFX906-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1299 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v62
1300 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1301 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:768 ; 4-byte Folded Reload
1302 ; GFX906-NEXT:    buffer_load_dword v62, off, s[8:11], 0 offset:776 ; 4-byte Folded Reload
1303 ; GFX906-NEXT:    buffer_load_dword v63, off, s[8:11], 0 offset:764 ; 4-byte Folded Reload
1304 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1305 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1306 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1307 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:756 ; 4-byte Folded Reload
1308 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1309 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1310 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1311 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:772 ; 4-byte Folded Reload
1312 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1313 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1314 ; GFX906-NEXT:    v_or_b32_sdwa v2, v62, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1315 ; GFX906-NEXT:    buffer_load_dword v62, off, s[8:11], 0 offset:760 ; 4-byte Folded Reload
1316 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1317 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:748 ; 4-byte Folded Reload
1318 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1319 ; GFX906-NEXT:    v_lshlrev_b16_e32 v62, 8, v62
1320 ; GFX906-NEXT:    v_or_b32_sdwa v62, v63, v62 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1321 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v62 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1322 ; GFX906-NEXT:    buffer_load_dword v62, off, s[8:11], 0 offset:752 ; 4-byte Folded Reload
1323 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1324 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1325 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1326 ; GFX906-NEXT:    v_or_b32_sdwa v0, v62, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1327 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1328 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:740 ; 4-byte Folded Reload
1329 ; GFX906-NEXT:    buffer_load_dword v62, off, s[8:11], 0 offset:744 ; 4-byte Folded Reload
1330 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1331 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1332 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1333 ; GFX906-NEXT:    v_or_b32_sdwa v0, v62, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1334 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1335 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3]
1336 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:732 ; 4-byte Folded Reload
1337 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1338 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1339 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:736 ; 4-byte Folded Reload
1340 ; GFX906-NEXT:    v_or_b32_sdwa v3, v59, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1341 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:720 ; 4-byte Folded Reload
1342 ; GFX906-NEXT:    buffer_load_dword v59, off, s[8:11], 0 offset:716 ; 4-byte Folded Reload
1343 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1344 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1345 ; GFX906-NEXT:    v_or_b32_sdwa v0, v58, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1346 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1347 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1348 ; GFX906-NEXT:    v_or_b32_sdwa v4, v60, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1349 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:708 ; 4-byte Folded Reload
1350 ; GFX906-NEXT:    buffer_load_dword v58, off, s[8:11], 0 offset:728 ; 4-byte Folded Reload
1351 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1352 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1353 ; GFX906-NEXT:    v_or_b32_sdwa v5, v61, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1354 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:724 ; 4-byte Folded Reload
1355 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1356 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1357 ; GFX906-NEXT:    v_or_b32_sdwa v2, v58, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1358 ; GFX906-NEXT:    buffer_load_dword v58, off, s[8:11], 0 offset:712 ; 4-byte Folded Reload
1359 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1360 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:700 ; 4-byte Folded Reload
1361 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1362 ; GFX906-NEXT:    v_lshlrev_b16_e32 v58, 8, v58
1363 ; GFX906-NEXT:    v_or_b32_sdwa v58, v59, v58 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1364 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v58 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1365 ; GFX906-NEXT:    buffer_load_dword v58, off, s[8:11], 0 offset:704 ; 4-byte Folded Reload
1366 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1367 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1368 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1369 ; GFX906-NEXT:    v_or_b32_sdwa v0, v58, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1370 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1371 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:692 ; 4-byte Folded Reload
1372 ; GFX906-NEXT:    buffer_load_dword v58, off, s[8:11], 0 offset:696 ; 4-byte Folded Reload
1373 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1374 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1375 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1376 ; GFX906-NEXT:    v_or_b32_sdwa v0, v58, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1377 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1378 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:16
1379 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:684 ; 4-byte Folded Reload
1380 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1381 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1382 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:688 ; 4-byte Folded Reload
1383 ; GFX906-NEXT:    v_or_b32_sdwa v3, v55, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1384 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:672 ; 4-byte Folded Reload
1385 ; GFX906-NEXT:    buffer_load_dword v55, off, s[8:11], 0 offset:668 ; 4-byte Folded Reload
1386 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1387 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1388 ; GFX906-NEXT:    v_or_b32_sdwa v0, v54, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1389 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1390 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1391 ; GFX906-NEXT:    v_or_b32_sdwa v4, v56, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1392 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:660 ; 4-byte Folded Reload
1393 ; GFX906-NEXT:    buffer_load_dword v54, off, s[8:11], 0 offset:680 ; 4-byte Folded Reload
1394 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1395 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1396 ; GFX906-NEXT:    v_or_b32_sdwa v5, v57, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1397 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:676 ; 4-byte Folded Reload
1398 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1399 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1400 ; GFX906-NEXT:    v_or_b32_sdwa v2, v54, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1401 ; GFX906-NEXT:    buffer_load_dword v54, off, s[8:11], 0 offset:664 ; 4-byte Folded Reload
1402 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1403 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:652 ; 4-byte Folded Reload
1404 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1405 ; GFX906-NEXT:    v_lshlrev_b16_e32 v54, 8, v54
1406 ; GFX906-NEXT:    v_or_b32_sdwa v54, v55, v54 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1407 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v54 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1408 ; GFX906-NEXT:    buffer_load_dword v54, off, s[8:11], 0 offset:656 ; 4-byte Folded Reload
1409 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1410 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1411 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1412 ; GFX906-NEXT:    v_or_b32_sdwa v0, v54, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1413 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1414 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:644 ; 4-byte Folded Reload
1415 ; GFX906-NEXT:    buffer_load_dword v54, off, s[8:11], 0 offset:648 ; 4-byte Folded Reload
1416 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1417 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1418 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1419 ; GFX906-NEXT:    v_or_b32_sdwa v0, v54, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1420 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1421 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:32
1422 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:636 ; 4-byte Folded Reload
1423 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1424 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1425 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:640 ; 4-byte Folded Reload
1426 ; GFX906-NEXT:    v_or_b32_sdwa v3, v51, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1427 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:624 ; 4-byte Folded Reload
1428 ; GFX906-NEXT:    buffer_load_dword v51, off, s[8:11], 0 offset:620 ; 4-byte Folded Reload
1429 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1430 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1431 ; GFX906-NEXT:    v_or_b32_sdwa v0, v50, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1432 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1433 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1434 ; GFX906-NEXT:    v_or_b32_sdwa v4, v52, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1435 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:612 ; 4-byte Folded Reload
1436 ; GFX906-NEXT:    buffer_load_dword v50, off, s[8:11], 0 offset:632 ; 4-byte Folded Reload
1437 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1438 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1439 ; GFX906-NEXT:    v_or_b32_sdwa v5, v53, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1440 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:628 ; 4-byte Folded Reload
1441 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1442 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1443 ; GFX906-NEXT:    v_or_b32_sdwa v2, v50, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1444 ; GFX906-NEXT:    buffer_load_dword v50, off, s[8:11], 0 offset:616 ; 4-byte Folded Reload
1445 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1446 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:604 ; 4-byte Folded Reload
1447 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1448 ; GFX906-NEXT:    v_lshlrev_b16_e32 v50, 8, v50
1449 ; GFX906-NEXT:    v_or_b32_sdwa v50, v51, v50 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1450 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v50 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1451 ; GFX906-NEXT:    buffer_load_dword v50, off, s[8:11], 0 offset:608 ; 4-byte Folded Reload
1452 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1453 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1454 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1455 ; GFX906-NEXT:    v_or_b32_sdwa v0, v50, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1456 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1457 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:596 ; 4-byte Folded Reload
1458 ; GFX906-NEXT:    buffer_load_dword v50, off, s[8:11], 0 offset:600 ; 4-byte Folded Reload
1459 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1460 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1461 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1462 ; GFX906-NEXT:    v_or_b32_sdwa v0, v50, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1463 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1464 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:48
1465 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:588 ; 4-byte Folded Reload
1466 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1467 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1468 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:592 ; 4-byte Folded Reload
1469 ; GFX906-NEXT:    v_or_b32_sdwa v3, v47, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1470 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:576 ; 4-byte Folded Reload
1471 ; GFX906-NEXT:    buffer_load_dword v47, off, s[8:11], 0 offset:572 ; 4-byte Folded Reload
1472 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1473 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1474 ; GFX906-NEXT:    v_or_b32_sdwa v0, v46, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1475 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1476 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1477 ; GFX906-NEXT:    v_or_b32_sdwa v4, v48, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1478 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:564 ; 4-byte Folded Reload
1479 ; GFX906-NEXT:    buffer_load_dword v46, off, s[8:11], 0 offset:584 ; 4-byte Folded Reload
1480 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1481 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1482 ; GFX906-NEXT:    v_or_b32_sdwa v5, v49, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1483 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:580 ; 4-byte Folded Reload
1484 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1485 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1486 ; GFX906-NEXT:    v_or_b32_sdwa v2, v46, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1487 ; GFX906-NEXT:    buffer_load_dword v46, off, s[8:11], 0 offset:568 ; 4-byte Folded Reload
1488 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1489 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:556 ; 4-byte Folded Reload
1490 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1491 ; GFX906-NEXT:    v_lshlrev_b16_e32 v46, 8, v46
1492 ; GFX906-NEXT:    v_or_b32_sdwa v46, v47, v46 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1493 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v46 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1494 ; GFX906-NEXT:    buffer_load_dword v46, off, s[8:11], 0 offset:560 ; 4-byte Folded Reload
1495 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1496 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1497 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1498 ; GFX906-NEXT:    v_or_b32_sdwa v0, v46, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1499 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1500 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:548 ; 4-byte Folded Reload
1501 ; GFX906-NEXT:    buffer_load_dword v46, off, s[8:11], 0 offset:552 ; 4-byte Folded Reload
1502 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1503 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1504 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1505 ; GFX906-NEXT:    v_or_b32_sdwa v0, v46, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1506 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1507 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:64
1508 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:540 ; 4-byte Folded Reload
1509 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1510 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1511 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:544 ; 4-byte Folded Reload
1512 ; GFX906-NEXT:    v_or_b32_sdwa v3, v43, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1513 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:528 ; 4-byte Folded Reload
1514 ; GFX906-NEXT:    buffer_load_dword v43, off, s[8:11], 0 offset:524 ; 4-byte Folded Reload
1515 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1516 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1517 ; GFX906-NEXT:    v_or_b32_sdwa v0, v42, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1518 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1519 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1520 ; GFX906-NEXT:    v_or_b32_sdwa v4, v44, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1521 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:516 ; 4-byte Folded Reload
1522 ; GFX906-NEXT:    buffer_load_dword v42, off, s[8:11], 0 offset:536 ; 4-byte Folded Reload
1523 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1524 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1525 ; GFX906-NEXT:    v_or_b32_sdwa v5, v45, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1526 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:532 ; 4-byte Folded Reload
1527 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1528 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1529 ; GFX906-NEXT:    v_or_b32_sdwa v2, v42, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1530 ; GFX906-NEXT:    buffer_load_dword v42, off, s[8:11], 0 offset:520 ; 4-byte Folded Reload
1531 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1532 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:508 ; 4-byte Folded Reload
1533 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1534 ; GFX906-NEXT:    v_lshlrev_b16_e32 v42, 8, v42
1535 ; GFX906-NEXT:    v_or_b32_sdwa v42, v43, v42 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1536 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v42 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1537 ; GFX906-NEXT:    buffer_load_dword v42, off, s[8:11], 0 offset:512 ; 4-byte Folded Reload
1538 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1539 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1540 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1541 ; GFX906-NEXT:    v_or_b32_sdwa v0, v42, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1542 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1543 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:500 ; 4-byte Folded Reload
1544 ; GFX906-NEXT:    buffer_load_dword v42, off, s[8:11], 0 offset:504 ; 4-byte Folded Reload
1545 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1546 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1547 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1548 ; GFX906-NEXT:    v_or_b32_sdwa v0, v42, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1549 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1550 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:80
1551 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:492 ; 4-byte Folded Reload
1552 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1553 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1554 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:496 ; 4-byte Folded Reload
1555 ; GFX906-NEXT:    v_or_b32_sdwa v3, v39, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1556 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:480 ; 4-byte Folded Reload
1557 ; GFX906-NEXT:    buffer_load_dword v39, off, s[8:11], 0 offset:476 ; 4-byte Folded Reload
1558 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1559 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1560 ; GFX906-NEXT:    v_or_b32_sdwa v0, v38, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1561 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1562 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1563 ; GFX906-NEXT:    v_or_b32_sdwa v4, v40, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1564 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:468 ; 4-byte Folded Reload
1565 ; GFX906-NEXT:    buffer_load_dword v38, off, s[8:11], 0 offset:488 ; 4-byte Folded Reload
1566 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1567 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1568 ; GFX906-NEXT:    v_or_b32_sdwa v5, v41, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1569 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:484 ; 4-byte Folded Reload
1570 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1571 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1572 ; GFX906-NEXT:    v_or_b32_sdwa v2, v38, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1573 ; GFX906-NEXT:    buffer_load_dword v38, off, s[8:11], 0 offset:472 ; 4-byte Folded Reload
1574 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1575 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:460 ; 4-byte Folded Reload
1576 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1577 ; GFX906-NEXT:    v_lshlrev_b16_e32 v38, 8, v38
1578 ; GFX906-NEXT:    v_or_b32_sdwa v38, v39, v38 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1579 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v38 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1580 ; GFX906-NEXT:    buffer_load_dword v38, off, s[8:11], 0 offset:464 ; 4-byte Folded Reload
1581 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1582 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1583 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1584 ; GFX906-NEXT:    v_or_b32_sdwa v0, v38, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1585 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1586 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:452 ; 4-byte Folded Reload
1587 ; GFX906-NEXT:    buffer_load_dword v38, off, s[8:11], 0 offset:456 ; 4-byte Folded Reload
1588 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1589 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1590 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1591 ; GFX906-NEXT:    v_or_b32_sdwa v0, v38, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1592 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1593 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:96
1594 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:444 ; 4-byte Folded Reload
1595 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1596 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1597 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:448 ; 4-byte Folded Reload
1598 ; GFX906-NEXT:    v_or_b32_sdwa v3, v35, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1599 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:432 ; 4-byte Folded Reload
1600 ; GFX906-NEXT:    buffer_load_dword v35, off, s[8:11], 0 offset:428 ; 4-byte Folded Reload
1601 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1602 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1603 ; GFX906-NEXT:    v_or_b32_sdwa v0, v34, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1604 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1605 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1606 ; GFX906-NEXT:    v_or_b32_sdwa v4, v36, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1607 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:420 ; 4-byte Folded Reload
1608 ; GFX906-NEXT:    buffer_load_dword v34, off, s[8:11], 0 offset:440 ; 4-byte Folded Reload
1609 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1610 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1611 ; GFX906-NEXT:    v_or_b32_sdwa v5, v37, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1612 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:436 ; 4-byte Folded Reload
1613 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1614 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1615 ; GFX906-NEXT:    v_or_b32_sdwa v2, v34, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1616 ; GFX906-NEXT:    buffer_load_dword v34, off, s[8:11], 0 offset:424 ; 4-byte Folded Reload
1617 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1618 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:412 ; 4-byte Folded Reload
1619 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1620 ; GFX906-NEXT:    v_lshlrev_b16_e32 v34, 8, v34
1621 ; GFX906-NEXT:    v_or_b32_sdwa v34, v35, v34 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1622 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v34 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1623 ; GFX906-NEXT:    buffer_load_dword v34, off, s[8:11], 0 offset:416 ; 4-byte Folded Reload
1624 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1625 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1626 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1627 ; GFX906-NEXT:    v_or_b32_sdwa v0, v34, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1628 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1629 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:404 ; 4-byte Folded Reload
1630 ; GFX906-NEXT:    buffer_load_dword v34, off, s[8:11], 0 offset:408 ; 4-byte Folded Reload
1631 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1632 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1633 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1634 ; GFX906-NEXT:    v_or_b32_sdwa v0, v34, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1635 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1636 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:112
1637 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:396 ; 4-byte Folded Reload
1638 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1639 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1640 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:400 ; 4-byte Folded Reload
1641 ; GFX906-NEXT:    v_or_b32_sdwa v3, v31, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1642 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:384 ; 4-byte Folded Reload
1643 ; GFX906-NEXT:    buffer_load_dword v31, off, s[8:11], 0 offset:380 ; 4-byte Folded Reload
1644 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1645 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1646 ; GFX906-NEXT:    v_or_b32_sdwa v0, v30, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1647 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1648 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1649 ; GFX906-NEXT:    v_or_b32_sdwa v4, v32, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1650 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:372 ; 4-byte Folded Reload
1651 ; GFX906-NEXT:    buffer_load_dword v30, off, s[8:11], 0 offset:392 ; 4-byte Folded Reload
1652 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1653 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1654 ; GFX906-NEXT:    v_or_b32_sdwa v5, v33, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1655 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:388 ; 4-byte Folded Reload
1656 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1657 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1658 ; GFX906-NEXT:    v_or_b32_sdwa v2, v30, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1659 ; GFX906-NEXT:    buffer_load_dword v30, off, s[8:11], 0 offset:376 ; 4-byte Folded Reload
1660 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1661 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:364 ; 4-byte Folded Reload
1662 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1663 ; GFX906-NEXT:    v_lshlrev_b16_e32 v30, 8, v30
1664 ; GFX906-NEXT:    v_or_b32_sdwa v30, v31, v30 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1665 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v30 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1666 ; GFX906-NEXT:    buffer_load_dword v30, off, s[8:11], 0 offset:368 ; 4-byte Folded Reload
1667 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1668 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1669 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1670 ; GFX906-NEXT:    v_or_b32_sdwa v0, v30, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1671 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1672 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:356 ; 4-byte Folded Reload
1673 ; GFX906-NEXT:    buffer_load_dword v30, off, s[8:11], 0 offset:360 ; 4-byte Folded Reload
1674 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1675 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1676 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1677 ; GFX906-NEXT:    v_or_b32_sdwa v0, v30, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1678 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1679 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:128
1680 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:348 ; 4-byte Folded Reload
1681 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1682 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1683 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:352 ; 4-byte Folded Reload
1684 ; GFX906-NEXT:    v_or_b32_sdwa v3, v27, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1685 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:336 ; 4-byte Folded Reload
1686 ; GFX906-NEXT:    buffer_load_dword v27, off, s[8:11], 0 offset:332 ; 4-byte Folded Reload
1687 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1688 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1689 ; GFX906-NEXT:    v_or_b32_sdwa v0, v26, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1690 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1691 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1692 ; GFX906-NEXT:    v_or_b32_sdwa v4, v28, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1693 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:324 ; 4-byte Folded Reload
1694 ; GFX906-NEXT:    buffer_load_dword v26, off, s[8:11], 0 offset:344 ; 4-byte Folded Reload
1695 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1696 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1697 ; GFX906-NEXT:    v_or_b32_sdwa v5, v29, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1698 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:340 ; 4-byte Folded Reload
1699 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1700 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1701 ; GFX906-NEXT:    v_or_b32_sdwa v2, v26, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1702 ; GFX906-NEXT:    buffer_load_dword v26, off, s[8:11], 0 offset:328 ; 4-byte Folded Reload
1703 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1704 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:316 ; 4-byte Folded Reload
1705 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1706 ; GFX906-NEXT:    v_lshlrev_b16_e32 v26, 8, v26
1707 ; GFX906-NEXT:    v_or_b32_sdwa v26, v27, v26 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1708 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v26 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1709 ; GFX906-NEXT:    buffer_load_dword v26, off, s[8:11], 0 offset:320 ; 4-byte Folded Reload
1710 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1711 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1712 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1713 ; GFX906-NEXT:    v_or_b32_sdwa v0, v26, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1714 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1715 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:308 ; 4-byte Folded Reload
1716 ; GFX906-NEXT:    buffer_load_dword v26, off, s[8:11], 0 offset:312 ; 4-byte Folded Reload
1717 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1718 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1719 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1720 ; GFX906-NEXT:    v_or_b32_sdwa v0, v26, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1721 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1722 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:144
1723 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:300 ; 4-byte Folded Reload
1724 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1725 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1726 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:304 ; 4-byte Folded Reload
1727 ; GFX906-NEXT:    v_or_b32_sdwa v3, v23, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1728 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:288 ; 4-byte Folded Reload
1729 ; GFX906-NEXT:    buffer_load_dword v23, off, s[8:11], 0 offset:284 ; 4-byte Folded Reload
1730 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1731 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1732 ; GFX906-NEXT:    v_or_b32_sdwa v0, v22, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1733 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1734 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1735 ; GFX906-NEXT:    v_or_b32_sdwa v4, v24, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1736 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:276 ; 4-byte Folded Reload
1737 ; GFX906-NEXT:    buffer_load_dword v22, off, s[8:11], 0 offset:296 ; 4-byte Folded Reload
1738 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1739 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1740 ; GFX906-NEXT:    v_or_b32_sdwa v5, v25, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1741 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:292 ; 4-byte Folded Reload
1742 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1743 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1744 ; GFX906-NEXT:    v_or_b32_sdwa v2, v22, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1745 ; GFX906-NEXT:    buffer_load_dword v22, off, s[8:11], 0 offset:280 ; 4-byte Folded Reload
1746 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1747 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:268 ; 4-byte Folded Reload
1748 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1749 ; GFX906-NEXT:    v_lshlrev_b16_e32 v22, 8, v22
1750 ; GFX906-NEXT:    v_or_b32_sdwa v22, v23, v22 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1751 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v22 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1752 ; GFX906-NEXT:    buffer_load_dword v22, off, s[8:11], 0 offset:272 ; 4-byte Folded Reload
1753 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1754 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1755 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1756 ; GFX906-NEXT:    v_or_b32_sdwa v0, v22, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1757 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1758 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:260 ; 4-byte Folded Reload
1759 ; GFX906-NEXT:    buffer_load_dword v22, off, s[8:11], 0 offset:264 ; 4-byte Folded Reload
1760 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1761 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1762 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1763 ; GFX906-NEXT:    v_or_b32_sdwa v0, v22, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1764 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1765 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:160
1766 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:252 ; 4-byte Folded Reload
1767 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1768 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1769 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:256 ; 4-byte Folded Reload
1770 ; GFX906-NEXT:    v_or_b32_sdwa v3, v19, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1771 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:240 ; 4-byte Folded Reload
1772 ; GFX906-NEXT:    buffer_load_dword v19, off, s[8:11], 0 offset:236 ; 4-byte Folded Reload
1773 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1774 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1775 ; GFX906-NEXT:    v_or_b32_sdwa v0, v18, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1776 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1777 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1778 ; GFX906-NEXT:    v_or_b32_sdwa v4, v20, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1779 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:228 ; 4-byte Folded Reload
1780 ; GFX906-NEXT:    buffer_load_dword v18, off, s[8:11], 0 offset:248 ; 4-byte Folded Reload
1781 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1782 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1783 ; GFX906-NEXT:    v_or_b32_sdwa v5, v21, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1784 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:244 ; 4-byte Folded Reload
1785 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1786 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1787 ; GFX906-NEXT:    v_or_b32_sdwa v2, v18, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1788 ; GFX906-NEXT:    buffer_load_dword v18, off, s[8:11], 0 offset:232 ; 4-byte Folded Reload
1789 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1790 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:220 ; 4-byte Folded Reload
1791 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1792 ; GFX906-NEXT:    v_lshlrev_b16_e32 v18, 8, v18
1793 ; GFX906-NEXT:    v_or_b32_sdwa v18, v19, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1794 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v18 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1795 ; GFX906-NEXT:    buffer_load_dword v18, off, s[8:11], 0 offset:224 ; 4-byte Folded Reload
1796 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1797 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1798 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1799 ; GFX906-NEXT:    v_or_b32_sdwa v0, v18, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1800 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1801 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:212 ; 4-byte Folded Reload
1802 ; GFX906-NEXT:    buffer_load_dword v18, off, s[8:11], 0 offset:216 ; 4-byte Folded Reload
1803 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1804 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1805 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1806 ; GFX906-NEXT:    v_or_b32_sdwa v0, v18, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1807 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1808 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:176
1809 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:204 ; 4-byte Folded Reload
1810 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1811 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1812 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:208 ; 4-byte Folded Reload
1813 ; GFX906-NEXT:    v_or_b32_sdwa v3, v15, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1814 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:192 ; 4-byte Folded Reload
1815 ; GFX906-NEXT:    buffer_load_dword v15, off, s[8:11], 0 offset:188 ; 4-byte Folded Reload
1816 ; GFX906-NEXT:    s_waitcnt vmcnt(2)
1817 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1818 ; GFX906-NEXT:    v_or_b32_sdwa v0, v14, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1819 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1820 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1821 ; GFX906-NEXT:    v_or_b32_sdwa v4, v16, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1822 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:180 ; 4-byte Folded Reload
1823 ; GFX906-NEXT:    buffer_load_dword v14, off, s[8:11], 0 offset:200 ; 4-byte Folded Reload
1824 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1825 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1826 ; GFX906-NEXT:    v_or_b32_sdwa v5, v17, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1827 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:196 ; 4-byte Folded Reload
1828 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1829 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1830 ; GFX906-NEXT:    v_or_b32_sdwa v2, v14, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1831 ; GFX906-NEXT:    buffer_load_dword v14, off, s[8:11], 0 offset:184 ; 4-byte Folded Reload
1832 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1833 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:172 ; 4-byte Folded Reload
1834 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1835 ; GFX906-NEXT:    v_lshlrev_b16_e32 v14, 8, v14
1836 ; GFX906-NEXT:    v_or_b32_sdwa v14, v15, v14 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1837 ; GFX906-NEXT:    v_or_b32_sdwa v3, v3, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1838 ; GFX906-NEXT:    buffer_load_dword v14, off, s[8:11], 0 offset:176 ; 4-byte Folded Reload
1839 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1840 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1841 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1842 ; GFX906-NEXT:    v_or_b32_sdwa v0, v14, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1843 ; GFX906-NEXT:    v_or_b32_sdwa v4, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1844 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:164 ; 4-byte Folded Reload
1845 ; GFX906-NEXT:    buffer_load_dword v14, off, s[8:11], 0 offset:168 ; 4-byte Folded Reload
1846 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1847 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1848 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1849 ; GFX906-NEXT:    v_or_b32_sdwa v0, v14, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1850 ; GFX906-NEXT:    v_or_b32_sdwa v5, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1851 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:192
1852 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:160 ; 4-byte Folded Reload
1853 ; GFX906-NEXT:    s_nop 0
1854 ; GFX906-NEXT:    buffer_load_dword v3, off, s[8:11], 0 offset:156 ; 4-byte Folded Reload
1855 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:152 ; 4-byte Folded Reload
1856 ; GFX906-NEXT:    buffer_load_dword v4, off, s[8:11], 0 offset:144 ; 4-byte Folded Reload
1857 ; GFX906-NEXT:    buffer_load_dword v5, off, s[8:11], 0 offset:132 ; 4-byte Folded Reload
1858 ; GFX906-NEXT:    s_waitcnt vmcnt(4)
1859 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1860 ; GFX906-NEXT:    v_or_b32_sdwa v0, v10, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1861 ; GFX906-NEXT:    buffer_load_dword v10, off, s[8:11], 0 offset:120 ; 4-byte Folded Reload
1862 ; GFX906-NEXT:    s_waitcnt vmcnt(3)
1863 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1864 ; GFX906-NEXT:    v_or_b32_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1865 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1866 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:148 ; 4-byte Folded Reload
1867 ; GFX906-NEXT:    buffer_load_dword v3, off, s[8:11], 0 offset:140 ; 4-byte Folded Reload
1868 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1869 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1870 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1871 ; GFX906-NEXT:    v_lshlrev_b16_e32 v3, 8, v3
1872 ; GFX906-NEXT:    v_or_b32_sdwa v0, v11, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1873 ; GFX906-NEXT:    v_or_b32_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1874 ; GFX906-NEXT:    v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1875 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:136 ; 4-byte Folded Reload
1876 ; GFX906-NEXT:    buffer_load_dword v4, off, s[8:11], 0 offset:128 ; 4-byte Folded Reload
1877 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1878 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1879 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1880 ; GFX906-NEXT:    v_lshlrev_b16_e32 v4, 8, v4
1881 ; GFX906-NEXT:    v_or_b32_sdwa v0, v12, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1882 ; GFX906-NEXT:    v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1883 ; GFX906-NEXT:    v_or_b32_sdwa v4, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1884 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:124 ; 4-byte Folded Reload
1885 ; GFX906-NEXT:    buffer_load_dword v5, off, s[8:11], 0 offset:116 ; 4-byte Folded Reload
1886 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1887 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1888 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1889 ; GFX906-NEXT:    v_lshlrev_b16_e32 v5, 8, v5
1890 ; GFX906-NEXT:    v_or_b32_sdwa v0, v13, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1891 ; GFX906-NEXT:    v_or_b32_sdwa v5, v10, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1892 ; GFX906-NEXT:    v_or_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1893 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:208
1894 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:112 ; 4-byte Folded Reload
1895 ; GFX906-NEXT:    s_nop 0
1896 ; GFX906-NEXT:    buffer_load_dword v3, off, s[8:11], 0 offset:108 ; 4-byte Folded Reload
1897 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:104 ; 4-byte Folded Reload
1898 ; GFX906-NEXT:    buffer_load_dword v4, off, s[8:11], 0 offset:96 ; 4-byte Folded Reload
1899 ; GFX906-NEXT:    buffer_load_dword v5, off, s[8:11], 0 offset:84 ; 4-byte Folded Reload
1900 ; GFX906-NEXT:    s_waitcnt vmcnt(4)
1901 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1902 ; GFX906-NEXT:    v_or_b32_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1903 ; GFX906-NEXT:    buffer_load_dword v6, off, s[8:11], 0 offset:72 ; 4-byte Folded Reload
1904 ; GFX906-NEXT:    s_waitcnt vmcnt(3)
1905 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1906 ; GFX906-NEXT:    v_or_b32_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1907 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1908 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:100 ; 4-byte Folded Reload
1909 ; GFX906-NEXT:    buffer_load_dword v3, off, s[8:11], 0 offset:92 ; 4-byte Folded Reload
1910 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1911 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1912 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1913 ; GFX906-NEXT:    v_lshlrev_b16_e32 v3, 8, v3
1914 ; GFX906-NEXT:    v_or_b32_sdwa v0, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1915 ; GFX906-NEXT:    v_or_b32_sdwa v3, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1916 ; GFX906-NEXT:    v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1917 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:88 ; 4-byte Folded Reload
1918 ; GFX906-NEXT:    buffer_load_dword v4, off, s[8:11], 0 offset:80 ; 4-byte Folded Reload
1919 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1920 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1921 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1922 ; GFX906-NEXT:    v_lshlrev_b16_e32 v4, 8, v4
1923 ; GFX906-NEXT:    v_or_b32_sdwa v0, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1924 ; GFX906-NEXT:    v_or_b32_sdwa v4, v5, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1925 ; GFX906-NEXT:    v_or_b32_sdwa v4, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1926 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:76 ; 4-byte Folded Reload
1927 ; GFX906-NEXT:    buffer_load_dword v5, off, s[8:11], 0 offset:68 ; 4-byte Folded Reload
1928 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1929 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1930 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1931 ; GFX906-NEXT:    v_lshlrev_b16_e32 v5, 8, v5
1932 ; GFX906-NEXT:    v_or_b32_sdwa v0, v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1933 ; GFX906-NEXT:    v_or_b32_sdwa v5, v6, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1934 ; GFX906-NEXT:    v_or_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1935 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:224
1936 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:64 ; 4-byte Folded Reload
1937 ; GFX906-NEXT:    s_nop 0
1938 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:4 ; 4-byte Folded Reload
1939 ; GFX906-NEXT:    buffer_load_dword v3, off, s[8:11], 0 offset:8 ; 4-byte Folded Reload
1940 ; GFX906-NEXT:    buffer_load_dword v4, off, s[8:11], 0 offset:12 ; 4-byte Folded Reload
1941 ; GFX906-NEXT:    buffer_load_dword v5, off, s[8:11], 0 offset:16 ; 4-byte Folded Reload
1942 ; GFX906-NEXT:    buffer_load_dword v6, off, s[8:11], 0 offset:60 ; 4-byte Folded Reload
1943 ; GFX906-NEXT:    s_waitcnt vmcnt(5)
1944 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1945 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1946 ; GFX906-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1947 ; GFX906-NEXT:    buffer_load_dword v2, off, s[8:11], 0 offset:56 ; 4-byte Folded Reload
1948 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1949 ; GFX906-NEXT:    v_lshlrev_b16_e32 v2, 8, v2
1950 ; GFX906-NEXT:    v_or_b32_sdwa v2, v6, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1951 ; GFX906-NEXT:    v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1952 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:52 ; 4-byte Folded Reload
1953 ; GFX906-NEXT:    buffer_load_dword v6, off, s[8:11], 0 offset:48 ; 4-byte Folded Reload
1954 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1955 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1956 ; GFX906-NEXT:    v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1957 ; GFX906-NEXT:    buffer_load_dword v3, off, s[8:11], 0 offset:44 ; 4-byte Folded Reload
1958 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1959 ; GFX906-NEXT:    v_lshlrev_b16_e32 v3, 8, v3
1960 ; GFX906-NEXT:    v_or_b32_sdwa v3, v6, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1961 ; GFX906-NEXT:    v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1962 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:40 ; 4-byte Folded Reload
1963 ; GFX906-NEXT:    buffer_load_dword v6, off, s[8:11], 0 offset:36 ; 4-byte Folded Reload
1964 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1965 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1966 ; GFX906-NEXT:    v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1967 ; GFX906-NEXT:    buffer_load_dword v4, off, s[8:11], 0 offset:32 ; 4-byte Folded Reload
1968 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1969 ; GFX906-NEXT:    v_lshlrev_b16_e32 v4, 8, v4
1970 ; GFX906-NEXT:    v_or_b32_sdwa v4, v6, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1971 ; GFX906-NEXT:    v_or_b32_sdwa v4, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1972 ; GFX906-NEXT:    buffer_load_dword v0, off, s[8:11], 0 offset:28 ; 4-byte Folded Reload
1973 ; GFX906-NEXT:    buffer_load_dword v6, off, s[8:11], 0 offset:24 ; 4-byte Folded Reload
1974 ; GFX906-NEXT:    s_waitcnt vmcnt(1)
1975 ; GFX906-NEXT:    v_lshlrev_b16_e32 v0, 8, v0
1976 ; GFX906-NEXT:    v_or_b32_sdwa v0, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1977 ; GFX906-NEXT:    buffer_load_dword v5, off, s[8:11], 0 offset:20 ; 4-byte Folded Reload
1978 ; GFX906-NEXT:    s_waitcnt vmcnt(0)
1979 ; GFX906-NEXT:    v_lshlrev_b16_e32 v5, 8, v5
1980 ; GFX906-NEXT:    v_or_b32_sdwa v5, v6, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
1981 ; GFX906-NEXT:    v_or_b32_sdwa v5, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
1982 ; GFX906-NEXT:    global_store_dwordx4 v1, v[2:5], s[2:3] offset:240
1983 ; GFX906-NEXT:    s_endpgm
1984 entry:
1985   %idx = call i32 @llvm.amdgcn.workitem.id.x()
1986   %gep1 = getelementptr <8 x i8>, ptr addrspace(1) %src1, i32 %idx
1987   %vec1 = load <256 x i8>, ptr addrspace(1) %gep1
1988   %gep2 = getelementptr <8 x i8>, ptr addrspace(1) %src2, i32 %idx
1989   %vec2 = load <256 x i8>, ptr addrspace(1) %gep2
1990   %cmp = icmp ult i32 %idx, 15
1991   br i1 %cmp, label %bb.1, label %bb.2
1992 bb.1:
1993   br label %bb.2
1995 bb.2:
1996   %tmp5 = phi <256 x i8> [ %vec1, %entry ], [ %vec2, %bb.1 ]
1997   store <256 x i8> %tmp5, ptr addrspace(1) %dst, align 4
1998   ret void
2001 declare i32 @llvm.amdgcn.workitem.id.x()