[MachineScheduler] Fix physreg dependencies of ExitSU (#123541)
[llvm-project.git] / llvm / test / CodeGen / AMDGPU / sdwa-preserve.mir
blob467bc77c18577903244d279eebab0bf225b1a30d
1 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 4
2 # RUN: llc -mtriple=amdgcn -mcpu=fiji -run-pass=si-peephole-sdwa -verify-machineinstrs -o - %s | FileCheck -check-prefix=SDWA %s
3 # RUN: llc -mtriple=amdgcn -mcpu=gfx900 -run-pass=si-peephole-sdwa -verify-machineinstrs -o - %s | FileCheck -check-prefix=SDWA %s
4 # RUN: llc -mtriple=amdgcn -mcpu=fiji -passes=si-peephole-sdwa -o - %s | FileCheck -check-prefix=SDWA %s
5 # RUN: llc -mtriple=amdgcn -mcpu=gfx900 -passes=si-peephole-sdwa -o - %s | FileCheck -check-prefix=SDWA %s
6 ---
7 name:            add_f16_u32_preserve
8 tracksRegLiveness: true
9 registers:
10   - { id: 0, class: vreg_64 }
11   - { id: 1, class: vreg_64 }
12   - { id: 2, class: sreg_64 }
13   - { id: 3, class: vgpr_32 }
14   - { id: 4, class: vgpr_32 }
15   - { id: 5, class: vgpr_32 }
16   - { id: 6, class: vgpr_32 }
17   - { id: 7, class: vgpr_32 }
18   - { id: 8, class: vgpr_32 }
19   - { id: 9, class: vgpr_32 }
20   - { id: 10, class: vgpr_32 }
21   - { id: 11, class: vgpr_32 }
22   - { id: 12, class: vgpr_32 }
23   - { id: 13, class: vgpr_32 }
24 body:             |
25   bb.0:
26     liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $sgpr30_sgpr31
28     ; SDWA-LABEL: name: add_f16_u32_preserve
29     ; SDWA: liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $sgpr30_sgpr31
30     ; SDWA-NEXT: {{  $}}
31     ; SDWA-NEXT: [[COPY:%[0-9]+]]:sreg_64 = COPY $sgpr30_sgpr31
32     ; SDWA-NEXT: [[COPY1:%[0-9]+]]:vreg_64 = COPY $vgpr2_vgpr3
33     ; SDWA-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1
34     ; SDWA-NEXT: [[FLAT_LOAD_DWORD:%[0-9]+]]:vgpr_32 = FLAT_LOAD_DWORD [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
35     ; SDWA-NEXT: [[FLAT_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = FLAT_LOAD_DWORD [[COPY1]], 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
36     ; SDWA-NEXT: [[V_AND_B32_e32_:%[0-9]+]]:vgpr_32 = V_AND_B32_e32 65535, [[FLAT_LOAD_DWORD]], implicit $exec
37     ; SDWA-NEXT: [[V_LSHRREV_B32_e64_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e64 16, [[FLAT_LOAD_DWORD1]], implicit $exec
38     ; SDWA-NEXT: [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[FLAT_LOAD_DWORD]], 8, 8, implicit $exec
39     ; SDWA-NEXT: [[V_LSHRREV_B32_e32_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e32 24, [[FLAT_LOAD_DWORD1]], implicit $exec
40     ; SDWA-NEXT: [[V_ADD_F16_sdwa:%[0-9]+]]:vgpr_32 = V_ADD_F16_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 1, 0, 4, 5, implicit $mode, implicit $exec
41     ; SDWA-NEXT: [[V_MUL_F32_sdwa:%[0-9]+]]:vgpr_32 = V_MUL_F32_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 5, 0, 1, 3, implicit $mode, implicit $exec
42     ; SDWA-NEXT: [[V_OR_B32_e64_:%[0-9]+]]:vgpr_32 = V_OR_B32_e64 [[V_ADD_F16_sdwa]], [[V_MUL_F32_sdwa]], implicit $exec
43     ; SDWA-NEXT: FLAT_STORE_DWORD [[COPY2]], [[V_OR_B32_e64_]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
44     ; SDWA-NEXT: $sgpr30_sgpr31 = COPY [[COPY]]
45     ; SDWA-NEXT: S_SETPC_B64_return $sgpr30_sgpr31
46     %2 = COPY $sgpr30_sgpr31
47     %1 = COPY $vgpr2_vgpr3
48     %0 = COPY $vgpr0_vgpr1
49     %3 = FLAT_LOAD_DWORD %0, 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
50     %4 = FLAT_LOAD_DWORD %1, 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
52     %5 = V_AND_B32_e32 65535, %3, implicit $exec
53     %6 = V_LSHRREV_B32_e64 16, %4, implicit $exec
54     %7 = V_BFE_U32_e64 %3, 8, 8, implicit $exec
55     %8 = V_LSHRREV_B32_e32 24, %4, implicit $exec
57     %9 = V_ADD_F16_e64 0, %5, 0, %6, 0, 0, implicit $mode, implicit $exec
58     %10 = V_LSHLREV_B16_e64 8, %9, implicit $exec
59     %11 = V_MUL_F32_e64 0, %7, 0, %8, 0, 0, implicit $mode, implicit $exec
60     %12 = V_LSHLREV_B32_e64 16, %11, implicit $exec
62     %13 = V_OR_B32_e64 %10, %12, implicit $exec
64     FLAT_STORE_DWORD %0, %13, 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
65     $sgpr30_sgpr31 = COPY %2
66     S_SETPC_B64_return $sgpr30_sgpr31
67 ...
68 ---
69 name:            sdwa_preserve_keep
70 tracksRegLiveness: true
71 registers:
72   - { id: 0, class: vreg_64 }
73   - { id: 1, class: vreg_64 }
74   - { id: 2, class: sreg_64 }
75   - { id: 3, class: vgpr_32 }
76   - { id: 4, class: vgpr_32 }
77   - { id: 5, class: sreg_32_xm0_xexec }
78   - { id: 6, class: vgpr_32 }
79   - { id: 7, class: vgpr_32 }
80   - { id: 8, class: sreg_32_xm0 }
81   - { id: 9, class: vgpr_32 }
82   - { id: 10, class: sreg_32_xm0 }
83   - { id: 11, class: vgpr_32 }
84   - { id: 17, class: vgpr_32 }
85 body:             |
86   bb.0:
87     liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $sgpr30_sgpr31
89     ; SDWA-LABEL: name: sdwa_preserve_keep
90     ; SDWA: liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $sgpr30_sgpr31
91     ; SDWA-NEXT: {{  $}}
92     ; SDWA-NEXT: [[COPY:%[0-9]+]]:sreg_64 = COPY $sgpr30_sgpr31
93     ; SDWA-NEXT: [[COPY1:%[0-9]+]]:vreg_64 = COPY $vgpr2_vgpr3
94     ; SDWA-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1
95     ; SDWA-NEXT: [[FLAT_LOAD_DWORD:%[0-9]+]]:vgpr_32 = FLAT_LOAD_DWORD [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
96     ; SDWA-NEXT: [[FLAT_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = FLAT_LOAD_DWORD [[COPY1]], 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
97     ; SDWA-NEXT: [[V_LSHRREV_B16_e64_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B16_e64 8, [[FLAT_LOAD_DWORD]], implicit $exec
98     ; SDWA-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32_xm0 = S_MOV_B32 255
99     ; SDWA-NEXT: [[V_AND_B32_e64_:%[0-9]+]]:vgpr_32 = V_AND_B32_e64 [[FLAT_LOAD_DWORD]], killed [[S_MOV_B32_]], implicit $exec
100     ; SDWA-NEXT: [[V_MOV_B32_sdwa:%[0-9]+]]:vgpr_32 = V_MOV_B32_sdwa 0, [[FLAT_LOAD_DWORD1]], 0, 5, 2, 4, implicit $exec, implicit [[V_AND_B32_e64_]](tied-def 0)
101     ; SDWA-NEXT: FLAT_STORE_DWORD [[COPY2]], [[V_MOV_B32_sdwa]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
102     ; SDWA-NEXT: S_ENDPGM 0
103     %2 = COPY $sgpr30_sgpr31
104     %1 = COPY $vgpr2_vgpr3
105     %0 = COPY $vgpr0_vgpr1
106     %3 = FLAT_LOAD_DWORD %0, 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
107     %4 = FLAT_LOAD_DWORD %1, 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
109     %9:vgpr_32 = V_LSHRREV_B16_e64 8, %3, implicit $exec
110     %10:sreg_32_xm0 = S_MOV_B32 255
111     %11:vgpr_32 = V_AND_B32_e64 %3, killed %10, implicit $exec
112     %17:vgpr_32 = V_MOV_B32_sdwa 0, %4, 0, 5, 2, 4, implicit $exec, implicit %11(tied-def 0)
113     FLAT_STORE_DWORD %0, %17, 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
114     S_ENDPGM 0
118 name:            sdwa_preserve_remove
119 tracksRegLiveness: true
120 registers:
121   - { id: 0, class: vreg_64 }
122   - { id: 1, class: vreg_64 }
123   - { id: 2, class: sreg_64 }
124   - { id: 3, class: vgpr_32 }
125   - { id: 4, class: vgpr_32 }
126   - { id: 5, class: sreg_32_xm0_xexec }
127   - { id: 6, class: vgpr_32 }
128   - { id: 7, class: vgpr_32 }
129   - { id: 8, class: sreg_32_xm0 }
130   - { id: 9, class: vgpr_32 }
131   - { id: 10, class: sreg_32_xm0 }
132   - { id: 11, class: vgpr_32 }
133   - { id: 17, class: vgpr_32 }
134 body:             |
135   bb.0:
136     liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $sgpr30_sgpr31
138     ; SDWA-LABEL: name: sdwa_preserve_remove
139     ; SDWA: liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $sgpr30_sgpr31
140     ; SDWA-NEXT: {{  $}}
141     ; SDWA-NEXT: [[COPY:%[0-9]+]]:sreg_64 = COPY $sgpr30_sgpr31
142     ; SDWA-NEXT: [[COPY1:%[0-9]+]]:vreg_64 = COPY $vgpr2_vgpr3
143     ; SDWA-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1
144     ; SDWA-NEXT: [[FLAT_LOAD_DWORD:%[0-9]+]]:vgpr_32 = FLAT_LOAD_DWORD [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
145     ; SDWA-NEXT: [[FLAT_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = FLAT_LOAD_DWORD [[COPY1]], 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
146     ; SDWA-NEXT: [[V_LSHRREV_B16_e64_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B16_e64 8, [[FLAT_LOAD_DWORD]], implicit $exec
147     ; SDWA-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32_xm0 = S_MOV_B32 65535
148     ; SDWA-NEXT: [[V_AND_B32_e64_:%[0-9]+]]:vgpr_32 = V_AND_B32_e64 [[FLAT_LOAD_DWORD]], killed [[S_MOV_B32_]], implicit $exec
149     ; SDWA-NEXT: [[V_MOV_B32_sdwa:%[0-9]+]]:vgpr_32 = V_MOV_B32_sdwa 0, [[FLAT_LOAD_DWORD1]], 0, 5, 2, 4, implicit $exec, implicit [[V_AND_B32_e64_]](tied-def 0)
150     ; SDWA-NEXT: FLAT_STORE_DWORD [[COPY2]], [[V_MOV_B32_sdwa]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
151     ; SDWA-NEXT: S_ENDPGM 0
152     %2 = COPY $sgpr30_sgpr31
153     %1 = COPY $vgpr2_vgpr3
154     %0 = COPY $vgpr0_vgpr1
155     %3 = FLAT_LOAD_DWORD %0, 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
156     %4 = FLAT_LOAD_DWORD %1, 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
158     %9:vgpr_32 = V_LSHRREV_B16_e64 8, %3, implicit $exec
159     %10:sreg_32_xm0 = S_MOV_B32 65535
160     %11:vgpr_32 = V_AND_B32_e64 %3, killed %10, implicit $exec
161     %17:vgpr_32 = V_MOV_B32_sdwa 0, %4, 0, 5, 2, 4, implicit $exec, implicit %11(tied-def 0)
162     FLAT_STORE_DWORD %0, %17, 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
163     S_ENDPGM 0
167 name:            add_f16_u32_preserve_different_bb
168 tracksRegLiveness: true
169 body:             |
170   ; SDWA-LABEL: name: add_f16_u32_preserve_different_bb
171   ; SDWA: bb.0:
172   ; SDWA-NEXT:   successors: %bb.1(0x80000000)
173   ; SDWA-NEXT:   liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $sgpr30_sgpr31
174   ; SDWA-NEXT: {{  $}}
175   ; SDWA-NEXT:   [[COPY:%[0-9]+]]:sreg_64 = COPY $sgpr30_sgpr31
176   ; SDWA-NEXT:   [[COPY1:%[0-9]+]]:vreg_64 = COPY $vgpr2_vgpr3
177   ; SDWA-NEXT:   [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1
178   ; SDWA-NEXT:   [[FLAT_LOAD_DWORD:%[0-9]+]]:vgpr_32 = FLAT_LOAD_DWORD [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
179   ; SDWA-NEXT:   [[FLAT_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = FLAT_LOAD_DWORD [[COPY1]], 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
180   ; SDWA-NEXT:   [[V_AND_B32_e32_:%[0-9]+]]:vgpr_32 = V_AND_B32_e32 65535, [[FLAT_LOAD_DWORD]], implicit $exec
181   ; SDWA-NEXT:   [[V_LSHRREV_B32_e64_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e64 16, [[FLAT_LOAD_DWORD1]], implicit $exec
182   ; SDWA-NEXT:   [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[FLAT_LOAD_DWORD]], 8, 8, implicit $exec
183   ; SDWA-NEXT:   [[V_LSHRREV_B32_e32_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e32 24, [[FLAT_LOAD_DWORD1]], implicit $exec
184   ; SDWA-NEXT:   [[V_ADD_F16_sdwa:%[0-9]+]]:vgpr_32 = V_ADD_F16_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 1, 0, 4, 5, implicit $mode, implicit $exec
185   ; SDWA-NEXT: {{  $}}
186   ; SDWA-NEXT: bb.1:
187   ; SDWA-NEXT:   successors: %bb.2(0x80000000)
188   ; SDWA-NEXT: {{  $}}
189   ; SDWA-NEXT:   [[V_MUL_F32_sdwa:%[0-9]+]]:vgpr_32 = V_MUL_F32_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 6, 0, 1, 3, implicit $mode, implicit $exec
190   ; SDWA-NEXT:   [[V_LSHLREV_B32_e64_:%[0-9]+]]:vgpr_32 = V_LSHLREV_B32_e64 16, [[V_MUL_F32_sdwa]], implicit $exec
191   ; SDWA-NEXT: {{  $}}
192   ; SDWA-NEXT: bb.2:
193   ; SDWA-NEXT:   [[V_OR_B32_e64_:%[0-9]+]]:vgpr_32 = V_OR_B32_e64 [[V_ADD_F16_sdwa]], [[V_LSHLREV_B32_e64_]], implicit $exec
194   ; SDWA-NEXT:   FLAT_STORE_DWORD [[COPY2]], [[V_OR_B32_e64_]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
195   ; SDWA-NEXT:   $sgpr30_sgpr31 = COPY [[COPY]]
196   ; SDWA-NEXT:   S_SETPC_B64_return $sgpr30_sgpr31
197   bb.0:
198     liveins: $vgpr0_vgpr1, $vgpr2_vgpr3, $sgpr30_sgpr31
200     %2:sreg_64 = COPY $sgpr30_sgpr31
201     %1:vreg_64 = COPY $vgpr2_vgpr3
202     %0:vreg_64 = COPY $vgpr0_vgpr1
203     %3:vgpr_32 = FLAT_LOAD_DWORD %0, 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
204     %4:vgpr_32 = FLAT_LOAD_DWORD %1, 0, 0, implicit $exec, implicit $flat_scr :: (load (s32))
206     %5:vgpr_32 = V_AND_B32_e32 65535, %3, implicit $exec
207     %6:vgpr_32 = V_LSHRREV_B32_e64 16, %4, implicit $exec
208     %7:vgpr_32 = V_BFE_U32_e64 %3, 8, 8, implicit $exec
209     %8:vgpr_32 = V_LSHRREV_B32_e32 24, %4, implicit $exec
211     %9:vgpr_32 = V_ADD_F16_e64 0, %5, 0, %6, 0, 0, implicit $mode, implicit $exec
212     %10:vgpr_32 = V_LSHLREV_B16_e64 8, %9, implicit $exec
214   bb.1:
215     %11:vgpr_32 = V_MUL_F32_e64 0, %7, 0, %8, 0, 0, implicit $mode, implicit $exec
216     %12:vgpr_32 = V_LSHLREV_B32_e64 16, %11, implicit $exec
218   bb.2:
219     %13:vgpr_32 = V_OR_B32_e64 %10, %12, implicit $exec
221     FLAT_STORE_DWORD %0, %13, 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
222     $sgpr30_sgpr31 = COPY %2
223     S_SETPC_B64_return $sgpr30_sgpr31
226 # Should not add kill flag to reused ops in SDWAInst
229 name: multiuse_kill
230 tracksRegLiveness: true
232 body:             |
233   bb.0:
234     ; SDWA-LABEL: name: multiuse_kill
235     ; SDWA: [[DEF:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
236     ; SDWA-NEXT: [[DEF1:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
237     ; SDWA-NEXT: [[DEF2:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
238     ; SDWA-NEXT: [[V_LSHLREV_B32_e64_:%[0-9]+]]:vgpr_32 = V_LSHLREV_B32_e64 16, killed [[DEF]], implicit $exec
239     ; SDWA-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 65535
240     ; SDWA-NEXT: [[V_AND_B32_e64_:%[0-9]+]]:vgpr_32 = V_AND_B32_e64 killed [[S_MOV_B32_]], [[DEF1]], implicit $exec
241     ; SDWA-NEXT: [[V_OR_B32_sdwa:%[0-9]+]]:vgpr_32 = V_OR_B32_sdwa 0, [[DEF1]], 0, [[V_LSHLREV_B32_e64_]], 0, 6, 0, 4, 6, implicit $exec
242     ; SDWA-NEXT: [[V_LSHLREV_B32_e64_1:%[0-9]+]]:vgpr_32 = V_LSHLREV_B32_e64 16, killed [[DEF2]], implicit $exec
243     ; SDWA-NEXT: [[V_OR_B32_sdwa1:%[0-9]+]]:vgpr_32 = V_OR_B32_sdwa 0, [[DEF1]], 0, [[V_LSHLREV_B32_e64_1]], 0, 6, 0, 4, 6, implicit $exec
244     ; SDWA-NEXT: S_ENDPGM 0
245     %0:vgpr_32 = IMPLICIT_DEF
246     %1:vgpr_32 = IMPLICIT_DEF
247     %2:vgpr_32 = IMPLICIT_DEF
248     %3:vgpr_32 = V_LSHLREV_B32_e64 16, killed %0, implicit $exec
249     %4:sreg_32 = S_MOV_B32 65535
250     %5:vgpr_32 = V_AND_B32_e64 killed %4, killed %1, implicit $exec
251     %6:vgpr_32 = V_OR_B32_e64 %5, killed %3, implicit $exec
252     %7:vgpr_32 = V_LSHLREV_B32_e64 16, killed %2, implicit $exec
253     %8:vgpr_32 = V_OR_B32_e64 %5, killed %7, implicit $exec
255     S_ENDPGM 0