[MachineScheduler] Fix physreg dependencies of ExitSU (#123541)
[llvm-project.git] / llvm / test / CodeGen / AMDGPU / llvm.amdgcn.cvt.scalef32.sr.pk.gfx950.ll
blob7433f6611cd9bd7348d50fd4e7bea5e9e462efcd
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 4
2 ; RUN: llc -global-isel=0 -mtriple=amdgcn -mcpu=gfx950 -verify-machineinstrs < %s | FileCheck -check-prefix=GFX950 %s
3 ; RUN: llc -global-isel=1 -global-isel-abort=2 -mtriple=amdgcn -mcpu=gfx950 -verify-machineinstrs < %s | FileCheck -check-prefix=GFX950 %s
5 declare i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f16(i32 %old, <2 x half> %src, i32 %seed, float %scale, i32 %dst_sel)
6 declare i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.bf16(i32 %old, <2 x bfloat> %src, i32 %seed, float %scale, i32 %dst_sel)
7 declare i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f32(i32 %old, <2 x float> %src, i32 %seed, float %scale, i32 %dst_sel)
9 define amdgpu_ps void @test_scalef32_sr_pk_fp4_f16_dst_sel_0(ptr addrspace(1) %out, <2 x half> %src, i32 %seed, float %scale) {
10 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_f16_dst_sel_0:
11 ; GFX950:       ; %bb.0:
12 ; GFX950-NEXT:    global_load_dword v5, v[0:1], off
13 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
14 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_f16 v6, v2, v3, v4
15 ; GFX950-NEXT:    global_store_dword v[0:1], v6, off
16 ; GFX950-NEXT:    s_endpgm
17   %old = load i32, ptr addrspace(1) %out, align 4
18   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f16(i32 %old, <2 x half> %src, i32 %seed, float %scale, i32 0)
19   store i32 %cvt, ptr addrspace(1) %out, align 4
20   ret void
23 define amdgpu_ps void @test_scalef32_sr_pk_fp4_f16_dst_sel_1(ptr addrspace(1) %out, <2 x half> %src, i32 %seed, float %scale) {
24 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_f16_dst_sel_1:
25 ; GFX950:       ; %bb.0:
26 ; GFX950-NEXT:    global_load_dword v5, v[0:1], off
27 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
28 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_f16 v6, v2, v3, v4 op_sel:[0,0,1,0]
29 ; GFX950-NEXT:    global_store_dword v[0:1], v6, off
30 ; GFX950-NEXT:    s_endpgm
31   %old = load i32, ptr addrspace(1) %out, align 4
32   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f16(i32 %old, <2 x half> %src, i32 %seed, float %scale, i32 1)
33   store i32 %cvt, ptr addrspace(1) %out, align 4
34   ret void
37 define amdgpu_ps void @test_scalef32_sr_pk_fp4_f16_dst_sel_2(ptr addrspace(1) %out, <2 x half> %src, i32 %seed, float %scale) {
38 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_f16_dst_sel_2:
39 ; GFX950:       ; %bb.0:
40 ; GFX950-NEXT:    global_load_dword v5, v[0:1], off
41 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
42 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_f16 v6, v2, v3, v4 op_sel:[0,0,0,1]
43 ; GFX950-NEXT:    global_store_dword v[0:1], v6, off
44 ; GFX950-NEXT:    s_endpgm
45   %old = load i32, ptr addrspace(1) %out, align 4
46   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f16(i32 %old, <2 x half> %src, i32 %seed, float %scale, i32 2)
47   store i32 %cvt, ptr addrspace(1) %out, align 4
48   ret void
51 define amdgpu_ps void @test_scalef32_sr_pk_fp4_f16_dst_sel_3(ptr addrspace(1) %out, <2 x half> %src, i32 %seed, float %scale) {
52 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_f16_dst_sel_3:
53 ; GFX950:       ; %bb.0:
54 ; GFX950-NEXT:    global_load_dword v5, v[0:1], off
55 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
56 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_f16 v6, v2, v3, v4 op_sel:[0,0,1,1]
57 ; GFX950-NEXT:    global_store_dword v[0:1], v6, off
58 ; GFX950-NEXT:    s_endpgm
59   %old = load i32, ptr addrspace(1) %out, align 4
60   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f16(i32 %old, <2 x half> %src, i32 %seed, float %scale, i32 3)
61   store i32 %cvt, ptr addrspace(1) %out, align 4
62   ret void
65 define amdgpu_ps void @test_scalef32_sr_pk_fp4_bf16_dst_sel_0(ptr addrspace(1) %out, <2 x bfloat> %src, i32 %seed, float %scale) {
66 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_bf16_dst_sel_0:
67 ; GFX950:       ; %bb.0:
68 ; GFX950-NEXT:    global_load_dword v5, v[0:1], off
69 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
70 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_bf16 v6, v2, v3, v4
71 ; GFX950-NEXT:    global_store_dword v[0:1], v6, off
72 ; GFX950-NEXT:    s_endpgm
73   %old = load i32, ptr addrspace(1) %out, align 4
74   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.bf16(i32 %old, <2 x bfloat> %src, i32 %seed, float %scale, i32 0)
75   store i32 %cvt, ptr addrspace(1) %out, align 4
76   ret void
79 define amdgpu_ps void @test_scalef32_sr_pk_fp4_bf16_dst_sel_1(ptr addrspace(1) %out, <2 x bfloat> %src, i32 %seed, float %scale) {
80 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_bf16_dst_sel_1:
81 ; GFX950:       ; %bb.0:
82 ; GFX950-NEXT:    global_load_dword v5, v[0:1], off
83 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
84 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_bf16 v6, v2, v3, v4 op_sel:[0,0,1,0]
85 ; GFX950-NEXT:    global_store_dword v[0:1], v6, off
86 ; GFX950-NEXT:    s_endpgm
87   %old = load i32, ptr addrspace(1) %out, align 4
88   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.bf16(i32 %old, <2 x bfloat> %src, i32 %seed, float %scale, i32 1)
89   store i32 %cvt, ptr addrspace(1) %out, align 4
90   ret void
93 define amdgpu_ps void @test_scalef32_sr_pk_fp4_bf16_dst_sel_2(ptr addrspace(1) %out, <2 x bfloat> %src, i32 %seed, float %scale) {
94 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_bf16_dst_sel_2:
95 ; GFX950:       ; %bb.0:
96 ; GFX950-NEXT:    global_load_dword v5, v[0:1], off
97 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
98 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_bf16 v6, v2, v3, v4 op_sel:[0,0,0,1]
99 ; GFX950-NEXT:    global_store_dword v[0:1], v6, off
100 ; GFX950-NEXT:    s_endpgm
101   %old = load i32, ptr addrspace(1) %out, align 4
102   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.bf16(i32 %old, <2 x bfloat> %src, i32 %seed, float %scale, i32 2)
103   store i32 %cvt, ptr addrspace(1) %out, align 4
104   ret void
107 define amdgpu_ps void @test_scalef32_sr_pk_fp4_bf16_dst_sel_3(ptr addrspace(1) %out, <2 x bfloat> %src, i32 %seed, float %scale) {
108 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_bf16_dst_sel_3:
109 ; GFX950:       ; %bb.0:
110 ; GFX950-NEXT:    global_load_dword v5, v[0:1], off
111 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
112 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_bf16 v6, v2, v3, v4 op_sel:[0,0,1,1]
113 ; GFX950-NEXT:    global_store_dword v[0:1], v6, off
114 ; GFX950-NEXT:    s_endpgm
115   %old = load i32, ptr addrspace(1) %out, align 4
116   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.bf16(i32 %old, <2 x bfloat> %src, i32 %seed, float %scale, i32 3)
117   store i32 %cvt, ptr addrspace(1) %out, align 4
118   ret void
121 define amdgpu_ps void @test_scalef32_sr_pk_fp4_f32_dst_sel_0(ptr addrspace(1) %out, <2 x float> %src, i32 %seed, float %scale) {
122 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_f32_dst_sel_0:
123 ; GFX950:       ; %bb.0:
124 ; GFX950-NEXT:    global_load_dword v6, v[0:1], off
125 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
126 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_f32 v7, v[2:3], v4, v5
127 ; GFX950-NEXT:    global_store_dword v[0:1], v7, off
128 ; GFX950-NEXT:    s_endpgm
129   %old = load i32, ptr addrspace(1) %out, align 4
130   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f32(i32 %old, <2 x float> %src, i32 %seed, float %scale, i32 0)
131   store i32 %cvt, ptr addrspace(1) %out, align 4
132   ret void
135 define amdgpu_ps void @test_scalef32_sr_pk_fp4_f32_dst_sel_1(ptr addrspace(1) %out, <2 x float> %src, i32 %seed, float %scale) {
136 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_f32_dst_sel_1:
137 ; GFX950:       ; %bb.0:
138 ; GFX950-NEXT:    global_load_dword v6, v[0:1], off
139 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
140 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_f32 v7, v[2:3], v4, v5 op_sel:[0,0,1,0]
141 ; GFX950-NEXT:    global_store_dword v[0:1], v7, off
142 ; GFX950-NEXT:    s_endpgm
143   %old = load i32, ptr addrspace(1) %out, align 4
144   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f32(i32 %old, <2 x float> %src, i32 %seed, float %scale, i32 1)
145   store i32 %cvt, ptr addrspace(1) %out, align 4
146   ret void
149 define amdgpu_ps void @test_scalef32_sr_pk_fp4_f32_dst_sel_2(ptr addrspace(1) %out, <2 x float> %src, i32 %seed, float %scale) {
150 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_f32_dst_sel_2:
151 ; GFX950:       ; %bb.0:
152 ; GFX950-NEXT:    global_load_dword v6, v[0:1], off
153 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
154 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_f32 v7, v[2:3], v4, v5 op_sel:[0,0,0,1]
155 ; GFX950-NEXT:    global_store_dword v[0:1], v7, off
156 ; GFX950-NEXT:    s_endpgm
157   %old = load i32, ptr addrspace(1) %out, align 4
158   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f32(i32 %old, <2 x float> %src, i32 %seed, float %scale, i32 2)
159   store i32 %cvt, ptr addrspace(1) %out, align 4
160   ret void
163 define amdgpu_ps void @test_scalef32_sr_pk_fp4_f32_dst_sel_3(ptr addrspace(1) %out, <2 x float> %src, i32 %seed, float %scale) {
164 ; GFX950-LABEL: test_scalef32_sr_pk_fp4_f32_dst_sel_3:
165 ; GFX950:       ; %bb.0:
166 ; GFX950-NEXT:    global_load_dword v6, v[0:1], off
167 ; GFX950-NEXT:    s_waitcnt vmcnt(0)
168 ; GFX950-NEXT:    v_cvt_scalef32_sr_pk_fp4_f32 v7, v[2:3], v4, v5 op_sel:[0,0,1,1]
169 ; GFX950-NEXT:    global_store_dword v[0:1], v7, off
170 ; GFX950-NEXT:    s_endpgm
171   %old = load i32, ptr addrspace(1) %out, align 4
172   %cvt = tail call i32 @llvm.amdgcn.cvt.scalef32.sr.pk.fp4.f32(i32 %old, <2 x float> %src, i32 %seed, float %scale, i32 3)
173   store i32 %cvt, ptr addrspace(1) %out, align 4
174   ret void