Run DCE after a LoopFlatten test to reduce spurious output [nfc]
[llvm-project.git] / llvm / test / CodeGen / NVPTX / lower-byval-args.ll
blobf041f202777f61ae8e97c47af8991609bdca68fa
1 ; RUN: llc < %s -mtriple nvptx -mcpu=sm_20 -verify-machineinstrs | FileCheck %s --check-prefixes=CHECK,CHECK32
2 ; RUN: llc < %s -mtriple nvptx64 -mcpu=sm_20 -verify-machineinstrs | FileCheck %s --check-prefixes=CHECK,CHECK64
3 ; RUN: %if ptxas && !ptxas-12.0 %{ llc < %s -mtriple nvptx -mcpu=sm_20 -verify-machineinstrs | %ptxas-verify %}
4 ; RUN: %if ptxas %{ llc < %s -mtriple nvptx64 -mcpu=sm_20 -verify-machineinstrs | %ptxas-verify %}
6 %struct.ham = type { [4 x i32] }
8 ; // Verify that load with static offset into parameter is done directly.
9 ; CHECK-LABEL: .visible .entry static_offset
10 ; CHECK-NOT:   .local
11 ; CHECK64: ld.param.u64    [[result_addr:%rd[0-9]+]], [{{.*}}_param_0]
12 ; CHECK64: mov.b64         %[[param_addr:rd[0-9]+]], {{.*}}_param_1
13 ; CHECK64: mov.u64         %[[param_addr1:rd[0-9]+]], %[[param_addr]]
14 ; CHECK64: cvta.to.global.u64 [[result_addr_g:%rd[0-9]+]], [[result_addr]]
16 ; CHECK32: ld.param.u32    [[result_addr:%r[0-9]+]], [{{.*}}_param_0]
17 ; CHECK32: mov.b32         %[[param_addr:r[0-9]+]], {{.*}}_param_1
18 ; CHECK32: mov.u32         %[[param_addr1:r[0-9]+]], %[[param_addr]]
19 ; CHECK32: cvta.to.global.u32 [[result_addr_g:%r[0-9]+]], [[result_addr]]
21 ; CHECK: ld.param.u32    [[value:%r[0-9]+]], [%[[param_addr1]]+12];
22 ; CHECK: st.global.u32   [[[result_addr_g]]], [[value]];
23 ; Function Attrs: nofree norecurse nounwind willreturn mustprogress
24 define dso_local void @static_offset(ptr nocapture %arg, ptr nocapture readonly byval(%struct.ham) align 4 %arg1, i32 %arg2) local_unnamed_addr #0 {
25 bb:
26   %tmp = icmp eq i32 %arg2, 3
27   br i1 %tmp, label %bb3, label %bb6
29 bb3:                                              ; preds = %bb
30   %tmp4 = getelementptr inbounds %struct.ham, ptr %arg1, i64 0, i32 0, i64 3
31   %tmp5 = load i32, ptr %tmp4, align 4
32   store i32 %tmp5, ptr %arg, align 4
33   br label %bb6
35 bb6:                                              ; preds = %bb3, %bb
36   ret void
39 ; // Verify that load with dynamic offset into parameter is also done directly.
40 ; CHECK-LABEL: .visible .entry dynamic_offset
41 ; CHECK-NOT:   .local
42 ; CHECK64: ld.param.u64    [[result_addr:%rd[0-9]+]], [{{.*}}_param_0]
43 ; CHECK64: mov.b64         %[[param_addr:rd[0-9]+]], {{.*}}_param_1
44 ; CHECK64: mov.u64         %[[param_addr1:rd[0-9]+]], %[[param_addr]]
45 ; CHECK64: cvta.to.global.u64 [[result_addr_g:%rd[0-9]+]], [[result_addr]]
46 ; CHECK64: add.s64         %[[param_w_offset:rd[0-9]+]], %[[param_addr1]],
48 ; CHECK32: ld.param.u32    [[result_addr:%r[0-9]+]], [{{.*}}_param_0]
49 ; CHECK32: mov.b32         %[[param_addr:r[0-9]+]], {{.*}}_param_1
50 ; CHECK32: mov.u32         %[[param_addr1:r[0-9]+]], %[[param_addr]]
51 ; CHECK32: cvta.to.global.u32 [[result_addr_g:%r[0-9]+]], [[result_addr]]
52 ; CHECK32: add.s32         %[[param_w_offset:r[0-9]+]], %[[param_addr1]],
54 ; CHECK: ld.param.u32    [[value:%r[0-9]+]], [%[[param_w_offset]]];
55 ; CHECK: st.global.u32   [[[result_addr_g]]], [[value]];
57 ; Function Attrs: nofree norecurse nounwind willreturn mustprogress
58 define dso_local void @dynamic_offset(ptr nocapture %arg, ptr nocapture readonly byval(%struct.ham) align 4 %arg1, i32 %arg2) local_unnamed_addr #0 {
59 bb:
60   %tmp = sext i32 %arg2 to i64
61   %tmp3 = getelementptr inbounds %struct.ham, ptr %arg1, i64 0, i32 0, i64 %tmp
62   %tmp4 = load i32, ptr %tmp3, align 4
63   store i32 %tmp4, ptr %arg, align 4
64   ret void
67 ; Same as above, but with a bitcast present in the chain
68 ; CHECK-LABEL:.visible .entry gep_bitcast
69 ; CHECK-NOT: .local
70 ; CHECK64-DAG: ld.param.u64    [[out:%rd[0-9]+]], [gep_bitcast_param_0]
71 ; CHECK64-DAG: mov.b64         {{%rd[0-9]+}}, gep_bitcast_param_1
73 ; CHECK32-DAG: ld.param.u32    [[out:%r[0-9]+]], [gep_bitcast_param_0]
74 ; CHECK32-DAG: mov.b32         {{%r[0-9]+}}, gep_bitcast_param_1
76 ; CHECK-DAG: ld.param.u32    {{%r[0-9]+}}, [gep_bitcast_param_2]
77 ; CHECK64:     ld.param.u8     [[value:%rs[0-9]+]], [{{%rd[0-9]+}}]
78 ; CHECK64:     st.global.u8    [{{%rd[0-9]+}}], [[value]];
79 ; CHECK32:     ld.param.u8     [[value:%rs[0-9]+]], [{{%r[0-9]+}}]
80 ; CHECK32:     st.global.u8    [{{%r[0-9]+}}], [[value]];
82 ; Function Attrs: nofree norecurse nounwind willreturn mustprogress
83 define dso_local void @gep_bitcast(ptr nocapture %out,  ptr nocapture readonly byval(%struct.ham) align 4 %in, i32 %n) local_unnamed_addr #0 {
84 bb:
85   %n64 = sext i32 %n to i64
86   %gep = getelementptr inbounds %struct.ham, ptr %in, i64 0, i32 0, i64 %n64
87   %load = load i8, ptr %gep, align 4
88   store i8 %load, ptr %out, align 4
89   ret void
92 ; Same as above, but with an ASC(101) present in the chain
93 ; CHECK-LABEL:.visible .entry gep_bitcast_asc
94 ; CHECK-NOT: .local
95 ; CHECK64-DAG: ld.param.u64    [[out:%rd[0-9]+]], [gep_bitcast_asc_param_0]
96 ; CHECK64-DAG: mov.b64         {{%rd[0-9]+}}, gep_bitcast_asc_param_1
98 ; CHECK32-DAG: ld.param.u32    [[out:%r[0-9]+]], [gep_bitcast_asc_param_0]
99 ; CHECK32-DAG: mov.b32         {{%r[0-9]+}}, gep_bitcast_asc_param_1
101 ; CHECK-DAG: ld.param.u32    {{%r[0-9]+}}, [gep_bitcast_asc_param_2]
102 ; CHECK64:     ld.param.u8     [[value:%rs[0-9]+]], [{{%rd[0-9]+}}]
103 ; CHECK64:     st.global.u8    [{{%rd[0-9]+}}], [[value]];
104 ; CHECK32:     ld.param.u8     [[value:%rs[0-9]+]], [{{%r[0-9]+}}]
105 ; CHECK32:     st.global.u8    [{{%r[0-9]+}}], [[value]];
107 ; Function Attrs: nofree norecurse nounwind willreturn mustprogress
108 define dso_local void @gep_bitcast_asc(ptr nocapture %out,  ptr nocapture readonly byval(%struct.ham) align 4 %in, i32 %n) local_unnamed_addr #0 {
110   %n64 = sext i32 %n to i64
111   %gep = getelementptr inbounds %struct.ham, ptr %in, i64 0, i32 0, i64 %n64
112   %asc = addrspacecast ptr %gep to ptr addrspace(101)
113   %load = load i8, ptr addrspace(101) %asc, align 4
114   store i8 %load, ptr %out, align 4
115   ret void
119 ; Verify that if the pointer escapes, then we do fall back onto using a temp copy.
120 ; CHECK-LABEL: .visible .entry pointer_escapes
121 ; CHECK: .local .align 4 .b8     __local_depot{{.*}}
122 ; CHECK64: ld.param.u64    [[result_addr:%rd[0-9]+]], [{{.*}}_param_0]
123 ; CHECK64: add.u64         %[[copy_addr:rd[0-9]+]], %SPL, 0;
124 ; CHECK32: ld.param.u32    [[result_addr:%r[0-9]+]], [{{.*}}_param_0]
125 ; CHECK32: add.u32         %[[copy_addr:r[0-9]+]], %SPL, 0;
126 ; CHECK-DAG: ld.param.u32    %{{.*}}, [pointer_escapes_param_1+12];
127 ; CHECK-DAG: ld.param.u32    %{{.*}}, [pointer_escapes_param_1+8];
128 ; CHECK-DAG: ld.param.u32    %{{.*}}, [pointer_escapes_param_1+4];
129 ; CHECK-DAG: ld.param.u32    %{{.*}}, [pointer_escapes_param_1];
130 ; CHECK-DAG: st.local.u32    [%[[copy_addr]]+12],
131 ; CHECK-DAG: st.local.u32    [%[[copy_addr]]+8],
132 ; CHECK-DAG: st.local.u32    [%[[copy_addr]]+4],
133 ; CHECK-DAG: st.local.u32    [%[[copy_addr]]],
134 ; CHECK64: cvta.to.global.u64 [[result_addr_g:%rd[0-9]+]], [[result_addr]]
135 ; CHECK64: add.s64         %[[copy_w_offset:rd[0-9]+]], %[[copy_addr]],
136 ; CHECK32: cvta.to.global.u32 [[result_addr_g:%r[0-9]+]], [[result_addr]]
137 ; CHECK32: add.s32         %[[copy_w_offset:r[0-9]+]], %[[copy_addr]],
138 ; CHECK: ld.local.u32    [[value:%r[0-9]+]], [%[[copy_w_offset]]];
139 ; CHECK: st.global.u32   [[[result_addr_g]]], [[value]];
141 ; Function Attrs: convergent norecurse nounwind mustprogress
142 define dso_local void @pointer_escapes(ptr nocapture %arg, ptr byval(%struct.ham) align 4 %arg1, i32 %arg2) local_unnamed_addr #1 {
144   %tmp = sext i32 %arg2 to i64
145   %tmp3 = getelementptr inbounds %struct.ham, ptr %arg1, i64 0, i32 0, i64 %tmp
146   %tmp4 = load i32, ptr %tmp3, align 4
147   store i32 %tmp4, ptr %arg, align 4
148   %tmp5 = call ptr @escape(ptr nonnull %tmp3) #3
149   ret void
152 ; Function Attrs: convergent nounwind
153 declare dso_local ptr @escape(ptr) local_unnamed_addr
156 !llvm.module.flags = !{!0, !1, !2}
157 !nvvm.annotations = !{!3, !4, !5, !6, !7}
159 !0 = !{i32 2, !"SDK Version", [2 x i32] [i32 9, i32 1]}
160 !1 = !{i32 1, !"wchar_size", i32 4}
161 !2 = !{i32 4, !"nvvm-reflect-ftz", i32 0}
162 !3 = !{ptr @static_offset, !"kernel", i32 1}
163 !4 = !{ptr @dynamic_offset, !"kernel", i32 1}
164 !5 = !{ptr @pointer_escapes, !"kernel", i32 1}
165 !6 = !{ptr @gep_bitcast, !"kernel", i32 1}
166 !7 = !{ptr @gep_bitcast_asc, !"kernel", i32 1}