llvm/test/CodeGen/AMDGPU/lower-kernel-lds-global-uses.ll

   1 ; RUN: opt -S -mtriple=amdgcn-- -amdgpu-lower-module-lds < %s | FileCheck %s
   2 ; RUN: opt -S -mtriple=amdgcn-- -passes=amdgpu-lower-module-lds < %s | FileCheck %s
   3
   4 ;.
   5 ; Kernel LDS lowering.
   6 ;.
   7 ; @lds.1:  is part of @llvm.used list, and also it is used within kernel, hence it is lowered.
   8 ; @lds.2:  is part of @llvm.compiler.used list, and also it is used within kernel, hence it is lowered.
   9 ; @lds.3:  is used as initializer to @gptr.3, hence @lds.3 is not lowered, though it is used within kernel.
  10 ; @lds.4:  is used as initializer to @gptr.4, hence @lds.4 is not lowered, though it is used within kernel,
  11 ;          irrespective of the uses of @gptr.4 itself ( @gptr.4 is part of llvm.compiler.used list ).
  12 ; @lds.5:  is part of @llvm.used list, but is not used within kernel, hence it is not lowered.
  13 ; @lds.6:  is part of @llvm.compiler.used list, but is not used within kernel, hence it is not lowered.
  14 ;.
  15
  16 ; CHECK: %llvm.amdgcn.kernel.k0.lds.t = type { i32, i16 }
  17
  18 ; CHECK-NOT: @lds.1
  19 ; CHECK-NOT: @lds.2
  20 ; CHECK: @lds.3 = addrspace(3) global i64 undef, align 8
  21 ; CHECK: @lds.4 = addrspace(3) global float undef, align 4
  22 ; CHECK: @lds.5 = addrspace(3) global i16 undef, align 2
  23 ; CHECK: @lds.6 = addrspace(3) global i32 undef, align 4
  24 @lds.1 = addrspace(3) global i16 undef, align 2
  25 @lds.2 = addrspace(3) global i32 undef, align 4
  26 @lds.3 = addrspace(3) global i64 undef, align 8
  27 @lds.4 = addrspace(3) global float undef, align 4
  28 @lds.5 = addrspace(3) global i16 undef, align 2
  29 @lds.6 = addrspace(3) global i32 undef, align 4
  30
  31 ; CHECK: @gptr.3 = addrspace(1) global i64* addrspacecast (i64 addrspace(3)* @lds.3 to i64*), align 8
  32 ; CHECK: @gptr.4 = addrspace(1) global i64* addrspacecast (i64 addrspace(3)* bitcast (float addrspace(3)* @lds.4 to i64 addrspace(3)*) to i64*), align 8
  33 @gptr.3 = addrspace(1) global i64* addrspacecast (i64 addrspace(3)* @lds.3 to i64*), align 8
  34 @gptr.4 = addrspace(1) global i64* addrspacecast (float addrspace(3)* @lds.4 to i64*), align 8
  35
  36 ; CHECK: @llvm.amdgcn.kernel.k0.lds = internal addrspace(3) global %llvm.amdgcn.kernel.k0.lds.t undef, align 4
  37
  38 ; CHECK: @llvm.used = appending global [1 x i8*] [i8* addrspacecast (i8 addrspace(3)* bitcast (i16 addrspace(3)* @lds.5 to i8 addrspace(3)*) to i8*)], section "llvm.metadata"
  39 ; CHECK: @llvm.compiler.used = appending global [2 x i8*] [i8* addrspacecast (i8 addrspace(1)* bitcast (i64* addrspace(1)* @gptr.4 to i8 addrspace(1)*) to i8*), i8* addrspacecast (i8 addrspace(3)* bitcast (i32 addrspace(3)* @lds.6 to i8 addrspace(3)*) to i8*)], section "llvm.metadata"
  40 @llvm.used = appending global [2 x i8*] [i8* addrspacecast (i8 addrspace(3)* bitcast (i16 addrspace(3)* @lds.1 to i8 addrspace(3)*) to i8*), i8* addrspacecast (i8 addrspace(3)* bitcast (i16 addrspace(3)* @lds.5 to i8 addrspace(3)*) to i8*)], section "llvm.metadata"
  41 @llvm.compiler.used = appending global [3 x i8*] [i8* addrspacecast (i8 addrspace(3)* bitcast (i32 addrspace(3)* @lds.2 to i8 addrspace(3)*) to i8*), i8* addrspacecast (i8 addrspace(1)* bitcast (i64* addrspace(1)* @gptr.4 to i8 addrspace(1)*) to i8*), i8* addrspacecast (i8 addrspace(3)* bitcast (i32 addrspace(3)* @lds.6 to i8 addrspace(3)*) to i8*)], section "llvm.metadata"
  42
  43 ; CHECK-LABEL: @k0()
  44 ; CHECK:   %ld.lds.1 = load i16, i16 addrspace(3)* getelementptr inbounds (%llvm.amdgcn.kernel.k0.lds.t, %llvm.amdgcn.kernel.k0.lds.t addrspace(3)* @llvm.amdgcn.kernel.k0.lds, i32 0, i32 1), align 4
  45 ; CHECK:   %ld.lds.2 = load i32, i32 addrspace(3)* getelementptr inbounds (%llvm.amdgcn.kernel.k0.lds.t, %llvm.amdgcn.kernel.k0.lds.t addrspace(3)* @llvm.amdgcn.kernel.k0.lds, i32 0, i32 0), align 4
  46 ; CHECK:   %ld.lds.3 = load i64, i64 addrspace(3)* @lds.3, align 4
  47 ; CHECK:   %ld.lds.4 = load float, float addrspace(3)* @lds.4, align 4
  48 ; CHECK:   ret void
  49 define amdgpu_kernel void @k0() {
  50   %ld.lds.1 = load i16, i16 addrspace(3)* @lds.1
  51   %ld.lds.2 = load i32, i32 addrspace(3)* @lds.2
  52   %ld.lds.3 = load i64, i64 addrspace(3)* @lds.3
  53   %ld.lds.4 = load float, float addrspace(3)* @lds.4
  54   ret void
  55 }