llvm/test/CodeGen/AMDGPU/load-local-f32.ll

   1 ; RUN: llc -march=amdgcn -verify-machineinstrs < %s | FileCheck -check-prefixes=GCN,SICIVI,FUNC %s
   2 ; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-enable-ds128 -verify-machineinstrs < %s | FileCheck -check-prefixes=GCN,SICIVI,FUNC %s
   3 ; RUN: llc -march=r600 -mcpu=redwood < %s | FileCheck -check-prefixes=EG,FUNC %s
   4
   5 ; Testing for ds_read/write_128
   6 ; RUN: llc -march=amdgcn -mcpu=tahiti -mattr=+enable-ds128 < %s | FileCheck -check-prefixes=SI,FUNC %s
   7 ; RUN: llc -march=amdgcn -mcpu=tonga -mattr=+enable-ds128 < %s | FileCheck -check-prefixes=CIVI,FUNC %s
   8 ; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+enable-ds128 < %s | FileCheck -check-prefixes=CIVI,FUNC %s
   9
  10 ; FUNC-LABEL: {{^}}load_f32_local:
  11 ; SICIVI: s_mov_b32 m0
  12 ; GFX9-NOT: m0
  13 ; GCN: ds_read_b32
  14
  15 ; EG: LDS_READ_RET
  16 define amdgpu_kernel void @load_f32_local(ptr addrspace(1) %out, ptr addrspace(3) %in) #0 {
  17 entry:
  18   %tmp0 = load float, ptr addrspace(3) %in
  19   store float %tmp0, ptr addrspace(1) %out
  20   ret void
  21 }
  22
  23 ; FUNC-LABEL: {{^}}load_v2f32_local:
  24 ; SICIVI: s_mov_b32 m0
  25 ; GFX9-NOT: m0
  26
  27 ; GCN: ds_read_b64
  28
  29 ; EG: LDS_READ_RET
  30 ; EG: LDS_READ_RET
  31 define amdgpu_kernel void @load_v2f32_local(ptr addrspace(1) %out, ptr addrspace(3) %in) #0 {
  32 entry:
  33   %tmp0 = load <2 x float>, ptr addrspace(3) %in
  34   store <2 x float> %tmp0, ptr addrspace(1) %out
  35   ret void
  36 }
  37
  38 ; FIXME: should this do a read2_b64?
  39 ; FUNC-LABEL: {{^}}local_load_v3f32:
  40 ; SICIVI: s_mov_b32 m0
  41 ; GFX9-NOT: m0
  42
  43 ; SI-DAG: ds_read_b32 v{{[0-9]+}}, v{{[0-9]+}} offset:8
  44 ; SI-DAG: ds_read_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+$}}
  45 ; CIVI-DAG: ds_read_b96 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+$}}
  46 ; GCN: s_waitcnt
  47 ; SI-DAG: ds_write_b64
  48 ; SI-DAG: ds_write_b32 v{{[0-9]+}}, v{{[0-9]+}} offset:8{{$}}
  49 ; CIVI-DAG: ds_write_b96 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}
  50
  51 ; EG: LDS_READ_RET
  52 ; EG: LDS_READ_RET
  53 ; EG: LDS_READ_RET
  54 define amdgpu_kernel void @local_load_v3f32(ptr addrspace(3) %out, ptr addrspace(3) %in) #0 {
  55 entry:
  56   %tmp0 = load <3 x float>, ptr addrspace(3) %in
  57   store <3 x float> %tmp0, ptr addrspace(3) %out
  58   ret void
  59 }
  60
  61 ; FUNC-LABEL: {{^}}local_load_v4f32:
  62 ; SICIVI: s_mov_b32 m0
  63 ; GFX9-NOT: m0
  64
  65 ; GCN: ds_read2_b64
  66
  67 ; EG: LDS_READ_RET
  68 ; EG: LDS_READ_RET
  69 ; EG: LDS_READ_RET
  70 ; EG: LDS_READ_RET
  71 define amdgpu_kernel void @local_load_v4f32(ptr addrspace(3) %out, ptr addrspace(3) %in) #0 {
  72 entry:
  73   %tmp0 = load <4 x float>, ptr addrspace(3) %in
  74   store <4 x float> %tmp0, ptr addrspace(3) %out
  75   ret void
  76 }
  77
  78 ; FUNC-LABEL: {{^}}local_load_v8f32:
  79 ; SICIVI: s_mov_b32 m0
  80 ; GFX9-NOT: m0
  81
  82 ; GCN: ds_read2_b64
  83 ; GCN: ds_read2_b64
  84
  85 ; EG: LDS_READ_RET
  86 ; EG: LDS_READ_RET
  87 ; EG: LDS_READ_RET
  88 ; EG: LDS_READ_RET
  89 ; EG: LDS_READ_RET
  90 ; EG: LDS_READ_RET
  91 ; EG: LDS_READ_RET
  92 ; EG: LDS_READ_RET
  93 define amdgpu_kernel void @local_load_v8f32(ptr addrspace(3) %out, ptr addrspace(3) %in) #0 {
  94 entry:
  95   %tmp0 = load <8 x float>, ptr addrspace(3) %in
  96   store <8 x float> %tmp0, ptr addrspace(3) %out
  97   ret void
  98 }
  99
 100 ; FUNC-LABEL: {{^}}local_load_v16f32:
 101 ; SICIVI: s_mov_b32 m0
 102 ; GFX9-NOT: m0
 103
 104 ; GCN: ds_read2_b64
 105 ; GCN: ds_read2_b64
 106 ; GCN: ds_read2_b64
 107 ; GCN: ds_read2_b64
 108
 109 ; EG: LDS_READ_RET
 110 ; EG: LDS_READ_RET
 111 ; EG: LDS_READ_RET
 112 ; EG: LDS_READ_RET
 113 ; EG: LDS_READ_RET
 114 ; EG: LDS_READ_RET
 115 ; EG: LDS_READ_RET
 116 ; EG: LDS_READ_RET
 117 ; EG: LDS_READ_RET
 118 ; EG: LDS_READ_RET
 119 ; EG: LDS_READ_RET
 120 ; EG: LDS_READ_RET
 121 ; EG: LDS_READ_RET
 122 ; EG: LDS_READ_RET
 123 ; EG: LDS_READ_RET
 124 ; EG: LDS_READ_RET
 125 define amdgpu_kernel void @local_load_v16f32(ptr addrspace(3) %out, ptr addrspace(3) %in) #0 {
 126 entry:
 127   %tmp0 = load <16 x float>, ptr addrspace(3) %in
 128   store <16 x float> %tmp0, ptr addrspace(3) %out
 129   ret void
 130 }
 131
 132 ; Tests if ds_read/write_b128 gets generated for the 16 byte aligned load.
 133 ; FUNC-LABEL: {{^}}local_v4f32_to_128:
 134
 135 ; SI-NOT: ds_read_b128
 136 ; SI-NOT: ds_write_b128
 137
 138 ; CIVI: ds_read_b128
 139 ; CIVI: ds_write_b128
 140
 141 ; EG: LDS_READ_RET
 142 ; EG: LDS_READ_RET
 143 ; EG: LDS_READ_RET
 144 ; EG: LDS_READ_RET
 145 define amdgpu_kernel void @local_v4f32_to_128(ptr addrspace(3) %out, ptr addrspace(3) %in) {
 146   %ld = load <4 x float>, ptr addrspace(3) %in, align 16
 147   store <4 x float> %ld, ptr addrspace(3) %out, align 16
 148   ret void
 149 }
 150
 151 attributes #0 = { nounwind }