llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s | FileCheck -check-prefixes=GFX10 %s
   3 ; RUN: llc -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -amdgpu-enable-vopd=0 -verify-machineinstrs < %s | FileCheck -check-prefixes=GFX11 %s
   4
   5 define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {
   6 ; GFX10-LABEL: sample_d_1d:
   7 ; GFX10:       ; %bb.0: ; %main_body
   8 ; GFX10-NEXT:    image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
   9 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
  10 ; GFX10-NEXT:    ; return to shader part epilog
  11 ;
  12 ; GFX11-LABEL: sample_d_1d:
  13 ; GFX11:       ; %bb.0: ; %main_body
  14 ; GFX11-NEXT:    image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
  15 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
  16 ; GFX11-NEXT:    ; return to shader part epilog
  17 main_body:
  18   %v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
  19   ret <4 x float> %v
  20 }
  21
  22 define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
  23 ; GFX10-LABEL: sample_d_2d:
  24 ; GFX10:       ; %bb.0: ; %main_body
  25 ; GFX10-NEXT:    v_perm_b32 v2, v3, v2, 0x5040100
  26 ; GFX10-NEXT:    v_perm_b32 v0, v1, v0, 0x5040100
  27 ; GFX10-NEXT:    image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
  28 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
  29 ; GFX10-NEXT:    ; return to shader part epilog
  30 ;
  31 ; GFX11-LABEL: sample_d_2d:
  32 ; GFX11:       ; %bb.0: ; %main_body
  33 ; GFX11-NEXT:    v_perm_b32 v2, v3, v2, 0x5040100
  34 ; GFX11-NEXT:    v_perm_b32 v0, v1, v0, 0x5040100
  35 ; GFX11-NEXT:    image_sample_d_g16 v[0:3], [v0, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
  36 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
  37 ; GFX11-NEXT:    ; return to shader part epilog
  38 main_body:
  39   %v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
  40   ret <4 x float> %v
  41 }
  42
  43 define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
  44 ; GFX10-LABEL: sample_d_3d:
  45 ; GFX10:       ; %bb.0: ; %main_body
  46 ; GFX10-NEXT:    v_mov_b32_e32 v9, v3
  47 ; GFX10-NEXT:    v_mov_b32_e32 v3, v2
  48 ; GFX10-NEXT:    v_perm_b32 v2, v1, v0, 0x5040100
  49 ; GFX10-NEXT:    v_perm_b32 v4, v4, v9, 0x5040100
  50 ; GFX10-NEXT:    image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
  51 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
  52 ; GFX10-NEXT:    ; return to shader part epilog
  53 ;
  54 ; GFX11-LABEL: sample_d_3d:
  55 ; GFX11:       ; %bb.0: ; %main_body
  56 ; GFX11-NEXT:    v_perm_b32 v3, v4, v3, 0x5040100
  57 ; GFX11-NEXT:    v_perm_b32 v0, v1, v0, 0x5040100
  58 ; GFX11-NEXT:    image_sample_d_g16 v[0:3], [v0, v2, v3, v5, v[6:8]], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
  59 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
  60 ; GFX11-NEXT:    ; return to shader part epilog
  61 main_body:
  62   %v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
  63   ret <4 x float> %v
  64 }
  65
  66 define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
  67 ; GFX10-LABEL: sample_c_d_1d:
  68 ; GFX10:       ; %bb.0: ; %main_body
  69 ; GFX10-NEXT:    image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
  70 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
  71 ; GFX10-NEXT:    ; return to shader part epilog
  72 ;
  73 ; GFX11-LABEL: sample_c_d_1d:
  74 ; GFX11:       ; %bb.0: ; %main_body
  75 ; GFX11-NEXT:    image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
  76 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
  77 ; GFX11-NEXT:    ; return to shader part epilog
  78 main_body:
  79   %v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
  80   ret <4 x float> %v
  81 }
  82
  83 define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
  84 ; GFX10-LABEL: sample_c_d_2d:
  85 ; GFX10:       ; %bb.0: ; %main_body
  86 ; GFX10-NEXT:    v_perm_b32 v3, v4, v3, 0x5040100
  87 ; GFX10-NEXT:    v_perm_b32 v1, v2, v1, 0x5040100
  88 ; GFX10-NEXT:    image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
  89 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
  90 ; GFX10-NEXT:    ; return to shader part epilog
  91 ;
  92 ; GFX11-LABEL: sample_c_d_2d:
  93 ; GFX11:       ; %bb.0: ; %main_body
  94 ; GFX11-NEXT:    v_perm_b32 v3, v4, v3, 0x5040100
  95 ; GFX11-NEXT:    v_perm_b32 v1, v2, v1, 0x5040100
  96 ; GFX11-NEXT:    image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
  97 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
  98 ; GFX11-NEXT:    ; return to shader part epilog
  99 main_body:
 100   %v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
 101   ret <4 x float> %v
 102 }
 103
 104 define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
 105 ; GFX10-LABEL: sample_d_cl_1d:
 106 ; GFX10:       ; %bb.0: ; %main_body
 107 ; GFX10-NEXT:    image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
 108 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 109 ; GFX10-NEXT:    ; return to shader part epilog
 110 ;
 111 ; GFX11-LABEL: sample_d_cl_1d:
 112 ; GFX11:       ; %bb.0: ; %main_body
 113 ; GFX11-NEXT:    image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
 114 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
 115 ; GFX11-NEXT:    ; return to shader part epilog
 116 main_body:
 117   %v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
 118   ret <4 x float> %v
 119 }
 120
 121 define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
 122 ; GFX10-LABEL: sample_d_cl_2d:
 123 ; GFX10:       ; %bb.0: ; %main_body
 124 ; GFX10-NEXT:    v_perm_b32 v2, v3, v2, 0x5040100
 125 ; GFX10-NEXT:    v_perm_b32 v0, v1, v0, 0x5040100
 126 ; GFX10-NEXT:    image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
 127 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 128 ; GFX10-NEXT:    ; return to shader part epilog
 129 ;
 130 ; GFX11-LABEL: sample_d_cl_2d:
 131 ; GFX11:       ; %bb.0: ; %main_body
 132 ; GFX11-NEXT:    v_perm_b32 v2, v3, v2, 0x5040100
 133 ; GFX11-NEXT:    v_perm_b32 v0, v1, v0, 0x5040100
 134 ; GFX11-NEXT:    image_sample_d_cl_g16 v[0:3], [v0, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
 135 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
 136 ; GFX11-NEXT:    ; return to shader part epilog
 137 main_body:
 138   %v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
 139   ret <4 x float> %v
 140 }
 141
 142 define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
 143 ; GFX10-LABEL: sample_c_d_cl_1d:
 144 ; GFX10:       ; %bb.0: ; %main_body
 145 ; GFX10-NEXT:    image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
 146 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 147 ; GFX10-NEXT:    ; return to shader part epilog
 148 ;
 149 ; GFX11-LABEL: sample_c_d_cl_1d:
 150 ; GFX11:       ; %bb.0: ; %main_body
 151 ; GFX11-NEXT:    image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
 152 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
 153 ; GFX11-NEXT:    ; return to shader part epilog
 154 main_body:
 155   %v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
 156   ret <4 x float> %v
 157 }
 158
 159 define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
 160 ; GFX10-LABEL: sample_c_d_cl_2d:
 161 ; GFX10:       ; %bb.0: ; %main_body
 162 ; GFX10-NEXT:    v_mov_b32_e32 v8, v2
 163 ; GFX10-NEXT:    v_mov_b32_e32 v2, v0
 164 ; GFX10-NEXT:    v_perm_b32 v4, v4, v3, 0x5040100
 165 ; GFX10-NEXT:    v_perm_b32 v3, v8, v1, 0x5040100
 166 ; GFX10-NEXT:    image_sample_c_d_cl_g16 v[0:3], v[2:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
 167 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 168 ; GFX10-NEXT:    ; return to shader part epilog
 169 ;
 170 ; GFX11-LABEL: sample_c_d_cl_2d:
 171 ; GFX11:       ; %bb.0: ; %main_body
 172 ; GFX11-NEXT:    v_perm_b32 v3, v4, v3, 0x5040100
 173 ; GFX11-NEXT:    v_perm_b32 v1, v2, v1, 0x5040100
 174 ; GFX11-NEXT:    image_sample_c_d_cl_g16 v[0:3], [v0, v1, v3, v5, v[6:7]], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
 175 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
 176 ; GFX11-NEXT:    ; return to shader part epilog
 177 main_body:
 178   %v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
 179   ret <4 x float> %v
 180 }
 181
 182 define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
 183 ; GFX10-LABEL: sample_c_d_o_2darray_V1:
 184 ; GFX10:       ; %bb.0: ; %main_body
 185 ; GFX10-NEXT:    v_mov_b32_e32 v9, v3
 186 ; GFX10-NEXT:    v_mov_b32_e32 v10, v2
 187 ; GFX10-NEXT:    v_mov_b32_e32 v3, v1
 188 ; GFX10-NEXT:    v_mov_b32_e32 v2, v0
 189 ; GFX10-NEXT:    v_perm_b32 v5, v5, v4, 0x5040100
 190 ; GFX10-NEXT:    v_perm_b32 v4, v9, v10, 0x5040100
 191 ; GFX10-NEXT:    image_sample_c_d_o_g16 v0, v[2:8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY
 192 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 193 ; GFX10-NEXT:    ; return to shader part epilog
 194 ;
 195 ; GFX11-LABEL: sample_c_d_o_2darray_V1:
 196 ; GFX11:       ; %bb.0: ; %main_body
 197 ; GFX11-NEXT:    v_perm_b32 v4, v5, v4, 0x5040100
 198 ; GFX11-NEXT:    v_perm_b32 v2, v3, v2, 0x5040100
 199 ; GFX11-NEXT:    image_sample_c_d_o_g16 v0, [v0, v1, v2, v4, v[6:8]], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY
 200 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
 201 ; GFX11-NEXT:    ; return to shader part epilog
 202 main_body:
 203   %v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f16.f32.f32(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
 204   ret float %v
 205 }
 206
 207 define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice) {
 208 ; GFX10-LABEL: sample_c_d_o_2darray_V2:
 209 ; GFX10:       ; %bb.0: ; %main_body
 210 ; GFX10-NEXT:    v_mov_b32_e32 v9, v3
 211 ; GFX10-NEXT:    v_mov_b32_e32 v10, v2
 212 ; GFX10-NEXT:    v_mov_b32_e32 v3, v1
 213 ; GFX10-NEXT:    v_mov_b32_e32 v2, v0
 214 ; GFX10-NEXT:    v_perm_b32 v5, v5, v4, 0x5040100
 215 ; GFX10-NEXT:    v_perm_b32 v4, v9, v10, 0x5040100
 216 ; GFX10-NEXT:    image_sample_c_d_o_g16 v[0:1], v[2:8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY
 217 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 218 ; GFX10-NEXT:    ; return to shader part epilog
 219 ;
 220 ; GFX11-LABEL: sample_c_d_o_2darray_V2:
 221 ; GFX11:       ; %bb.0: ; %main_body
 222 ; GFX11-NEXT:    v_perm_b32 v4, v5, v4, 0x5040100
 223 ; GFX11-NEXT:    v_perm_b32 v2, v3, v2, 0x5040100
 224 ; GFX11-NEXT:    image_sample_c_d_o_g16 v[0:1], [v0, v1, v2, v4, v[6:8]], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY
 225 ; GFX11-NEXT:    s_waitcnt vmcnt(0)
 226 ; GFX11-NEXT:    ; return to shader part epilog
 227 main_body:
 228   %v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
 229   ret <2 x float> %v
 230 }
 231
 232 declare <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32, half, half, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 233 declare <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32, half, half, half, half, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 234 declare <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32, half, half, half, half, half, half, float, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 235 declare <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32, float, half, half, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 236 declare <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32, float, half, half, half, half, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 237 declare <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32, half, half, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 238 declare <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32, half, half, half, half, float, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 239 declare <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32, float, half, half, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 240 declare <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32, float, half, half, half, half, float, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 241
 242 declare float @llvm.amdgcn.image.sample.c.d.o.2darray.f16.f32.f32(i32, i32, float, half, half, half, half, float, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 243 declare <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f16.f32(i32, i32, float, half, half, half, half, float, float, float, <8 x i32>, <4 x i32>, i1, i32, i32) #1
 244
 245 attributes #0 = { nounwind }
 246 attributes #1 = { nounwind readonly }
 247 attributes #2 = { nounwind readnone }