llvm/test/CodeGen/RISCV/rvv/fixed-vectors-strided-vpload.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc -mtriple=riscv32 -mattr=+m,+d,+zfh,+v,+zvfh \
   3 ; RUN:   -verify-machineinstrs < %s \
   4 ; RUN:   | FileCheck %s --check-prefixes=CHECK,CHECK-RV32
   5 ; RUN: llc -mtriple=riscv64 -mattr=+m,+d,+zfh,+v,+zvfh \
   6 ; RUN:   -verify-machineinstrs < %s \
   7 ; RUN:   | FileCheck %s --check-prefixes=CHECK,CHECK-RV64
   8
   9 declare <2 x i8> @llvm.experimental.vp.strided.load.v2i8.p0.i8(ptr, i8, <2 x i1>, i32)
  10
  11 define <2 x i8> @strided_vpload_v2i8_i8(ptr %ptr, i8 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
  12 ; CHECK-LABEL: strided_vpload_v2i8_i8:
  13 ; CHECK:       # %bb.0:
  14 ; CHECK-NEXT:    vsetvli zero, a2, e8, mf8, ta, ma
  15 ; CHECK-NEXT:    vlse8.v v8, (a0), a1, v0.t
  16 ; CHECK-NEXT:    ret
  17   %load = call <2 x i8> @llvm.experimental.vp.strided.load.v2i8.p0.i8(ptr %ptr, i8 %stride, <2 x i1> %m, i32 %evl)
  18   ret <2 x i8> %load
  19 }
  20
  21 declare <2 x i8> @llvm.experimental.vp.strided.load.v2i8.p0.i16(ptr, i16, <2 x i1>, i32)
  22
  23 define <2 x i8> @strided_vpload_v2i8_i16(ptr %ptr, i16 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
  24 ; CHECK-LABEL: strided_vpload_v2i8_i16:
  25 ; CHECK:       # %bb.0:
  26 ; CHECK-NEXT:    vsetvli zero, a2, e8, mf8, ta, ma
  27 ; CHECK-NEXT:    vlse8.v v8, (a0), a1, v0.t
  28 ; CHECK-NEXT:    ret
  29   %load = call <2 x i8> @llvm.experimental.vp.strided.load.v2i8.p0.i16(ptr %ptr, i16 %stride, <2 x i1> %m, i32 %evl)
  30   ret <2 x i8> %load
  31 }
  32
  33 declare <2 x i8> @llvm.experimental.vp.strided.load.v2i8.p0.i64(ptr, i64, <2 x i1>, i32)
  34
  35 define <2 x i8> @strided_vpload_v2i8_i64(ptr %ptr, i64 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
  36 ; CHECK-RV32-LABEL: strided_vpload_v2i8_i64:
  37 ; CHECK-RV32:       # %bb.0:
  38 ; CHECK-RV32-NEXT:    vsetvli zero, a3, e8, mf8, ta, ma
  39 ; CHECK-RV32-NEXT:    vlse8.v v8, (a0), a1, v0.t
  40 ; CHECK-RV32-NEXT:    ret
  41 ;
  42 ; CHECK-RV64-LABEL: strided_vpload_v2i8_i64:
  43 ; CHECK-RV64:       # %bb.0:
  44 ; CHECK-RV64-NEXT:    vsetvli zero, a2, e8, mf8, ta, ma
  45 ; CHECK-RV64-NEXT:    vlse8.v v8, (a0), a1, v0.t
  46 ; CHECK-RV64-NEXT:    ret
  47   %load = call <2 x i8> @llvm.experimental.vp.strided.load.v2i8.p0.i64(ptr %ptr, i64 %stride, <2 x i1> %m, i32 %evl)
  48   ret <2 x i8> %load
  49 }
  50
  51 declare <2 x i8> @llvm.experimental.vp.strided.load.v2i8.p0.i32(ptr, i32, <2 x i1>, i32)
  52
  53 define <2 x i8> @strided_vpload_v2i8(ptr %ptr, i32 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
  54 ; CHECK-LABEL: strided_vpload_v2i8:
  55 ; CHECK:       # %bb.0:
  56 ; CHECK-NEXT:    vsetvli zero, a2, e8, mf8, ta, ma
  57 ; CHECK-NEXT:    vlse8.v v8, (a0), a1, v0.t
  58 ; CHECK-NEXT:    ret
  59   %load = call <2 x i8> @llvm.experimental.vp.strided.load.v2i8.p0.i32(ptr %ptr, i32 %stride, <2 x i1> %m, i32 %evl)
  60   ret <2 x i8> %load
  61 }
  62
  63 declare <4 x i8> @llvm.experimental.vp.strided.load.v4i8.p0.i32(ptr, i32, <4 x i1>, i32)
  64
  65 define <4 x i8> @strided_vpload_v4i8(ptr %ptr, i32 signext %stride, <4 x i1> %m, i32 zeroext %evl) {
  66 ; CHECK-LABEL: strided_vpload_v4i8:
  67 ; CHECK:       # %bb.0:
  68 ; CHECK-NEXT:    vsetvli zero, a2, e8, mf4, ta, ma
  69 ; CHECK-NEXT:    vlse8.v v8, (a0), a1, v0.t
  70 ; CHECK-NEXT:    ret
  71   %load = call <4 x i8> @llvm.experimental.vp.strided.load.v4i8.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %m, i32 %evl)
  72   ret <4 x i8> %load
  73 }
  74
  75 define <4 x i8> @strided_vpload_v4i8_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) {
  76 ; CHECK-LABEL: strided_vpload_v4i8_allones_mask:
  77 ; CHECK:       # %bb.0:
  78 ; CHECK-NEXT:    vsetvli zero, a2, e8, mf4, ta, ma
  79 ; CHECK-NEXT:    vlse8.v v8, (a0), a1
  80 ; CHECK-NEXT:    ret
  81   %a = insertelement <4 x i1> poison, i1 true, i32 0
  82   %b = shufflevector <4 x i1> %a, <4 x i1> poison, <4 x i32> zeroinitializer
  83   %load = call <4 x i8> @llvm.experimental.vp.strided.load.v4i8.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %b, i32 %evl)
  84   ret <4 x i8> %load
  85 }
  86
  87 declare <8 x i8> @llvm.experimental.vp.strided.load.v8i8.p0.i32(ptr, i32, <8 x i1>, i32)
  88
  89 define <8 x i8> @strided_vpload_v8i8(ptr %ptr, i32 signext %stride, <8 x i1> %m, i32 zeroext %evl) {
  90 ; CHECK-LABEL: strided_vpload_v8i8:
  91 ; CHECK:       # %bb.0:
  92 ; CHECK-NEXT:    vsetvli zero, a2, e8, mf2, ta, ma
  93 ; CHECK-NEXT:    vlse8.v v8, (a0), a1, v0.t
  94 ; CHECK-NEXT:    ret
  95   %load = call <8 x i8> @llvm.experimental.vp.strided.load.v8i8.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %m, i32 %evl)
  96   ret <8 x i8> %load
  97 }
  98
  99 define <8 x i8> @strided_vpload_v8i8_unit_stride(ptr %ptr, <8 x i1> %m, i32 zeroext %evl) {
 100 ; CHECK-LABEL: strided_vpload_v8i8_unit_stride:
 101 ; CHECK:       # %bb.0:
 102 ; CHECK-NEXT:    vsetvli zero, a1, e8, mf2, ta, ma
 103 ; CHECK-NEXT:    vle8.v v8, (a0), v0.t
 104 ; CHECK-NEXT:    ret
 105   %load = call <8 x i8> @llvm.experimental.vp.strided.load.v8i8.p0.i32(ptr %ptr, i32 1, <8 x i1> %m, i32 %evl)
 106   ret <8 x i8> %load
 107 }
 108
 109 declare <2 x i16> @llvm.experimental.vp.strided.load.v2i16.p0.i32(ptr, i32, <2 x i1>, i32)
 110
 111 define <2 x i16> @strided_vpload_v2i16(ptr %ptr, i32 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
 112 ; CHECK-LABEL: strided_vpload_v2i16:
 113 ; CHECK:       # %bb.0:
 114 ; CHECK-NEXT:    vsetvli zero, a2, e16, mf4, ta, ma
 115 ; CHECK-NEXT:    vlse16.v v8, (a0), a1, v0.t
 116 ; CHECK-NEXT:    ret
 117   %load = call <2 x i16> @llvm.experimental.vp.strided.load.v2i16.p0.i32(ptr %ptr, i32 %stride, <2 x i1> %m, i32 %evl)
 118   ret <2 x i16> %load
 119 }
 120
 121 declare <4 x i16> @llvm.experimental.vp.strided.load.v4i16.p0.i32(ptr, i32, <4 x i1>, i32)
 122
 123 define <4 x i16> @strided_vpload_v4i16(ptr %ptr, i32 signext %stride, <4 x i1> %m, i32 zeroext %evl) {
 124 ; CHECK-LABEL: strided_vpload_v4i16:
 125 ; CHECK:       # %bb.0:
 126 ; CHECK-NEXT:    vsetvli zero, a2, e16, mf2, ta, ma
 127 ; CHECK-NEXT:    vlse16.v v8, (a0), a1, v0.t
 128 ; CHECK-NEXT:    ret
 129   %load = call <4 x i16> @llvm.experimental.vp.strided.load.v4i16.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %m, i32 %evl)
 130   ret <4 x i16> %load
 131 }
 132
 133 declare <8 x i16> @llvm.experimental.vp.strided.load.v8i16.p0.i32(ptr, i32, <8 x i1>, i32)
 134
 135 define <8 x i16> @strided_vpload_v8i16(ptr %ptr, i32 signext %stride, <8 x i1> %m, i32 zeroext %evl) {
 136 ; CHECK-LABEL: strided_vpload_v8i16:
 137 ; CHECK:       # %bb.0:
 138 ; CHECK-NEXT:    vsetvli zero, a2, e16, m1, ta, ma
 139 ; CHECK-NEXT:    vlse16.v v8, (a0), a1, v0.t
 140 ; CHECK-NEXT:    ret
 141   %load = call <8 x i16> @llvm.experimental.vp.strided.load.v8i16.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %m, i32 %evl)
 142   ret <8 x i16> %load
 143 }
 144
 145 define <8 x i16> @strided_vpload_v8i16_unit_stride(ptr %ptr, <8 x i1> %m, i32 zeroext %evl) {
 146 ; CHECK-LABEL: strided_vpload_v8i16_unit_stride:
 147 ; CHECK:       # %bb.0:
 148 ; CHECK-NEXT:    vsetvli zero, a1, e16, m1, ta, ma
 149 ; CHECK-NEXT:    vle16.v v8, (a0), v0.t
 150 ; CHECK-NEXT:    ret
 151   %load = call <8 x i16> @llvm.experimental.vp.strided.load.v8i16.p0.i32(ptr %ptr, i32 2, <8 x i1> %m, i32 %evl)
 152   ret <8 x i16> %load
 153 }
 154
 155 define <8 x i16> @strided_vpload_v8i16_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) {
 156 ; CHECK-LABEL: strided_vpload_v8i16_allones_mask:
 157 ; CHECK:       # %bb.0:
 158 ; CHECK-NEXT:    vsetvli zero, a2, e16, m1, ta, ma
 159 ; CHECK-NEXT:    vlse16.v v8, (a0), a1
 160 ; CHECK-NEXT:    ret
 161   %a = insertelement <8 x i1> poison, i1 true, i32 0
 162   %b = shufflevector <8 x i1> %a, <8 x i1> poison, <8 x i32> zeroinitializer
 163   %load = call <8 x i16> @llvm.experimental.vp.strided.load.v8i16.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %b, i32 %evl)
 164   ret <8 x i16> %load
 165 }
 166
 167 declare <2 x i32> @llvm.experimental.vp.strided.load.v2i32.p0.i32(ptr, i32, <2 x i1>, i32)
 168
 169 define <2 x i32> @strided_vpload_v2i32(ptr %ptr, i32 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
 170 ; CHECK-LABEL: strided_vpload_v2i32:
 171 ; CHECK:       # %bb.0:
 172 ; CHECK-NEXT:    vsetvli zero, a2, e32, mf2, ta, ma
 173 ; CHECK-NEXT:    vlse32.v v8, (a0), a1, v0.t
 174 ; CHECK-NEXT:    ret
 175   %load = call <2 x i32> @llvm.experimental.vp.strided.load.v2i32.p0.i32(ptr %ptr, i32 %stride, <2 x i1> %m, i32 %evl)
 176   ret <2 x i32> %load
 177 }
 178
 179 declare <4 x i32> @llvm.experimental.vp.strided.load.v4i32.p0.i32(ptr, i32, <4 x i1>, i32)
 180
 181 define <4 x i32> @strided_vpload_v4i32(ptr %ptr, i32 signext %stride, <4 x i1> %m, i32 zeroext %evl) {
 182 ; CHECK-LABEL: strided_vpload_v4i32:
 183 ; CHECK:       # %bb.0:
 184 ; CHECK-NEXT:    vsetvli zero, a2, e32, m1, ta, ma
 185 ; CHECK-NEXT:    vlse32.v v8, (a0), a1, v0.t
 186 ; CHECK-NEXT:    ret
 187   %load = call <4 x i32> @llvm.experimental.vp.strided.load.v4i32.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %m, i32 %evl)
 188   ret <4 x i32> %load
 189 }
 190
 191 define <4 x i32> @strided_vpload_v4i32_unit_stride(ptr %ptr, <4 x i1> %m, i32 zeroext %evl) {
 192 ; CHECK-LABEL: strided_vpload_v4i32_unit_stride:
 193 ; CHECK:       # %bb.0:
 194 ; CHECK-NEXT:    vsetvli zero, a1, e32, m1, ta, ma
 195 ; CHECK-NEXT:    vle32.v v8, (a0), v0.t
 196 ; CHECK-NEXT:    ret
 197   %load = call <4 x i32> @llvm.experimental.vp.strided.load.v4i32.p0.i32(ptr %ptr, i32 4, <4 x i1> %m, i32 %evl)
 198   ret <4 x i32> %load
 199 }
 200
 201 declare <8 x i32> @llvm.experimental.vp.strided.load.v8i32.p0.i32(ptr, i32, <8 x i1>, i32)
 202
 203 define <8 x i32> @strided_vpload_v8i32(ptr %ptr, i32 signext %stride, <8 x i1> %m, i32 zeroext %evl) {
 204 ; CHECK-LABEL: strided_vpload_v8i32:
 205 ; CHECK:       # %bb.0:
 206 ; CHECK-NEXT:    vsetvli zero, a2, e32, m2, ta, ma
 207 ; CHECK-NEXT:    vlse32.v v8, (a0), a1, v0.t
 208 ; CHECK-NEXT:    ret
 209   %load = call <8 x i32> @llvm.experimental.vp.strided.load.v8i32.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %m, i32 %evl)
 210   ret <8 x i32> %load
 211 }
 212
 213 define <8 x i32> @strided_vpload_v8i32_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) {
 214 ; CHECK-LABEL: strided_vpload_v8i32_allones_mask:
 215 ; CHECK:       # %bb.0:
 216 ; CHECK-NEXT:    vsetvli zero, a2, e32, m2, ta, ma
 217 ; CHECK-NEXT:    vlse32.v v8, (a0), a1
 218 ; CHECK-NEXT:    ret
 219   %a = insertelement <8 x i1> poison, i1 true, i32 0
 220   %b = shufflevector <8 x i1> %a, <8 x i1> poison, <8 x i32> zeroinitializer
 221   %load = call <8 x i32> @llvm.experimental.vp.strided.load.v8i32.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %b, i32 %evl)
 222   ret <8 x i32> %load
 223 }
 224
 225 declare <2 x i64> @llvm.experimental.vp.strided.load.v2i64.p0.i32(ptr, i32, <2 x i1>, i32)
 226
 227 define <2 x i64> @strided_vpload_v2i64(ptr %ptr, i32 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
 228 ; CHECK-LABEL: strided_vpload_v2i64:
 229 ; CHECK:       # %bb.0:
 230 ; CHECK-NEXT:    vsetvli zero, a2, e64, m1, ta, ma
 231 ; CHECK-NEXT:    vlse64.v v8, (a0), a1, v0.t
 232 ; CHECK-NEXT:    ret
 233   %load = call <2 x i64> @llvm.experimental.vp.strided.load.v2i64.p0.i32(ptr %ptr, i32 %stride, <2 x i1> %m, i32 %evl)
 234   ret <2 x i64> %load
 235 }
 236
 237 define <2 x i64> @strided_vpload_v2i64_unit_stride(ptr %ptr, <2 x i1> %m, i32 zeroext %evl) {
 238 ; CHECK-LABEL: strided_vpload_v2i64_unit_stride:
 239 ; CHECK:       # %bb.0:
 240 ; CHECK-NEXT:    vsetvli zero, a1, e64, m1, ta, ma
 241 ; CHECK-NEXT:    vle64.v v8, (a0), v0.t
 242 ; CHECK-NEXT:    ret
 243   %load = call <2 x i64> @llvm.experimental.vp.strided.load.v2i64.p0.i32(ptr %ptr, i32 8, <2 x i1> %m, i32 %evl)
 244   ret <2 x i64> %load
 245 }
 246
 247 declare <4 x i64> @llvm.experimental.vp.strided.load.v4i64.p0.i32(ptr, i32, <4 x i1>, i32)
 248
 249 define <4 x i64> @strided_vpload_v4i64(ptr %ptr, i32 signext %stride, <4 x i1> %m, i32 zeroext %evl) {
 250 ; CHECK-LABEL: strided_vpload_v4i64:
 251 ; CHECK:       # %bb.0:
 252 ; CHECK-NEXT:    vsetvli zero, a2, e64, m2, ta, ma
 253 ; CHECK-NEXT:    vlse64.v v8, (a0), a1, v0.t
 254 ; CHECK-NEXT:    ret
 255   %load = call <4 x i64> @llvm.experimental.vp.strided.load.v4i64.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %m, i32 %evl)
 256   ret <4 x i64> %load
 257 }
 258
 259 define <4 x i64> @strided_vpload_v4i64_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) {
 260 ; CHECK-LABEL: strided_vpload_v4i64_allones_mask:
 261 ; CHECK:       # %bb.0:
 262 ; CHECK-NEXT:    vsetvli zero, a2, e64, m2, ta, ma
 263 ; CHECK-NEXT:    vlse64.v v8, (a0), a1
 264 ; CHECK-NEXT:    ret
 265   %a = insertelement <4 x i1> poison, i1 true, i32 0
 266   %b = shufflevector <4 x i1> %a, <4 x i1> poison, <4 x i32> zeroinitializer
 267   %load = call <4 x i64> @llvm.experimental.vp.strided.load.v4i64.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %b, i32 %evl)
 268   ret <4 x i64> %load
 269 }
 270
 271 declare <8 x i64> @llvm.experimental.vp.strided.load.v8i64.p0.i32(ptr, i32, <8 x i1>, i32)
 272
 273 define <8 x i64> @strided_vpload_v8i64(ptr %ptr, i32 signext %stride, <8 x i1> %m, i32 zeroext %evl) {
 274 ; CHECK-LABEL: strided_vpload_v8i64:
 275 ; CHECK:       # %bb.0:
 276 ; CHECK-NEXT:    vsetvli zero, a2, e64, m4, ta, ma
 277 ; CHECK-NEXT:    vlse64.v v8, (a0), a1, v0.t
 278 ; CHECK-NEXT:    ret
 279   %load = call <8 x i64> @llvm.experimental.vp.strided.load.v8i64.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %m, i32 %evl)
 280   ret <8 x i64> %load
 281 }
 282
 283 declare <2 x half> @llvm.experimental.vp.strided.load.v2f16.p0.i32(ptr, i32, <2 x i1>, i32)
 284
 285 define <2 x half> @strided_vpload_v2f16(ptr %ptr, i32 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
 286 ; CHECK-LABEL: strided_vpload_v2f16:
 287 ; CHECK:       # %bb.0:
 288 ; CHECK-NEXT:    vsetvli zero, a2, e16, mf4, ta, ma
 289 ; CHECK-NEXT:    vlse16.v v8, (a0), a1, v0.t
 290 ; CHECK-NEXT:    ret
 291   %load = call <2 x half> @llvm.experimental.vp.strided.load.v2f16.p0.i32(ptr %ptr, i32 %stride, <2 x i1> %m, i32 %evl)
 292   ret <2 x half> %load
 293 }
 294
 295 define <2 x half> @strided_vpload_v2f16_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) {
 296 ; CHECK-LABEL: strided_vpload_v2f16_allones_mask:
 297 ; CHECK:       # %bb.0:
 298 ; CHECK-NEXT:    vsetvli zero, a2, e16, mf4, ta, ma
 299 ; CHECK-NEXT:    vlse16.v v8, (a0), a1
 300 ; CHECK-NEXT:    ret
 301   %a = insertelement <2 x i1> poison, i1 true, i32 0
 302   %b = shufflevector <2 x i1> %a, <2 x i1> poison, <2 x i32> zeroinitializer
 303   %load = call <2 x half> @llvm.experimental.vp.strided.load.v2f16.p0.i32(ptr %ptr, i32 %stride, <2 x i1> %b, i32 %evl)
 304   ret <2 x half> %load
 305 }
 306
 307 declare <4 x half> @llvm.experimental.vp.strided.load.v4f16.p0.i32(ptr, i32, <4 x i1>, i32)
 308
 309 define <4 x half> @strided_vpload_v4f16(ptr %ptr, i32 signext %stride, <4 x i1> %m, i32 zeroext %evl) {
 310 ; CHECK-LABEL: strided_vpload_v4f16:
 311 ; CHECK:       # %bb.0:
 312 ; CHECK-NEXT:    vsetvli zero, a2, e16, mf2, ta, ma
 313 ; CHECK-NEXT:    vlse16.v v8, (a0), a1, v0.t
 314 ; CHECK-NEXT:    ret
 315   %load = call <4 x half> @llvm.experimental.vp.strided.load.v4f16.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %m, i32 %evl)
 316   ret <4 x half> %load
 317 }
 318
 319 declare <8 x half> @llvm.experimental.vp.strided.load.v8f16.p0.i32(ptr, i32, <8 x i1>, i32)
 320
 321 define <8 x half> @strided_vpload_v8f16(ptr %ptr, i32 signext %stride, <8 x i1> %m, i32 zeroext %evl) {
 322 ; CHECK-LABEL: strided_vpload_v8f16:
 323 ; CHECK:       # %bb.0:
 324 ; CHECK-NEXT:    vsetvli zero, a2, e16, m1, ta, ma
 325 ; CHECK-NEXT:    vlse16.v v8, (a0), a1, v0.t
 326 ; CHECK-NEXT:    ret
 327   %load = call <8 x half> @llvm.experimental.vp.strided.load.v8f16.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %m, i32 %evl)
 328   ret <8 x half> %load
 329 }
 330
 331 define <8 x half> @strided_vpload_v8f16_unit_stride(ptr %ptr, <8 x i1> %m, i32 zeroext %evl) {
 332 ; CHECK-LABEL: strided_vpload_v8f16_unit_stride:
 333 ; CHECK:       # %bb.0:
 334 ; CHECK-NEXT:    vsetvli zero, a1, e16, m1, ta, ma
 335 ; CHECK-NEXT:    vle16.v v8, (a0), v0.t
 336 ; CHECK-NEXT:    ret
 337   %load = call <8 x half> @llvm.experimental.vp.strided.load.v8f16.p0.i32(ptr %ptr, i32 2, <8 x i1> %m, i32 %evl)
 338   ret <8 x half> %load
 339 }
 340
 341 declare <2 x float> @llvm.experimental.vp.strided.load.v2f32.p0.i32(ptr, i32, <2 x i1>, i32)
 342
 343 define <2 x float> @strided_vpload_v2f32(ptr %ptr, i32 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
 344 ; CHECK-LABEL: strided_vpload_v2f32:
 345 ; CHECK:       # %bb.0:
 346 ; CHECK-NEXT:    vsetvli zero, a2, e32, mf2, ta, ma
 347 ; CHECK-NEXT:    vlse32.v v8, (a0), a1, v0.t
 348 ; CHECK-NEXT:    ret
 349   %load = call <2 x float> @llvm.experimental.vp.strided.load.v2f32.p0.i32(ptr %ptr, i32 %stride, <2 x i1> %m, i32 %evl)
 350   ret <2 x float> %load
 351 }
 352
 353 declare <4 x float> @llvm.experimental.vp.strided.load.v4f32.p0.i32(ptr, i32, <4 x i1>, i32)
 354
 355 define <4 x float> @strided_vpload_v4f32(ptr %ptr, i32 signext %stride, <4 x i1> %m, i32 zeroext %evl) {
 356 ; CHECK-LABEL: strided_vpload_v4f32:
 357 ; CHECK:       # %bb.0:
 358 ; CHECK-NEXT:    vsetvli zero, a2, e32, m1, ta, ma
 359 ; CHECK-NEXT:    vlse32.v v8, (a0), a1, v0.t
 360 ; CHECK-NEXT:    ret
 361   %load = call <4 x float> @llvm.experimental.vp.strided.load.v4f32.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %m, i32 %evl)
 362   ret <4 x float> %load
 363 }
 364
 365 define <4 x float> @strided_vpload_v4f32_unit_stride(ptr %ptr, <4 x i1> %m, i32 zeroext %evl) {
 366 ; CHECK-LABEL: strided_vpload_v4f32_unit_stride:
 367 ; CHECK:       # %bb.0:
 368 ; CHECK-NEXT:    vsetvli zero, a1, e32, m1, ta, ma
 369 ; CHECK-NEXT:    vle32.v v8, (a0), v0.t
 370 ; CHECK-NEXT:    ret
 371   %load = call <4 x float> @llvm.experimental.vp.strided.load.v4f32.p0.i32(ptr %ptr, i32 4, <4 x i1> %m, i32 %evl)
 372   ret <4 x float> %load
 373 }
 374
 375 declare <8 x float> @llvm.experimental.vp.strided.load.v8f32.p0.i32(ptr, i32, <8 x i1>, i32)
 376
 377 define <8 x float> @strided_vpload_v8f32(ptr %ptr, i32 signext %stride, <8 x i1> %m, i32 zeroext %evl) {
 378 ; CHECK-LABEL: strided_vpload_v8f32:
 379 ; CHECK:       # %bb.0:
 380 ; CHECK-NEXT:    vsetvli zero, a2, e32, m2, ta, ma
 381 ; CHECK-NEXT:    vlse32.v v8, (a0), a1, v0.t
 382 ; CHECK-NEXT:    ret
 383   %load = call <8 x float> @llvm.experimental.vp.strided.load.v8f32.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %m, i32 %evl)
 384   ret <8 x float> %load
 385 }
 386
 387 define <8 x float> @strided_vpload_v8f32_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) {
 388 ; CHECK-LABEL: strided_vpload_v8f32_allones_mask:
 389 ; CHECK:       # %bb.0:
 390 ; CHECK-NEXT:    vsetvli zero, a2, e32, m2, ta, ma
 391 ; CHECK-NEXT:    vlse32.v v8, (a0), a1
 392 ; CHECK-NEXT:    ret
 393   %a = insertelement <8 x i1> poison, i1 true, i32 0
 394   %b = shufflevector <8 x i1> %a, <8 x i1> poison, <8 x i32> zeroinitializer
 395   %load = call <8 x float> @llvm.experimental.vp.strided.load.v8f32.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %b, i32 %evl)
 396   ret <8 x float> %load
 397 }
 398
 399 declare <2 x double> @llvm.experimental.vp.strided.load.v2f64.p0.i32(ptr, i32, <2 x i1>, i32)
 400
 401 define <2 x double> @strided_vpload_v2f64(ptr %ptr, i32 signext %stride, <2 x i1> %m, i32 zeroext %evl) {
 402 ; CHECK-LABEL: strided_vpload_v2f64:
 403 ; CHECK:       # %bb.0:
 404 ; CHECK-NEXT:    vsetvli zero, a2, e64, m1, ta, ma
 405 ; CHECK-NEXT:    vlse64.v v8, (a0), a1, v0.t
 406 ; CHECK-NEXT:    ret
 407   %load = call <2 x double> @llvm.experimental.vp.strided.load.v2f64.p0.i32(ptr %ptr, i32 %stride, <2 x i1> %m, i32 %evl)
 408   ret <2 x double> %load
 409 }
 410
 411 define <2 x double> @strided_vpload_v2f64_unit_stride(ptr %ptr, <2 x i1> %m, i32 zeroext %evl) {
 412 ; CHECK-LABEL: strided_vpload_v2f64_unit_stride:
 413 ; CHECK:       # %bb.0:
 414 ; CHECK-NEXT:    vsetvli zero, a1, e64, m1, ta, ma
 415 ; CHECK-NEXT:    vle64.v v8, (a0), v0.t
 416 ; CHECK-NEXT:    ret
 417   %load = call <2 x double> @llvm.experimental.vp.strided.load.v2f64.p0.i32(ptr %ptr, i32 8, <2 x i1> %m, i32 %evl)
 418   ret <2 x double> %load
 419 }
 420
 421
 422 declare <4 x double> @llvm.experimental.vp.strided.load.v4f64.p0.i32(ptr, i32, <4 x i1>, i32)
 423
 424 define <4 x double> @strided_vpload_v4f64(ptr %ptr, i32 signext %stride, <4 x i1> %m, i32 zeroext %evl) {
 425 ; CHECK-LABEL: strided_vpload_v4f64:
 426 ; CHECK:       # %bb.0:
 427 ; CHECK-NEXT:    vsetvli zero, a2, e64, m2, ta, ma
 428 ; CHECK-NEXT:    vlse64.v v8, (a0), a1, v0.t
 429 ; CHECK-NEXT:    ret
 430   %load = call <4 x double> @llvm.experimental.vp.strided.load.v4f64.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %m, i32 %evl)
 431   ret <4 x double> %load
 432 }
 433
 434 define <4 x double> @strided_vpload_v4f64_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) {
 435 ; CHECK-LABEL: strided_vpload_v4f64_allones_mask:
 436 ; CHECK:       # %bb.0:
 437 ; CHECK-NEXT:    vsetvli zero, a2, e64, m2, ta, ma
 438 ; CHECK-NEXT:    vlse64.v v8, (a0), a1
 439 ; CHECK-NEXT:    ret
 440   %a = insertelement <4 x i1> poison, i1 true, i32 0
 441   %b = shufflevector <4 x i1> %a, <4 x i1> poison, <4 x i32> zeroinitializer
 442   %load = call <4 x double> @llvm.experimental.vp.strided.load.v4f64.p0.i32(ptr %ptr, i32 %stride, <4 x i1> %b, i32 %evl)
 443   ret <4 x double> %load
 444 }
 445
 446 declare <8 x double> @llvm.experimental.vp.strided.load.v8f64.p0.i32(ptr, i32, <8 x i1>, i32)
 447
 448 define <8 x double> @strided_vpload_v8f64(ptr %ptr, i32 signext %stride, <8 x i1> %m, i32 zeroext %evl) {
 449 ; CHECK-LABEL: strided_vpload_v8f64:
 450 ; CHECK:       # %bb.0:
 451 ; CHECK-NEXT:    vsetvli zero, a2, e64, m4, ta, ma
 452 ; CHECK-NEXT:    vlse64.v v8, (a0), a1, v0.t
 453 ; CHECK-NEXT:    ret
 454   %load = call <8 x double> @llvm.experimental.vp.strided.load.v8f64.p0.i32(ptr %ptr, i32 %stride, <8 x i1> %m, i32 %evl)
 455   ret <8 x double> %load
 456 }
 457
 458 ; Widening
 459 define <3 x double> @strided_vpload_v3f64(ptr %ptr, i32 signext %stride, <3 x i1> %mask, i32 zeroext %evl) {
 460 ; CHECK-LABEL: strided_vpload_v3f64:
 461 ; CHECK:       # %bb.0:
 462 ; CHECK-NEXT:    vsetvli zero, a2, e64, m2, ta, ma
 463 ; CHECK-NEXT:    vlse64.v v8, (a0), a1, v0.t
 464 ; CHECK-NEXT:    ret
 465   %v = call <3 x double> @llvm.experimental.vp.strided.load.v3f64.p0.i32(ptr %ptr, i32 %stride, <3 x i1> %mask, i32 %evl)
 466   ret <3 x double> %v
 467 }
 468
 469 define <3 x double> @strided_vpload_v3f64_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) {
 470 ; CHECK-LABEL: strided_vpload_v3f64_allones_mask:
 471 ; CHECK:       # %bb.0:
 472 ; CHECK-NEXT:    vsetvli zero, a2, e64, m2, ta, ma
 473 ; CHECK-NEXT:    vlse64.v v8, (a0), a1
 474 ; CHECK-NEXT:    ret
 475   %one = insertelement <3 x i1> poison, i1 true, i32 0
 476   %allones = shufflevector <3 x i1> %one, <3 x i1> poison, <3 x i32> zeroinitializer
 477   %v = call <3 x double> @llvm.experimental.vp.strided.load.v3f64.p0.i32(ptr %ptr, i32 %stride, <3 x i1> %allones, i32 %evl)
 478   ret <3 x double> %v
 479 }
 480
 481 declare <3 x double> @llvm.experimental.vp.strided.load.v3f64.p0.i32(ptr, i32, <3 x i1>, i32)
 482
 483 ; Splitting
 484 define <32 x double> @strided_vpload_v32f64(ptr %ptr, i32 signext %stride, <32 x i1> %m, i32 zeroext %evl) nounwind {
 485 ; CHECK-LABEL: strided_vpload_v32f64:
 486 ; CHECK:       # %bb.0:
 487 ; CHECK-NEXT:    li a4, 16
 488 ; CHECK-NEXT:    vmv1r.v v9, v0
 489 ; CHECK-NEXT:    mv a3, a2
 490 ; CHECK-NEXT:    bltu a2, a4, .LBB40_2
 491 ; CHECK-NEXT:  # %bb.1:
 492 ; CHECK-NEXT:    li a3, 16
 493 ; CHECK-NEXT:  .LBB40_2:
 494 ; CHECK-NEXT:    mul a4, a3, a1
 495 ; CHECK-NEXT:    add a4, a0, a4
 496 ; CHECK-NEXT:    addi a5, a2, -16
 497 ; CHECK-NEXT:    sltu a2, a2, a5
 498 ; CHECK-NEXT:    addi a2, a2, -1
 499 ; CHECK-NEXT:    and a2, a2, a5
 500 ; CHECK-NEXT:    vsetivli zero, 2, e8, mf4, ta, ma
 501 ; CHECK-NEXT:    vslidedown.vi v8, v9, 2
 502 ; CHECK-NEXT:    vsetvli zero, a2, e64, m8, ta, ma
 503 ; CHECK-NEXT:    vmv1r.v v0, v8
 504 ; CHECK-NEXT:    vlse64.v v16, (a4), a1, v0.t
 505 ; CHECK-NEXT:    vsetvli zero, a3, e64, m8, ta, ma
 506 ; CHECK-NEXT:    vmv1r.v v0, v9
 507 ; CHECK-NEXT:    vlse64.v v8, (a0), a1, v0.t
 508 ; CHECK-NEXT:    ret
 509   %load = call <32 x double> @llvm.experimental.vp.strided.load.v32f64.p0.i32(ptr %ptr, i32 %stride, <32 x i1> %m, i32 %evl)
 510   ret <32 x double> %load
 511 }
 512
 513 define <32 x double> @strided_vpload_v32f64_allones_mask(ptr %ptr, i32 signext %stride, i32 zeroext %evl) nounwind {
 514 ; CHECK-LABEL: strided_vpload_v32f64_allones_mask:
 515 ; CHECK:       # %bb.0:
 516 ; CHECK-NEXT:    li a4, 16
 517 ; CHECK-NEXT:    mv a3, a2
 518 ; CHECK-NEXT:    bltu a2, a4, .LBB41_2
 519 ; CHECK-NEXT:  # %bb.1:
 520 ; CHECK-NEXT:    li a3, 16
 521 ; CHECK-NEXT:  .LBB41_2:
 522 ; CHECK-NEXT:    mul a4, a3, a1
 523 ; CHECK-NEXT:    add a4, a0, a4
 524 ; CHECK-NEXT:    addi a5, a2, -16
 525 ; CHECK-NEXT:    sltu a2, a2, a5
 526 ; CHECK-NEXT:    addi a2, a2, -1
 527 ; CHECK-NEXT:    and a2, a2, a5
 528 ; CHECK-NEXT:    vsetvli zero, a2, e64, m8, ta, ma
 529 ; CHECK-NEXT:    vlse64.v v16, (a4), a1
 530 ; CHECK-NEXT:    vsetvli zero, a3, e64, m8, ta, ma
 531 ; CHECK-NEXT:    vlse64.v v8, (a0), a1
 532 ; CHECK-NEXT:    ret
 533   %one = insertelement <32 x i1> poison, i1 true, i32 0
 534   %allones = shufflevector <32 x i1> %one, <32 x i1> poison, <32 x i32> zeroinitializer
 535   %load = call <32 x double> @llvm.experimental.vp.strided.load.v32f64.p0.i32(ptr %ptr, i32 %stride, <32 x i1> %allones, i32 %evl)
 536   ret <32 x double> %load
 537 }
 538
 539 declare <32 x double> @llvm.experimental.vp.strided.load.v32f64.p0.i32(ptr, i32, <32 x i1>, i32)
 540
 541 ; Widening + splitting (with HiIsEmpty == true)
 542 define <33 x double> @strided_load_v33f64(ptr %ptr, i64 %stride, <33 x i1> %mask, i32 zeroext %evl) {
 543 ; CHECK-RV32-LABEL: strided_load_v33f64:
 544 ; CHECK-RV32:       # %bb.0:
 545 ; CHECK-RV32-NEXT:    li a5, 32
 546 ; CHECK-RV32-NEXT:    vmv1r.v v8, v0
 547 ; CHECK-RV32-NEXT:    mv a3, a4
 548 ; CHECK-RV32-NEXT:    bltu a4, a5, .LBB42_2
 549 ; CHECK-RV32-NEXT:  # %bb.1:
 550 ; CHECK-RV32-NEXT:    li a3, 32
 551 ; CHECK-RV32-NEXT:  .LBB42_2:
 552 ; CHECK-RV32-NEXT:    mul a5, a3, a2
 553 ; CHECK-RV32-NEXT:    addi a6, a4, -32
 554 ; CHECK-RV32-NEXT:    sltu a4, a4, a6
 555 ; CHECK-RV32-NEXT:    addi a4, a4, -1
 556 ; CHECK-RV32-NEXT:    and a6, a4, a6
 557 ; CHECK-RV32-NEXT:    li a4, 16
 558 ; CHECK-RV32-NEXT:    add a5, a1, a5
 559 ; CHECK-RV32-NEXT:    bltu a6, a4, .LBB42_4
 560 ; CHECK-RV32-NEXT:  # %bb.3:
 561 ; CHECK-RV32-NEXT:    li a6, 16
 562 ; CHECK-RV32-NEXT:  .LBB42_4:
 563 ; CHECK-RV32-NEXT:    vsetivli zero, 4, e8, mf2, ta, ma
 564 ; CHECK-RV32-NEXT:    vslidedown.vi v0, v8, 4
 565 ; CHECK-RV32-NEXT:    vsetvli zero, a6, e64, m8, ta, ma
 566 ; CHECK-RV32-NEXT:    vlse64.v v16, (a5), a2, v0.t
 567 ; CHECK-RV32-NEXT:    addi a5, a3, -16
 568 ; CHECK-RV32-NEXT:    sltu a6, a3, a5
 569 ; CHECK-RV32-NEXT:    addi a6, a6, -1
 570 ; CHECK-RV32-NEXT:    and a5, a6, a5
 571 ; CHECK-RV32-NEXT:    bltu a3, a4, .LBB42_6
 572 ; CHECK-RV32-NEXT:  # %bb.5:
 573 ; CHECK-RV32-NEXT:    li a3, 16
 574 ; CHECK-RV32-NEXT:  .LBB42_6:
 575 ; CHECK-RV32-NEXT:    mul a4, a3, a2
 576 ; CHECK-RV32-NEXT:    add a4, a1, a4
 577 ; CHECK-RV32-NEXT:    vsetivli zero, 2, e8, mf4, ta, ma
 578 ; CHECK-RV32-NEXT:    vslidedown.vi v0, v8, 2
 579 ; CHECK-RV32-NEXT:    vsetvli zero, a5, e64, m8, ta, ma
 580 ; CHECK-RV32-NEXT:    vlse64.v v24, (a4), a2, v0.t
 581 ; CHECK-RV32-NEXT:    vsetvli zero, a3, e64, m8, ta, ma
 582 ; CHECK-RV32-NEXT:    vmv1r.v v0, v8
 583 ; CHECK-RV32-NEXT:    vlse64.v v8, (a1), a2, v0.t
 584 ; CHECK-RV32-NEXT:    vsetivli zero, 16, e64, m8, ta, ma
 585 ; CHECK-RV32-NEXT:    vse64.v v8, (a0)
 586 ; CHECK-RV32-NEXT:    addi a1, a0, 128
 587 ; CHECK-RV32-NEXT:    vse64.v v24, (a1)
 588 ; CHECK-RV32-NEXT:    addi a0, a0, 256
 589 ; CHECK-RV32-NEXT:    vsetivli zero, 1, e64, m1, ta, ma
 590 ; CHECK-RV32-NEXT:    vse64.v v16, (a0)
 591 ; CHECK-RV32-NEXT:    ret
 592 ;
 593 ; CHECK-RV64-LABEL: strided_load_v33f64:
 594 ; CHECK-RV64:       # %bb.0:
 595 ; CHECK-RV64-NEXT:    li a5, 32
 596 ; CHECK-RV64-NEXT:    vmv1r.v v8, v0
 597 ; CHECK-RV64-NEXT:    mv a4, a3
 598 ; CHECK-RV64-NEXT:    bltu a3, a5, .LBB42_2
 599 ; CHECK-RV64-NEXT:  # %bb.1:
 600 ; CHECK-RV64-NEXT:    li a4, 32
 601 ; CHECK-RV64-NEXT:  .LBB42_2:
 602 ; CHECK-RV64-NEXT:    mul a5, a4, a2
 603 ; CHECK-RV64-NEXT:    addi a6, a3, -32
 604 ; CHECK-RV64-NEXT:    sltu a3, a3, a6
 605 ; CHECK-RV64-NEXT:    addi a3, a3, -1
 606 ; CHECK-RV64-NEXT:    and a6, a3, a6
 607 ; CHECK-RV64-NEXT:    li a3, 16
 608 ; CHECK-RV64-NEXT:    add a5, a1, a5
 609 ; CHECK-RV64-NEXT:    bltu a6, a3, .LBB42_4
 610 ; CHECK-RV64-NEXT:  # %bb.3:
 611 ; CHECK-RV64-NEXT:    li a6, 16
 612 ; CHECK-RV64-NEXT:  .LBB42_4:
 613 ; CHECK-RV64-NEXT:    vsetivli zero, 4, e8, mf2, ta, ma
 614 ; CHECK-RV64-NEXT:    vslidedown.vi v0, v8, 4
 615 ; CHECK-RV64-NEXT:    vsetvli zero, a6, e64, m8, ta, ma
 616 ; CHECK-RV64-NEXT:    vlse64.v v16, (a5), a2, v0.t
 617 ; CHECK-RV64-NEXT:    addi a5, a4, -16
 618 ; CHECK-RV64-NEXT:    sltu a6, a4, a5
 619 ; CHECK-RV64-NEXT:    addi a6, a6, -1
 620 ; CHECK-RV64-NEXT:    and a5, a6, a5
 621 ; CHECK-RV64-NEXT:    bltu a4, a3, .LBB42_6
 622 ; CHECK-RV64-NEXT:  # %bb.5:
 623 ; CHECK-RV64-NEXT:    li a4, 16
 624 ; CHECK-RV64-NEXT:  .LBB42_6:
 625 ; CHECK-RV64-NEXT:    mul a3, a4, a2
 626 ; CHECK-RV64-NEXT:    add a3, a1, a3
 627 ; CHECK-RV64-NEXT:    vsetivli zero, 2, e8, mf4, ta, ma
 628 ; CHECK-RV64-NEXT:    vslidedown.vi v0, v8, 2
 629 ; CHECK-RV64-NEXT:    vsetvli zero, a5, e64, m8, ta, ma
 630 ; CHECK-RV64-NEXT:    vlse64.v v24, (a3), a2, v0.t
 631 ; CHECK-RV64-NEXT:    vsetvli zero, a4, e64, m8, ta, ma
 632 ; CHECK-RV64-NEXT:    vmv1r.v v0, v8
 633 ; CHECK-RV64-NEXT:    vlse64.v v8, (a1), a2, v0.t
 634 ; CHECK-RV64-NEXT:    vsetivli zero, 16, e64, m8, ta, ma
 635 ; CHECK-RV64-NEXT:    vse64.v v8, (a0)
 636 ; CHECK-RV64-NEXT:    addi a1, a0, 128
 637 ; CHECK-RV64-NEXT:    vse64.v v24, (a1)
 638 ; CHECK-RV64-NEXT:    addi a0, a0, 256
 639 ; CHECK-RV64-NEXT:    vsetivli zero, 1, e64, m1, ta, ma
 640 ; CHECK-RV64-NEXT:    vse64.v v16, (a0)
 641 ; CHECK-RV64-NEXT:    ret
 642   %v = call <33 x double> @llvm.experimental.vp.strided.load.v33f64.p0.i64(ptr %ptr, i64 %stride, <33 x i1> %mask, i32 %evl)
 643   ret <33 x double> %v
 644 }
 645
 646 declare <33 x double> @llvm.experimental.vp.strided.load.v33f64.p0.i64(ptr, i64, <33 x i1>, i32)