llvm/test/CodeGen/Thumb2/mve-scatter-ptrs.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -enable-arm-maskedldst %s -o - | FileCheck %s
   3 ; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -enable-arm-maskedldst -opaque-pointers %s -o - | FileCheck %s
   4
   5 ; i32
   6
   7 ; Expand
   8 define arm_aapcs_vfpcc void @ptr_v2i32(<2 x i32> %v, <2 x i32*>* %offptr) {
   9 ; CHECK-LABEL: ptr_v2i32:
  10 ; CHECK:       @ %bb.0: @ %entry
  11 ; CHECK-NEXT:    vmov r2, s0
  12 ; CHECK-NEXT:    ldrd r1, r0, [r0]
  13 ; CHECK-NEXT:    str r2, [r1]
  14 ; CHECK-NEXT:    vmov r1, s2
  15 ; CHECK-NEXT:    str r1, [r0]
  16 ; CHECK-NEXT:    bx lr
  17 entry:
  18   %offs = load <2 x i32*>, <2 x i32*>* %offptr, align 4
  19   call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %v, <2 x i32*> %offs, i32 4, <2 x i1> <i1 true, i1 true>)
  20   ret void
  21 }
  22
  23 ; VSTRW.32 Qd, [offs, 0]
  24 define arm_aapcs_vfpcc void @ptr_v4i32(<4 x i32> %v, <4 x i32*>* %offptr) {
  25 ; CHECK-LABEL: ptr_v4i32:
  26 ; CHECK:       @ %bb.0: @ %entry
  27 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
  28 ; CHECK-NEXT:    vstrw.32 q0, [q1]
  29 ; CHECK-NEXT:    bx lr
  30 entry:
  31   %offs = load <4 x i32*>, <4 x i32*>* %offptr, align 4
  32   call void @llvm.masked.scatter.v4i32.v4p0i32(<4 x i32> %v, <4 x i32*> %offs, i32 4, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
  33   ret void
  34 }
  35
  36 ; Expand
  37 define arm_aapcs_vfpcc void @ptr_v8i32(<8 x i32> %v, <8 x i32*>* %offptr) {
  38 ; CHECK-LABEL: ptr_v8i32:
  39 ; CHECK:       @ %bb.0: @ %entry
  40 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
  41 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
  42 ; CHECK-NEXT:    vldrw.u32 q2, [r0]
  43 ; CHECK-NEXT:    vmov r3, r4, d0
  44 ; CHECK-NEXT:    vmov r1, r2, d4
  45 ; CHECK-NEXT:    vmov lr, r12, d5
  46 ; CHECK-NEXT:    vldrw.u32 q2, [r0, #16]
  47 ; CHECK-NEXT:    vmov r0, r5, d1
  48 ; CHECK-NEXT:    str r3, [r1]
  49 ; CHECK-NEXT:    vmov r1, r7, d4
  50 ; CHECK-NEXT:    str r4, [r2]
  51 ; CHECK-NEXT:    vmov r2, r4, d5
  52 ; CHECK-NEXT:    str.w r0, [lr]
  53 ; CHECK-NEXT:    vmov r0, r3, d2
  54 ; CHECK-NEXT:    str.w r5, [r12]
  55 ; CHECK-NEXT:    vmov r5, r6, d3
  56 ; CHECK-NEXT:    str r0, [r1]
  57 ; CHECK-NEXT:    str r3, [r7]
  58 ; CHECK-NEXT:    str r5, [r2]
  59 ; CHECK-NEXT:    str r6, [r4]
  60 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
  61 entry:
  62   %offs = load <8 x i32*>, <8 x i32*>* %offptr, align 4
  63   call void @llvm.masked.scatter.v8i32.v8p0i32(<8 x i32> %v, <8 x i32*> %offs, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
  64   ret void
  65 }
  66
  67 ; Expand
  68 define arm_aapcs_vfpcc void @ptr_v16i32(<16 x i32> %v, <16 x i32*>* %offptr) {
  69 ; CHECK-LABEL: ptr_v16i32:
  70 ; CHECK:       @ %bb.0: @ %entry
  71 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
  72 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
  73 ; CHECK-NEXT:    .pad #4
  74 ; CHECK-NEXT:    sub sp, #4
  75 ; CHECK-NEXT:    .vsave {d8, d9, d10, d11, d12, d13}
  76 ; CHECK-NEXT:    vpush {d8, d9, d10, d11, d12, d13}
  77 ; CHECK-NEXT:    vldrw.u32 q4, [r0]
  78 ; CHECK-NEXT:    vmov r3, r4, d0
  79 ; CHECK-NEXT:    vldrw.u32 q5, [r0, #32]
  80 ; CHECK-NEXT:    vldrw.u32 q6, [r0, #16]
  81 ; CHECK-NEXT:    vmov r1, r2, d8
  82 ; CHECK-NEXT:    vmov lr, r12, d9
  83 ; CHECK-NEXT:    vldrw.u32 q4, [r0, #48]
  84 ; CHECK-NEXT:    vmov r0, r5, d1
  85 ; CHECK-NEXT:    str r3, [r1]
  86 ; CHECK-NEXT:    vmov r1, r3, d12
  87 ; CHECK-NEXT:    str r4, [r2]
  88 ; CHECK-NEXT:    vmov r2, r7, d13
  89 ; CHECK-NEXT:    str.w r0, [lr]
  90 ; CHECK-NEXT:    vmov r0, r4, d2
  91 ; CHECK-NEXT:    str.w r5, [r12]
  92 ; CHECK-NEXT:    vmov r5, r6, d3
  93 ; CHECK-NEXT:    str r0, [r1]
  94 ; CHECK-NEXT:    vmov r0, r1, d10
  95 ; CHECK-NEXT:    str r4, [r3]
  96 ; CHECK-NEXT:    vmov r3, r4, d11
  97 ; CHECK-NEXT:    str r5, [r2]
  98 ; CHECK-NEXT:    vmov r2, r5, d4
  99 ; CHECK-NEXT:    str r6, [r7]
 100 ; CHECK-NEXT:    vmov r7, r6, d5
 101 ; CHECK-NEXT:    str r2, [r0]
 102 ; CHECK-NEXT:    vmov r0, r2, d8
 103 ; CHECK-NEXT:    str r5, [r1]
 104 ; CHECK-NEXT:    vmov r1, r5, d9
 105 ; CHECK-NEXT:    str r7, [r3]
 106 ; CHECK-NEXT:    vmov r3, r7, d6
 107 ; CHECK-NEXT:    str r6, [r4]
 108 ; CHECK-NEXT:    vmov r6, r4, d7
 109 ; CHECK-NEXT:    str r3, [r0]
 110 ; CHECK-NEXT:    str r7, [r2]
 111 ; CHECK-NEXT:    str r6, [r1]
 112 ; CHECK-NEXT:    str r4, [r5]
 113 ; CHECK-NEXT:    vpop {d8, d9, d10, d11, d12, d13}
 114 ; CHECK-NEXT:    add sp, #4
 115 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 116 entry:
 117   %offs = load <16 x i32*>, <16 x i32*>* %offptr, align 4
 118   call void @llvm.masked.scatter.v16i32.v16p0i32(<16 x i32> %v, <16 x i32*> %offs, i32 4, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
 119   ret void
 120 }
 121
 122 ; f32
 123
 124 ; Expand
 125 define arm_aapcs_vfpcc void @ptr_v2f32(<2 x float> %v, <2 x float*>* %offptr) {
 126 ; CHECK-LABEL: ptr_v2f32:
 127 ; CHECK:       @ %bb.0: @ %entry
 128 ; CHECK-NEXT:    ldrd r1, r0, [r0]
 129 ; CHECK-NEXT:    vstr s0, [r1]
 130 ; CHECK-NEXT:    vstr s1, [r0]
 131 ; CHECK-NEXT:    bx lr
 132 entry:
 133   %offs = load <2 x float*>, <2 x float*>* %offptr, align 4
 134   call void @llvm.masked.scatter.v2f32.v2p0f32(<2 x float> %v, <2 x float*> %offs, i32 4, <2 x i1> <i1 true, i1 true>)
 135   ret void
 136 }
 137
 138 ; VSTRW.32 Qd, [offs, 0]
 139 define arm_aapcs_vfpcc void @ptr_v4f32(<4 x float> %v, <4 x float*>* %offptr) {
 140 ; CHECK-LABEL: ptr_v4f32:
 141 ; CHECK:       @ %bb.0: @ %entry
 142 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 143 ; CHECK-NEXT:    vstrw.32 q0, [q1]
 144 ; CHECK-NEXT:    bx lr
 145 entry:
 146   %offs = load <4 x float*>, <4 x float*>* %offptr, align 4
 147   call void @llvm.masked.scatter.v4f32.v4p0f32(<4 x float> %v, <4 x float*> %offs, i32 4, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
 148   ret void
 149 }
 150
 151 ; Expand
 152 define arm_aapcs_vfpcc void @ptr_v8f32(<8 x float> %v, <8 x float*>* %offptr) {
 153 ; CHECK-LABEL: ptr_v8f32:
 154 ; CHECK:       @ %bb.0: @ %entry
 155 ; CHECK-NEXT:    .save {r4, r5, r7, lr}
 156 ; CHECK-NEXT:    push {r4, r5, r7, lr}
 157 ; CHECK-NEXT:    vldrw.u32 q2, [r0]
 158 ; CHECK-NEXT:    vmov r1, lr, d4
 159 ; CHECK-NEXT:    vmov r3, r12, d5
 160 ; CHECK-NEXT:    vldrw.u32 q2, [r0, #16]
 161 ; CHECK-NEXT:    vmov r0, r2, d4
 162 ; CHECK-NEXT:    vmov r4, r5, d5
 163 ; CHECK-NEXT:    vstr s0, [r1]
 164 ; CHECK-NEXT:    vstr s1, [lr]
 165 ; CHECK-NEXT:    vstr s2, [r3]
 166 ; CHECK-NEXT:    vstr s3, [r12]
 167 ; CHECK-NEXT:    vstr s4, [r0]
 168 ; CHECK-NEXT:    vstr s5, [r2]
 169 ; CHECK-NEXT:    vstr s6, [r4]
 170 ; CHECK-NEXT:    vstr s7, [r5]
 171 ; CHECK-NEXT:    pop {r4, r5, r7, pc}
 172 entry:
 173   %offs = load <8 x float*>, <8 x float*>* %offptr, align 4
 174   call void @llvm.masked.scatter.v8f32.v8p0f32(<8 x float> %v, <8 x float*> %offs, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
 175   ret void
 176 }
 177
 178 ; i16
 179
 180 ; Expand.
 181 define arm_aapcs_vfpcc void @ptr_i16(<8 x i16> %v, <8 x i16*>* %offptr) {
 182 ; CHECK-LABEL: ptr_i16:
 183 ; CHECK:       @ %bb.0: @ %entry
 184 ; CHECK-NEXT:    .save {r4, r5, r6, lr}
 185 ; CHECK-NEXT:    push {r4, r5, r6, lr}
 186 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 187 ; CHECK-NEXT:    vmov.u16 r6, q0[0]
 188 ; CHECK-NEXT:    vmov r1, r2, d2
 189 ; CHECK-NEXT:    vmov r3, r12, d3
 190 ; CHECK-NEXT:    vldrw.u32 q1, [r0, #16]
 191 ; CHECK-NEXT:    vmov r0, lr, d2
 192 ; CHECK-NEXT:    vmov r4, r5, d3
 193 ; CHECK-NEXT:    strh r6, [r1]
 194 ; CHECK-NEXT:    vmov.u16 r1, q0[1]
 195 ; CHECK-NEXT:    strh r1, [r2]
 196 ; CHECK-NEXT:    vmov.u16 r1, q0[2]
 197 ; CHECK-NEXT:    strh r1, [r3]
 198 ; CHECK-NEXT:    vmov.u16 r1, q0[3]
 199 ; CHECK-NEXT:    strh.w r1, [r12]
 200 ; CHECK-NEXT:    vmov.u16 r1, q0[4]
 201 ; CHECK-NEXT:    strh r1, [r0]
 202 ; CHECK-NEXT:    vmov.u16 r0, q0[5]
 203 ; CHECK-NEXT:    strh.w r0, [lr]
 204 ; CHECK-NEXT:    vmov.u16 r0, q0[6]
 205 ; CHECK-NEXT:    strh r0, [r4]
 206 ; CHECK-NEXT:    vmov.u16 r0, q0[7]
 207 ; CHECK-NEXT:    strh r0, [r5]
 208 ; CHECK-NEXT:    pop {r4, r5, r6, pc}
 209 entry:
 210   %offs = load <8 x i16*>, <8 x i16*>* %offptr, align 4
 211   call void @llvm.masked.scatter.v8i16.v8p0i16(<8 x i16> %v, <8 x i16*> %offs, i32 2, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
 212   ret void
 213 }
 214
 215 ; Expand
 216 define arm_aapcs_vfpcc void @ptr_v2i16_trunc(<2 x i32> %v, <2 x i16*>* %offptr) {
 217 ; CHECK-LABEL: ptr_v2i16_trunc:
 218 ; CHECK:       @ %bb.0: @ %entry
 219 ; CHECK-NEXT:    vmov r2, s0
 220 ; CHECK-NEXT:    ldrd r1, r0, [r0]
 221 ; CHECK-NEXT:    strh r2, [r1]
 222 ; CHECK-NEXT:    vmov r1, s2
 223 ; CHECK-NEXT:    strh r1, [r0]
 224 ; CHECK-NEXT:    bx lr
 225 entry:
 226   %offs = load <2 x i16*>, <2 x i16*>* %offptr, align 4
 227   %ext = trunc <2 x i32> %v to <2 x i16>
 228   call void @llvm.masked.scatter.v2i16.v2p0i16(<2 x i16> %ext, <2 x i16*> %offs, i32 2, <2 x i1> <i1 true, i1 true>)
 229   ret void
 230 }
 231
 232 define arm_aapcs_vfpcc void @ptr_v4i16_trunc(<4 x i32> %v, <4 x i16*>* %offptr) {
 233 ; CHECK-LABEL: ptr_v4i16_trunc:
 234 ; CHECK:       @ %bb.0: @ %entry
 235 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 236 ; CHECK-NEXT:    movs r0, #0
 237 ; CHECK-NEXT:    vstrh.32 q0, [r0, q1]
 238 ; CHECK-NEXT:    bx lr
 239 entry:
 240   %offs = load <4 x i16*>, <4 x i16*>* %offptr, align 4
 241   %ext = trunc <4 x i32> %v to <4 x i16>
 242   call void @llvm.masked.scatter.v4i16.v4p0i16(<4 x i16> %ext, <4 x i16*> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
 243   ret void
 244 }
 245
 246 define arm_aapcs_vfpcc void @ptr_v4i16_dup(i32 %v, <4 x i16*> %offs) {
 247 ; CHECK-LABEL: ptr_v4i16_dup:
 248 ; CHECK:       @ %bb.0: @ %entry
 249 ; CHECK-NEXT:    vdup.32 q1, r0
 250 ; CHECK-NEXT:    movs r1, #0
 251 ; CHECK-NEXT:    vmovlb.u16 q1, q1
 252 ; CHECK-NEXT:    vstrh.32 q1, [r1, q0]
 253 ; CHECK-NEXT:    bx lr
 254 entry:
 255   %ext = trunc i32 %v to i16
 256   %splatinsert = insertelement <4 x i16> poison, i16 %ext, i32 0
 257   %splat = shufflevector <4 x i16> %splatinsert, <4 x i16> poison, <4 x i32> zeroinitializer
 258   call void @llvm.masked.scatter.v4i16.v4p0i16(<4 x i16> %splat, <4 x i16*> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
 259   ret void
 260 }
 261
 262 ; Expand
 263 define arm_aapcs_vfpcc void @ptr_v8i16_trunc(<8 x i32> %v, <8 x i16*>* %offptr) {
 264 ; CHECK-LABEL: ptr_v8i16_trunc:
 265 ; CHECK:       @ %bb.0: @ %entry
 266 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 267 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 268 ; CHECK-NEXT:    vldrw.u32 q2, [r0]
 269 ; CHECK-NEXT:    vmov r3, r4, d0
 270 ; CHECK-NEXT:    vmov r1, r2, d4
 271 ; CHECK-NEXT:    vmov lr, r12, d5
 272 ; CHECK-NEXT:    vldrw.u32 q2, [r0, #16]
 273 ; CHECK-NEXT:    vmov r0, r5, d1
 274 ; CHECK-NEXT:    strh r3, [r1]
 275 ; CHECK-NEXT:    vmov r1, r7, d4
 276 ; CHECK-NEXT:    strh r4, [r2]
 277 ; CHECK-NEXT:    vmov r2, r4, d5
 278 ; CHECK-NEXT:    strh.w r0, [lr]
 279 ; CHECK-NEXT:    vmov r0, r3, d2
 280 ; CHECK-NEXT:    strh.w r5, [r12]
 281 ; CHECK-NEXT:    vmov r5, r6, d3
 282 ; CHECK-NEXT:    strh r0, [r1]
 283 ; CHECK-NEXT:    strh r3, [r7]
 284 ; CHECK-NEXT:    strh r5, [r2]
 285 ; CHECK-NEXT:    strh r6, [r4]
 286 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 287 entry:
 288   %offs = load <8 x i16*>, <8 x i16*>* %offptr, align 4
 289   %ext = trunc <8 x i32> %v to <8 x i16>
 290   call void @llvm.masked.scatter.v8i16.v8p0i16(<8 x i16> %ext, <8 x i16*> %offs, i32 2, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
 291   ret void
 292 }
 293
 294 ; f16
 295
 296 ; Expand.
 297 define arm_aapcs_vfpcc void @ptr_f16(<8 x half> %v, <8 x half*>* %offptr) {
 298 ; CHECK-LABEL: ptr_f16:
 299 ; CHECK:       @ %bb.0: @ %entry
 300 ; CHECK-NEXT:    vldrw.u32 q2, [r0]
 301 ; CHECK-NEXT:    vldrw.u32 q1, [r0, #16]
 302 ; CHECK-NEXT:    vmov r0, r1, d4
 303 ; CHECK-NEXT:    vstr.16 s0, [r0]
 304 ; CHECK-NEXT:    vmovx.f16 s0, s0
 305 ; CHECK-NEXT:    vstr.16 s0, [r1]
 306 ; CHECK-NEXT:    vmov r0, r1, d5
 307 ; CHECK-NEXT:    vmovx.f16 s0, s1
 308 ; CHECK-NEXT:    vstr.16 s1, [r0]
 309 ; CHECK-NEXT:    vstr.16 s0, [r1]
 310 ; CHECK-NEXT:    vmov r0, r1, d2
 311 ; CHECK-NEXT:    vmovx.f16 s0, s2
 312 ; CHECK-NEXT:    vstr.16 s2, [r0]
 313 ; CHECK-NEXT:    vstr.16 s0, [r1]
 314 ; CHECK-NEXT:    vmov r0, r1, d3
 315 ; CHECK-NEXT:    vmovx.f16 s0, s3
 316 ; CHECK-NEXT:    vstr.16 s3, [r0]
 317 ; CHECK-NEXT:    vstr.16 s0, [r1]
 318 ; CHECK-NEXT:    bx lr
 319 entry:
 320   %offs = load <8 x half*>, <8 x half*>* %offptr, align 4
 321   call void @llvm.masked.scatter.v8f16.v8p0f16(<8 x half> %v, <8 x half*> %offs, i32 2, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
 322   ret void
 323 }
 324
 325 define arm_aapcs_vfpcc void @ptr_v4f16(<4 x half> %v, <4 x half*>* %offptr) {
 326 ; CHECK-LABEL: ptr_v4f16:
 327 ; CHECK:       @ %bb.0: @ %entry
 328 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 329 ; CHECK-NEXT:    vmov r0, r1, d2
 330 ; CHECK-NEXT:    vstr.16 s0, [r0]
 331 ; CHECK-NEXT:    vmovx.f16 s0, s0
 332 ; CHECK-NEXT:    vstr.16 s0, [r1]
 333 ; CHECK-NEXT:    vmov r0, r1, d3
 334 ; CHECK-NEXT:    vmovx.f16 s0, s1
 335 ; CHECK-NEXT:    vstr.16 s1, [r0]
 336 ; CHECK-NEXT:    vstr.16 s0, [r1]
 337 ; CHECK-NEXT:    bx lr
 338 entry:
 339   %offs = load <4 x half*>, <4 x half*>* %offptr, align 4
 340   call void @llvm.masked.scatter.v4f16.v4p0f16(<4 x half> %v, <4 x half*> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
 341   ret void
 342 }
 343
 344 define arm_aapcs_vfpcc void @ptr_v4f16_dup(half %v, <4 x half*> %offs) {
 345 ; CHECK-LABEL: ptr_v4f16_dup:
 346 ; CHECK:       @ %bb.0: @ %entry
 347 ; CHECK-NEXT:    vmov r0, r1, d2
 348 ; CHECK-NEXT:    vmov r2, r3, d3
 349 ; CHECK-NEXT:    vstr.16 s0, [r0]
 350 ; CHECK-NEXT:    vstr.16 s0, [r1]
 351 ; CHECK-NEXT:    vstr.16 s0, [r2]
 352 ; CHECK-NEXT:    vstr.16 s0, [r3]
 353 ; CHECK-NEXT:    bx lr
 354 entry:
 355   %splatinsert = insertelement <4 x half> poison, half %v, i32 0
 356   %splat = shufflevector <4 x half> %splatinsert, <4 x half> poison, <4 x i32> zeroinitializer
 357   call void @llvm.masked.scatter.v4f16.v4p0f16(<4 x half> %splat, <4 x half*> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
 358   ret void
 359 }
 360
 361 ; i8
 362
 363 ; Expand.
 364 define arm_aapcs_vfpcc void @ptr_i8(<16 x i8> %v, <16 x i8*>* %offptr) {
 365 ; CHECK-LABEL: ptr_i8:
 366 ; CHECK:       @ %bb.0: @ %entry
 367 ; CHECK-NEXT:    .save {r4, r5, r6, r7, r8, r9, lr}
 368 ; CHECK-NEXT:    push.w {r4, r5, r6, r7, r8, r9, lr}
 369 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 370 ; CHECK-NEXT:    vldrw.u32 q2, [r0, #16]
 371 ; CHECK-NEXT:    vldrw.u32 q3, [r0, #32]
 372 ; CHECK-NEXT:    vmov.u8 r6, q0[0]
 373 ; CHECK-NEXT:    vmov r1, r2, d2
 374 ; CHECK-NEXT:    vmov.u8 r5, q0[4]
 375 ; CHECK-NEXT:    vmov r3, r12, d3
 376 ; CHECK-NEXT:    vldrw.u32 q1, [r0, #48]
 377 ; CHECK-NEXT:    vmov lr, r4, d4
 378 ; CHECK-NEXT:    vmov.u8 r7, q0[6]
 379 ; CHECK-NEXT:    vmov r0, r8, d5
 380 ; CHECK-NEXT:    strb r6, [r1]
 381 ; CHECK-NEXT:    vmov.u8 r1, q0[1]
 382 ; CHECK-NEXT:    strb r1, [r2]
 383 ; CHECK-NEXT:    vmov.u8 r6, q0[2]
 384 ; CHECK-NEXT:    vmov r1, r9, d6
 385 ; CHECK-NEXT:    strb r6, [r3]
 386 ; CHECK-NEXT:    vmov.u8 r3, q0[3]
 387 ; CHECK-NEXT:    vmov.u8 r2, q0[8]
 388 ; CHECK-NEXT:    strb.w r3, [r12]
 389 ; CHECK-NEXT:    vmov r3, r6, d7
 390 ; CHECK-NEXT:    strb.w r5, [lr]
 391 ; CHECK-NEXT:    vmov.u8 r5, q0[5]
 392 ; CHECK-NEXT:    strb r5, [r4]
 393 ; CHECK-NEXT:    vmov r5, r4, d2
 394 ; CHECK-NEXT:    strb r7, [r0]
 395 ; CHECK-NEXT:    vmov.u8 r0, q0[7]
 396 ; CHECK-NEXT:    strb.w r0, [r8]
 397 ; CHECK-NEXT:    vmov r0, r7, d3
 398 ; CHECK-NEXT:    strb r2, [r1]
 399 ; CHECK-NEXT:    vmov.u8 r1, q0[9]
 400 ; CHECK-NEXT:    strb.w r1, [r9]
 401 ; CHECK-NEXT:    vmov.u8 r1, q0[10]
 402 ; CHECK-NEXT:    strb r1, [r3]
 403 ; CHECK-NEXT:    vmov.u8 r1, q0[11]
 404 ; CHECK-NEXT:    strb r1, [r6]
 405 ; CHECK-NEXT:    vmov.u8 r1, q0[12]
 406 ; CHECK-NEXT:    strb r1, [r5]
 407 ; CHECK-NEXT:    vmov.u8 r1, q0[13]
 408 ; CHECK-NEXT:    strb r1, [r4]
 409 ; CHECK-NEXT:    vmov.u8 r1, q0[14]
 410 ; CHECK-NEXT:    strb r1, [r0]
 411 ; CHECK-NEXT:    vmov.u8 r0, q0[15]
 412 ; CHECK-NEXT:    strb r0, [r7]
 413 ; CHECK-NEXT:    pop.w {r4, r5, r6, r7, r8, r9, pc}
 414 entry:
 415   %offs = load <16 x i8*>, <16 x i8*>* %offptr, align 4
 416   call void @llvm.masked.scatter.v16i8.v16p0i8(<16 x i8> %v, <16 x i8*> %offs, i32 2, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
 417   ret void
 418 }
 419
 420 ; Expand
 421 define arm_aapcs_vfpcc void @ptr_v8i8_trunc16(<8 x i16> %v, <8 x i8*>* %offptr) {
 422 ; CHECK-LABEL: ptr_v8i8_trunc16:
 423 ; CHECK:       @ %bb.0: @ %entry
 424 ; CHECK-NEXT:    .save {r4, r5, r6, lr}
 425 ; CHECK-NEXT:    push {r4, r5, r6, lr}
 426 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 427 ; CHECK-NEXT:    vmov.u16 r6, q0[0]
 428 ; CHECK-NEXT:    vmov r1, r2, d2
 429 ; CHECK-NEXT:    vmov r3, r12, d3
 430 ; CHECK-NEXT:    vldrw.u32 q1, [r0, #16]
 431 ; CHECK-NEXT:    vmov r0, lr, d2
 432 ; CHECK-NEXT:    vmov r4, r5, d3
 433 ; CHECK-NEXT:    strb r6, [r1]
 434 ; CHECK-NEXT:    vmov.u16 r1, q0[1]
 435 ; CHECK-NEXT:    strb r1, [r2]
 436 ; CHECK-NEXT:    vmov.u16 r1, q0[2]
 437 ; CHECK-NEXT:    strb r1, [r3]
 438 ; CHECK-NEXT:    vmov.u16 r1, q0[3]
 439 ; CHECK-NEXT:    strb.w r1, [r12]
 440 ; CHECK-NEXT:    vmov.u16 r1, q0[4]
 441 ; CHECK-NEXT:    strb r1, [r0]
 442 ; CHECK-NEXT:    vmov.u16 r0, q0[5]
 443 ; CHECK-NEXT:    strb.w r0, [lr]
 444 ; CHECK-NEXT:    vmov.u16 r0, q0[6]
 445 ; CHECK-NEXT:    strb r0, [r4]
 446 ; CHECK-NEXT:    vmov.u16 r0, q0[7]
 447 ; CHECK-NEXT:    strb r0, [r5]
 448 ; CHECK-NEXT:    pop {r4, r5, r6, pc}
 449 entry:
 450   %offs = load <8 x i8*>, <8 x i8*>* %offptr, align 4
 451   %ext = trunc <8 x i16> %v to <8 x i8>
 452   call void @llvm.masked.scatter.v8i8.v8p0i8(<8 x i8> %ext, <8 x i8*> %offs, i32 1, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
 453   ret void
 454 }
 455
 456 define arm_aapcs_vfpcc void @ptr_v4i8_trunc32(<4 x i32> %v, <4 x i8*>* %offptr) {
 457 ; CHECK-LABEL: ptr_v4i8_trunc32:
 458 ; CHECK:       @ %bb.0: @ %entry
 459 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 460 ; CHECK-NEXT:    movs r0, #0
 461 ; CHECK-NEXT:    vstrb.32 q0, [r0, q1]
 462 ; CHECK-NEXT:    bx lr
 463 entry:
 464   %offs = load <4 x i8*>, <4 x i8*>* %offptr, align 4
 465   %ext = trunc <4 x i32> %v to <4 x i8>
 466   call void @llvm.masked.scatter.v4i8.v4p0i8(<4 x i8> %ext, <4 x i8*> %offs, i32 1, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
 467   ret void
 468 }
 469
 470 ; Expand
 471 define arm_aapcs_vfpcc void @ptr_v8i8_trunc32(<8 x i32> %v, <8 x i8*>* %offptr) {
 472 ; CHECK-LABEL: ptr_v8i8_trunc32:
 473 ; CHECK:       @ %bb.0: @ %entry
 474 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 475 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 476 ; CHECK-NEXT:    vldrw.u32 q2, [r0]
 477 ; CHECK-NEXT:    vmov r3, r4, d0
 478 ; CHECK-NEXT:    vmov r1, r2, d4
 479 ; CHECK-NEXT:    vmov lr, r12, d5
 480 ; CHECK-NEXT:    vldrw.u32 q2, [r0, #16]
 481 ; CHECK-NEXT:    vmov r0, r5, d1
 482 ; CHECK-NEXT:    strb r3, [r1]
 483 ; CHECK-NEXT:    vmov r1, r7, d4
 484 ; CHECK-NEXT:    strb r4, [r2]
 485 ; CHECK-NEXT:    vmov r2, r4, d5
 486 ; CHECK-NEXT:    strb.w r0, [lr]
 487 ; CHECK-NEXT:    vmov r0, r3, d2
 488 ; CHECK-NEXT:    strb.w r5, [r12]
 489 ; CHECK-NEXT:    vmov r5, r6, d3
 490 ; CHECK-NEXT:    strb r0, [r1]
 491 ; CHECK-NEXT:    strb r3, [r7]
 492 ; CHECK-NEXT:    strb r5, [r2]
 493 ; CHECK-NEXT:    strb r6, [r4]
 494 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 495 entry:
 496   %offs = load <8 x i8*>, <8 x i8*>* %offptr, align 4
 497   %ext = trunc <8 x i32> %v to <8 x i8>
 498   call void @llvm.masked.scatter.v8i8.v8p0i8(<8 x i8> %ext, <8 x i8*> %offs, i32 1, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
 499   ret void
 500 }
 501
 502 ; loops
 503
 504 define void @foo_ptr_p_int32_t(i32* %dest, i32** %src, i32 %n) {
 505 ; CHECK-LABEL: foo_ptr_p_int32_t:
 506 ; CHECK:       @ %bb.0: @ %entry
 507 ; CHECK-NEXT:    bic r3, r2, #15
 508 ; CHECK-NEXT:    cmp r3, #1
 509 ; CHECK-NEXT:    it lt
 510 ; CHECK-NEXT:    bxlt lr
 511 ; CHECK-NEXT:  .LBB19_1: @ %vector.body
 512 ; CHECK-NEXT:    @ =>This Inner Loop Header: Depth=1
 513 ; CHECK-NEXT:    vldrw.u32 q0, [r1], #16
 514 ; CHECK-NEXT:    subs r2, #4
 515 ; CHECK-NEXT:    vptt.i32 ne, q0, zr
 516 ; CHECK-NEXT:    vldrwt.u32 q1, [r0], #16
 517 ; CHECK-NEXT:    vstrwt.32 q1, [q0]
 518 ; CHECK-NEXT:    bne .LBB19_1
 519 ; CHECK-NEXT:  @ %bb.2: @ %for.end
 520 ; CHECK-NEXT:    bx lr
 521 entry:
 522   %and = and i32 %n, -16
 523   %cmp11 = icmp sgt i32 %and, 0
 524   br i1 %cmp11, label %vector.body, label %for.end
 525
 526 vector.body:                                      ; preds = %entry, %vector.body
 527   %index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
 528   %0 = getelementptr inbounds i32*, i32** %src, i32 %index
 529   %1 = bitcast i32** %0 to <4 x i32*>*
 530   %wide.load = load <4 x i32*>, <4 x i32*>* %1, align 4
 531   %2 = icmp ne <4 x i32*> %wide.load, zeroinitializer
 532   %3 = getelementptr inbounds i32, i32* %dest, i32 %index
 533   %4 = bitcast i32* %3 to <4 x i32>*
 534   %wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.v4p0i32(<4 x i32>* %4, i32 4, <4 x i1> %2, <4 x i32> undef)
 535   call void @llvm.masked.scatter.v4i32.v4p0i32(<4 x i32> %wide.masked.load, <4 x i32*> %wide.load, i32 4, <4 x i1> %2)
 536   %index.next = add i32 %index, 4
 537   %5 = icmp eq i32 %index.next, %n
 538   br i1 %5, label %for.end, label %vector.body
 539
 540 for.end:                                          ; preds = %vector.body, %entry
 541   ret void
 542 }
 543
 544 define void @foo_ptr_p_float(float* %dest, float** %src, i32 %n) {
 545 ; CHECK-LABEL: foo_ptr_p_float:
 546 ; CHECK:       @ %bb.0: @ %entry
 547 ; CHECK-NEXT:    bic r3, r2, #15
 548 ; CHECK-NEXT:    cmp r3, #1
 549 ; CHECK-NEXT:    it lt
 550 ; CHECK-NEXT:    bxlt lr
 551 ; CHECK-NEXT:  .LBB20_1: @ %vector.body
 552 ; CHECK-NEXT:    @ =>This Inner Loop Header: Depth=1
 553 ; CHECK-NEXT:    vldrw.u32 q0, [r1], #16
 554 ; CHECK-NEXT:    subs r2, #4
 555 ; CHECK-NEXT:    vptt.i32 ne, q0, zr
 556 ; CHECK-NEXT:    vldrwt.u32 q1, [r0], #16
 557 ; CHECK-NEXT:    vstrwt.32 q1, [q0]
 558 ; CHECK-NEXT:    bne .LBB20_1
 559 ; CHECK-NEXT:  @ %bb.2: @ %for.end
 560 ; CHECK-NEXT:    bx lr
 561 entry:
 562   %and = and i32 %n, -16
 563   %cmp11 = icmp sgt i32 %and, 0
 564   br i1 %cmp11, label %vector.body, label %for.end
 565
 566 vector.body:                                      ; preds = %entry, %vector.body
 567   %index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
 568   %0 = getelementptr inbounds float*, float** %src, i32 %index
 569   %1 = bitcast float** %0 to <4 x float*>*
 570   %wide.load = load <4 x float*>, <4 x float*>* %1, align 4
 571   %2 = icmp ne <4 x float*> %wide.load, zeroinitializer
 572   %3 = getelementptr inbounds float, float* %dest, i32 %index
 573   %4 = bitcast float* %3 to <4 x i32>*
 574   %wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.v4p0i32(<4 x i32>* %4, i32 4, <4 x i1> %2, <4 x i32> undef)
 575   %5 = bitcast <4 x float*> %wide.load to <4 x i32*>
 576   call void @llvm.masked.scatter.v4i32.v4p0i32(<4 x i32> %wide.masked.load, <4 x i32*> %5, i32 4, <4 x i1> %2)
 577   %index.next = add i32 %index, 4
 578   %6 = icmp eq i32 %index.next, %n
 579   br i1 %6, label %for.end, label %vector.body
 580
 581 for.end:                                          ; preds = %vector.body, %entry
 582   ret void
 583 }
 584
 585 ; VLSTW.u32 Qd, [P, 4]
 586 define arm_aapcs_vfpcc void @qi4(<4 x i32> %v, <4 x i32*> %p) {
 587 ; CHECK-LABEL: qi4:
 588 ; CHECK:       @ %bb.0: @ %entry
 589 ; CHECK-NEXT:    movs r0, #16
 590 ; CHECK-NEXT:    vadd.i32 q1, q1, r0
 591 ; CHECK-NEXT:    vstrw.32 q0, [q1]
 592 ; CHECK-NEXT:    bx lr
 593 entry:
 594   %g = getelementptr inbounds i32, <4 x i32*> %p, i32 4
 595   call void @llvm.masked.scatter.v4i32.v4p0i32(<4 x i32> %v, <4 x i32*> %g, i32 4, <4 x i1> <i1 true, i1 true, i1 true, i1 true>)
 596   ret void
 597 }
 598
 599 declare void @llvm.masked.scatter.v2i16.v2p0i16(<2 x i16>, <2 x i16*>, i32, <2 x i1>)
 600 declare void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32>, <2 x i32*>, i32, <2 x i1>)
 601 declare void @llvm.masked.scatter.v2f32.v2p0f32(<2 x float>, <2 x float*>, i32, <2 x i1>)
 602 declare void @llvm.masked.scatter.v4i8.v4p0i8(<4 x i8>, <4 x i8*>, i32, <4 x i1>)
 603 declare void @llvm.masked.scatter.v4i16.v4p0i16(<4 x i16>, <4 x i16*>, i32, <4 x i1>)
 604 declare void @llvm.masked.scatter.v4f16.v4p0f16(<4 x half>, <4 x half*>, i32, <4 x i1>)
 605 declare void @llvm.masked.scatter.v4i32.v4p0i32(<4 x i32>, <4 x i32*>, i32, <4 x i1>)
 606 declare void @llvm.masked.scatter.v4f32.v4p0f32(<4 x float>, <4 x float*>, i32, <4 x i1>)
 607 declare void @llvm.masked.scatter.v8i8.v8p0i8(<8 x i8>, <8 x i8*>, i32, <8 x i1>)
 608 declare void @llvm.masked.scatter.v8i16.v8p0i16(<8 x i16>, <8 x i16*>, i32, <8 x i1>)
 609 declare void @llvm.masked.scatter.v8f16.v8p0f16(<8 x half>, <8 x half*>, i32, <8 x i1>)
 610 declare void @llvm.masked.scatter.v8i32.v8p0i32(<8 x i32>, <8 x i32*>, i32, <8 x i1>)
 611 declare void @llvm.masked.scatter.v8f32.v8p0f32(<8 x float>, <8 x float*>, i32, <8 x i1>)
 612 declare void @llvm.masked.scatter.v16i8.v16p0i8(<16 x i8>, <16 x i8*>, i32, <16 x i1>)
 613 declare void @llvm.masked.scatter.v16i32.v16p0i32(<16 x i32>, <16 x i32*>, i32, <16 x i1>)
 614 declare <4 x i32> @llvm.masked.load.v4i32.v4p0i32(<4 x i32>*, i32, <4 x i1>, <4 x i32>)