llvm/test/CodeGen/Thumb2/mve-gather-ptrs.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -enable-arm-maskedldst %s -o - | FileCheck %s
   3
   4 ; i32
   5
   6 define arm_aapcs_vfpcc <2 x i32> @ptr_v2i32(<2 x i32*>* %offptr) {
   7 ; CHECK-LABEL: ptr_v2i32:
   8 ; CHECK:       @ %bb.0: @ %entry
   9 ; CHECK-NEXT:    ldrd r1, r0, [r0]
  10 ; CHECK-NEXT:    ldr r0, [r0]
  11 ; CHECK-NEXT:    ldr r1, [r1]
  12 ; CHECK-NEXT:    vmov q0[2], q0[0], r1, r0
  13 ; CHECK-NEXT:    bx lr
  14 entry:
  15   %offs = load <2 x i32*>, <2 x i32*>* %offptr, align 4
  16   %gather = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %offs, i32 4, <2 x i1> <i1 true, i1 true>, <2 x i32> undef)
  17   ret <2 x i32> %gather
  18 }
  19
  20 define arm_aapcs_vfpcc <4 x i32> @ptr_v4i32(<4 x i32*>* %offptr) {
  21 ; CHECK-LABEL: ptr_v4i32:
  22 ; CHECK:       @ %bb.0: @ %entry
  23 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
  24 ; CHECK-NEXT:    vldrw.u32 q0, [q1]
  25 ; CHECK-NEXT:    bx lr
  26 entry:
  27   %offs = load <4 x i32*>, <4 x i32*>* %offptr, align 4
  28   %gather = call <4 x i32> @llvm.masked.gather.v4i32.v4p0i32(<4 x i32*> %offs, i32 4, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i32> undef)
  29   ret <4 x i32> %gather
  30 }
  31
  32 define arm_aapcs_vfpcc <4 x i32> @ptr_v4i32_opaque(<4 x ptr>* %offptr) {
  33 ; CHECK-LABEL: ptr_v4i32_opaque:
  34 ; CHECK:       @ %bb.0: @ %entry
  35 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
  36 ; CHECK-NEXT:    vldrw.u32 q0, [q1]
  37 ; CHECK-NEXT:    bx lr
  38 entry:
  39   %offs = load <4 x ptr>, <4 x ptr>* %offptr, align 4
  40   %gather = call <4 x i32> @llvm.masked.gather.v4i32.v4p0(<4 x ptr> %offs, i32 4, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i32> undef)
  41   ret <4 x i32> %gather
  42 }
  43
  44 define arm_aapcs_vfpcc <8 x i32> @ptr_v8i32(<8 x i32*>* %offptr) {
  45 ; CHECK-LABEL: ptr_v8i32:
  46 ; CHECK:       @ %bb.0: @ %entry
  47 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
  48 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
  49 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
  50 ; CHECK-NEXT:    vmov r1, r2, d1
  51 ; CHECK-NEXT:    vmov r3, r12, d0
  52 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
  53 ; CHECK-NEXT:    vmov r0, lr, d1
  54 ; CHECK-NEXT:    ldr r7, [r2]
  55 ; CHECK-NEXT:    vmov r2, r4, d0
  56 ; CHECK-NEXT:    ldr r6, [r1]
  57 ; CHECK-NEXT:    ldr r3, [r3]
  58 ; CHECK-NEXT:    ldr r0, [r0]
  59 ; CHECK-NEXT:    ldr.w r1, [r12]
  60 ; CHECK-NEXT:    vmov q1[2], q1[0], r3, r6
  61 ; CHECK-NEXT:    ldr.w r5, [lr]
  62 ; CHECK-NEXT:    vmov q1[3], q1[1], r1, r7
  63 ; CHECK-NEXT:    ldr r2, [r2]
  64 ; CHECK-NEXT:    ldr r4, [r4]
  65 ; CHECK-NEXT:    vmov q0[2], q0[0], r2, r0
  66 ; CHECK-NEXT:    vmov q0[3], q0[1], r4, r5
  67 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
  68 entry:
  69   %offs = load <8 x i32*>, <8 x i32*>* %offptr, align 4
  70   %gather = call <8 x i32> @llvm.masked.gather.v8i32.v8p0i32(<8 x i32*> %offs, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)
  71   ret <8 x i32> %gather
  72 }
  73
  74 define arm_aapcs_vfpcc <16 x i32> @ptr_v16i32(<16 x i32*>* %offptr) {
  75 ; CHECK-LABEL: ptr_v16i32:
  76 ; CHECK:       @ %bb.0: @ %entry
  77 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
  78 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
  79 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #48]
  80 ; CHECK-NEXT:    vldrw.u32 q1, [r0, #16]
  81 ; CHECK-NEXT:    vldrw.u32 q2, [r0, #32]
  82 ; CHECK-NEXT:    vmov r1, r2, d1
  83 ; CHECK-NEXT:    vmov r3, lr, d0
  84 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
  85 ; CHECK-NEXT:    vmov r4, r5, d1
  86 ; CHECK-NEXT:    ldr r7, [r2]
  87 ; CHECK-NEXT:    vmov r2, r6, d0
  88 ; CHECK-NEXT:    ldr.w r12, [r1]
  89 ; CHECK-NEXT:    ldr r3, [r3]
  90 ; CHECK-NEXT:    ldr r4, [r4]
  91 ; CHECK-NEXT:    ldr r5, [r5]
  92 ; CHECK-NEXT:    vmov q3[2], q3[0], r3, r12
  93 ; CHECK-NEXT:    ldr.w r1, [lr]
  94 ; CHECK-NEXT:    vmov q3[3], q3[1], r1, r7
  95 ; CHECK-NEXT:    ldr r2, [r2]
  96 ; CHECK-NEXT:    ldr r6, [r6]
  97 ; CHECK-NEXT:    vmov q0[2], q0[0], r2, r4
  98 ; CHECK-NEXT:    vmov r2, r4, d3
  99 ; CHECK-NEXT:    vmov q0[3], q0[1], r6, r5
 100 ; CHECK-NEXT:    vmov r6, r5, d2
 101 ; CHECK-NEXT:    ldr r2, [r2]
 102 ; CHECK-NEXT:    ldr r6, [r6]
 103 ; CHECK-NEXT:    ldr r5, [r5]
 104 ; CHECK-NEXT:    vmov q1[2], q1[0], r6, r2
 105 ; CHECK-NEXT:    ldr r6, [r4]
 106 ; CHECK-NEXT:    vmov r0, r2, d5
 107 ; CHECK-NEXT:    vmov q1[3], q1[1], r5, r6
 108 ; CHECK-NEXT:    vmov r6, r5, d4
 109 ; CHECK-NEXT:    ldr r0, [r0]
 110 ; CHECK-NEXT:    ldr r6, [r6]
 111 ; CHECK-NEXT:    ldr r2, [r2]
 112 ; CHECK-NEXT:    ldr r5, [r5]
 113 ; CHECK-NEXT:    vmov q2[2], q2[0], r6, r0
 114 ; CHECK-NEXT:    vmov q2[3], q2[1], r5, r2
 115 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 116 entry:
 117   %offs = load <16 x i32*>, <16 x i32*>* %offptr, align 4
 118   %gather = call <16 x i32> @llvm.masked.gather.v16i32.v16p0i32(<16 x i32*> %offs, i32 4, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <16 x i32> undef)
 119   ret <16 x i32> %gather
 120 }
 121
 122 ; f32
 123
 124 define arm_aapcs_vfpcc <2 x float> @ptr_v2f32(<2 x float*>* %offptr) {
 125 ; CHECK-LABEL: ptr_v2f32:
 126 ; CHECK:       @ %bb.0: @ %entry
 127 ; CHECK-NEXT:    ldrd r1, r0, [r0]
 128 ; CHECK-NEXT:    vldr s1, [r0]
 129 ; CHECK-NEXT:    vldr s0, [r1]
 130 ; CHECK-NEXT:    bx lr
 131 entry:
 132   %offs = load <2 x float*>, <2 x float*>* %offptr, align 4
 133   %gather = call <2 x float> @llvm.masked.gather.v2f32.v2p0f32(<2 x float*> %offs, i32 4, <2 x i1> <i1 true, i1 true>, <2 x float> undef)
 134   ret <2 x float> %gather
 135 }
 136
 137 define arm_aapcs_vfpcc <4 x float> @ptr_v4f32(<4 x float*>* %offptr) {
 138 ; CHECK-LABEL: ptr_v4f32:
 139 ; CHECK:       @ %bb.0: @ %entry
 140 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 141 ; CHECK-NEXT:    vldrw.u32 q0, [q1]
 142 ; CHECK-NEXT:    bx lr
 143 entry:
 144   %offs = load <4 x float*>, <4 x float*>* %offptr, align 4
 145   %gather = call <4 x float> @llvm.masked.gather.v4f32.v4p0f32(<4 x float*> %offs, i32 4, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x float> undef)
 146   ret <4 x float> %gather
 147 }
 148
 149 define arm_aapcs_vfpcc <4 x float> @ptr_v4f32_opaque(<4 x ptr>* %offptr) {
 150 ; CHECK-LABEL: ptr_v4f32_opaque:
 151 ; CHECK:       @ %bb.0: @ %entry
 152 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 153 ; CHECK-NEXT:    vldrw.u32 q0, [q1]
 154 ; CHECK-NEXT:    bx lr
 155 entry:
 156   %offs = load <4 x ptr>, <4 x ptr>* %offptr, align 4
 157   %gather = call <4 x float> @llvm.masked.gather.v4f32.v4p0(<4 x ptr> %offs, i32 4, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x float> undef)
 158   ret <4 x float> %gather
 159 }
 160
 161 define arm_aapcs_vfpcc <8 x float> @ptr_v8f32(<8 x float*>* %offptr) {
 162 ; CHECK-LABEL: ptr_v8f32:
 163 ; CHECK:       @ %bb.0: @ %entry
 164 ; CHECK-NEXT:    .save {r4, r5, r7, lr}
 165 ; CHECK-NEXT:    push {r4, r5, r7, lr}
 166 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 167 ; CHECK-NEXT:    vmov r12, r2, d1
 168 ; CHECK-NEXT:    vmov lr, r1, d0
 169 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 170 ; CHECK-NEXT:    vmov r0, r3, d1
 171 ; CHECK-NEXT:    vmov r4, r5, d0
 172 ; CHECK-NEXT:    vldr s3, [r2]
 173 ; CHECK-NEXT:    vldr s2, [r12]
 174 ; CHECK-NEXT:    vldr s1, [r1]
 175 ; CHECK-NEXT:    vldr s0, [lr]
 176 ; CHECK-NEXT:    vldr s7, [r3]
 177 ; CHECK-NEXT:    vldr s6, [r0]
 178 ; CHECK-NEXT:    vldr s5, [r5]
 179 ; CHECK-NEXT:    vldr s4, [r4]
 180 ; CHECK-NEXT:    pop {r4, r5, r7, pc}
 181 entry:
 182   %offs = load <8 x float*>, <8 x float*>* %offptr, align 4
 183   %gather = call <8 x float> @llvm.masked.gather.v8f32.v8p0f32(<8 x float*> %offs, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x float> undef)
 184   ret <8 x float> %gather
 185 }
 186
 187 ; i16
 188
 189 define arm_aapcs_vfpcc <8 x i16> @ptr_i16(<8 x i16*>* %offptr) {
 190 ; CHECK-LABEL: ptr_i16:
 191 ; CHECK:       @ %bb.0: @ %entry
 192 ; CHECK-NEXT:    .save {r4, r5, r6, lr}
 193 ; CHECK-NEXT:    push {r4, r5, r6, lr}
 194 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 195 ; CHECK-NEXT:    vmov r1, r2, d0
 196 ; CHECK-NEXT:    vmov r3, r12, d1
 197 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 198 ; CHECK-NEXT:    vmov r4, r5, d0
 199 ; CHECK-NEXT:    vmov r0, lr, d1
 200 ; CHECK-NEXT:    ldrh r1, [r1]
 201 ; CHECK-NEXT:    ldrh r6, [r3]
 202 ; CHECK-NEXT:    ldrh r2, [r2]
 203 ; CHECK-NEXT:    ldrh r4, [r4]
 204 ; CHECK-NEXT:    ldrh r5, [r5]
 205 ; CHECK-NEXT:    vmov.16 q0[0], r4
 206 ; CHECK-NEXT:    ldrh r0, [r0]
 207 ; CHECK-NEXT:    vmov.16 q0[1], r5
 208 ; CHECK-NEXT:    ldrh.w r3, [lr]
 209 ; CHECK-NEXT:    vmov.16 q0[2], r0
 210 ; CHECK-NEXT:    ldrh.w r12, [r12]
 211 ; CHECK-NEXT:    vmov.16 q0[3], r3
 212 ; CHECK-NEXT:    vmov.16 q0[4], r1
 213 ; CHECK-NEXT:    vmov.16 q0[5], r2
 214 ; CHECK-NEXT:    vmov.16 q0[6], r6
 215 ; CHECK-NEXT:    vmov.16 q0[7], r12
 216 ; CHECK-NEXT:    pop {r4, r5, r6, pc}
 217 entry:
 218   %offs = load <8 x i16*>, <8 x i16*>* %offptr, align 4
 219   %gather = call <8 x i16> @llvm.masked.gather.v8i16.v8p0i16(<8 x i16*> %offs, i32 2, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i16> undef)
 220   ret <8 x i16> %gather
 221 }
 222
 223 define arm_aapcs_vfpcc <2 x i32> @ptr_v2i16_sext(<2 x i16*>* %offptr) {
 224 ; CHECK-LABEL: ptr_v2i16_sext:
 225 ; CHECK:       @ %bb.0: @ %entry
 226 ; CHECK-NEXT:    ldrd r1, r0, [r0]
 227 ; CHECK-NEXT:    ldrsh.w r0, [r0]
 228 ; CHECK-NEXT:    ldrsh.w r1, [r1]
 229 ; CHECK-NEXT:    vmov q0[2], q0[0], r1, r0
 230 ; CHECK-NEXT:    asrs r0, r0, #31
 231 ; CHECK-NEXT:    asrs r1, r1, #31
 232 ; CHECK-NEXT:    vmov q0[3], q0[1], r1, r0
 233 ; CHECK-NEXT:    bx lr
 234 entry:
 235   %offs = load <2 x i16*>, <2 x i16*>* %offptr, align 4
 236   %gather = call <2 x i16> @llvm.masked.gather.v2i16.v2p0i16(<2 x i16*> %offs, i32 2, <2 x i1> <i1 true, i1 true>, <2 x i16> undef)
 237   %ext = sext <2 x i16> %gather to <2 x i32>
 238   ret <2 x i32> %ext
 239 }
 240
 241 define arm_aapcs_vfpcc <2 x i32> @ptr_v2i16_zext(<2 x i16*>* %offptr) {
 242 ; CHECK-LABEL: ptr_v2i16_zext:
 243 ; CHECK:       @ %bb.0: @ %entry
 244 ; CHECK-NEXT:    ldrd r1, r0, [r0]
 245 ; CHECK-NEXT:    vmov.i64 q0, #0xffff
 246 ; CHECK-NEXT:    ldrh r0, [r0]
 247 ; CHECK-NEXT:    ldrh r1, [r1]
 248 ; CHECK-NEXT:    vmov q1[2], q1[0], r1, r0
 249 ; CHECK-NEXT:    vand q0, q1, q0
 250 ; CHECK-NEXT:    bx lr
 251 entry:
 252   %offs = load <2 x i16*>, <2 x i16*>* %offptr, align 4
 253   %gather = call <2 x i16> @llvm.masked.gather.v2i16.v2p0i16(<2 x i16*> %offs, i32 2, <2 x i1> <i1 true, i1 true>, <2 x i16> undef)
 254   %ext = zext <2 x i16> %gather to <2 x i32>
 255   ret <2 x i32> %ext
 256 }
 257
 258 define arm_aapcs_vfpcc <4 x i32> @ptr_v4i16_sext(<4 x i16*>* %offptr) {
 259 ; CHECK-LABEL: ptr_v4i16_sext:
 260 ; CHECK:       @ %bb.0: @ %entry
 261 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 262 ; CHECK-NEXT:    movs r1, #0
 263 ; CHECK-NEXT:    vldrh.s32 q0, [r1, q1]
 264 ; CHECK-NEXT:    bx lr
 265 entry:
 266   %offs = load <4 x i16*>, <4 x i16*>* %offptr, align 4
 267   %gather = call <4 x i16> @llvm.masked.gather.v4i16.v4p0i16(<4 x i16*> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i16> undef)
 268   %ext = sext <4 x i16> %gather to <4 x i32>
 269   ret <4 x i32> %ext
 270 }
 271
 272 define arm_aapcs_vfpcc <4 x i32> @ptr_v4i16_zext(<4 x i16*>* %offptr) {
 273 ; CHECK-LABEL: ptr_v4i16_zext:
 274 ; CHECK:       @ %bb.0: @ %entry
 275 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 276 ; CHECK-NEXT:    movs r1, #0
 277 ; CHECK-NEXT:    vldrh.u32 q0, [r1, q1]
 278 ; CHECK-NEXT:    bx lr
 279 entry:
 280   %offs = load <4 x i16*>, <4 x i16*>* %offptr, align 4
 281   %gather = call <4 x i16> @llvm.masked.gather.v4i16.v4p0i16(<4 x i16*> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i16> undef)
 282   %ext = zext <4 x i16> %gather to <4 x i32>
 283   ret <4 x i32> %ext
 284 }
 285
 286 define arm_aapcs_vfpcc <4 x i32> @ptr_v4i16_sext_opaque(<4 x ptr>* %offptr) {
 287 ; CHECK-LABEL: ptr_v4i16_sext_opaque:
 288 ; CHECK:       @ %bb.0: @ %entry
 289 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 290 ; CHECK-NEXT:    movs r1, #0
 291 ; CHECK-NEXT:    vldrh.s32 q0, [r1, q1]
 292 ; CHECK-NEXT:    bx lr
 293 entry:
 294   %offs = load <4 x ptr>, <4 x ptr>* %offptr, align 4
 295   %gather = call <4 x i16> @llvm.masked.gather.v4i16.v4p0(<4 x ptr> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i16> undef)
 296   %ext = sext <4 x i16> %gather to <4 x i32>
 297   ret <4 x i32> %ext
 298 }
 299
 300 define arm_aapcs_vfpcc <4 x i32> @ptr_v4i16_zext_opaque(<4 x ptr>* %offptr) {
 301 ; CHECK-LABEL: ptr_v4i16_zext_opaque:
 302 ; CHECK:       @ %bb.0: @ %entry
 303 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 304 ; CHECK-NEXT:    movs r1, #0
 305 ; CHECK-NEXT:    vldrh.u32 q0, [r1, q1]
 306 ; CHECK-NEXT:    bx lr
 307 entry:
 308   %offs = load <4 x ptr>, <4 x ptr>* %offptr, align 4
 309   %gather = call <4 x i16> @llvm.masked.gather.v4i16.v4p0(<4 x ptr> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i16> undef)
 310   %ext = zext <4 x i16> %gather to <4 x i32>
 311   ret <4 x i32> %ext
 312 }
 313
 314 define arm_aapcs_vfpcc <4 x i16> @ptr_v4i16(<4 x i16*>* %offptr) {
 315 ; CHECK-LABEL: ptr_v4i16:
 316 ; CHECK:       @ %bb.0: @ %entry
 317 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 318 ; CHECK-NEXT:    movs r1, #0
 319 ; CHECK-NEXT:    vldrh.u32 q0, [r1, q1]
 320 ; CHECK-NEXT:    bx lr
 321 entry:
 322   %offs = load <4 x i16*>, <4 x i16*>* %offptr, align 4
 323   %gather = call <4 x i16> @llvm.masked.gather.v4i16.v4p0i16(<4 x i16*> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i16> undef)
 324   ret <4 x i16> %gather
 325 }
 326
 327 define arm_aapcs_vfpcc <8 x i32> @ptr_v8i16_sext(<8 x i16*>* %offptr) {
 328 ; CHECK-LABEL: ptr_v8i16_sext:
 329 ; CHECK:       @ %bb.0: @ %entry
 330 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 331 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 332 ; CHECK-NEXT:    .pad #16
 333 ; CHECK-NEXT:    sub sp, #16
 334 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 335 ; CHECK-NEXT:    vmov r3, r1, d1
 336 ; CHECK-NEXT:    vmov r12, r2, d0
 337 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 338 ; CHECK-NEXT:    vmov lr, r0, d1
 339 ; CHECK-NEXT:    ldrh r7, [r1]
 340 ; CHECK-NEXT:    ldrh.w r1, [r12]
 341 ; CHECK-NEXT:    ldrh r2, [r2]
 342 ; CHECK-NEXT:    ldrh r4, [r0]
 343 ; CHECK-NEXT:    vmov r0, r5, d0
 344 ; CHECK-NEXT:    ldrh.w r6, [lr]
 345 ; CHECK-NEXT:    ldrh r3, [r3]
 346 ; CHECK-NEXT:    ldrh r0, [r0]
 347 ; CHECK-NEXT:    ldrh r5, [r5]
 348 ; CHECK-NEXT:    vmov.16 q0[0], r0
 349 ; CHECK-NEXT:    mov r0, sp
 350 ; CHECK-NEXT:    vmov.16 q0[1], r5
 351 ; CHECK-NEXT:    vmov.16 q0[2], r6
 352 ; CHECK-NEXT:    vmov.16 q0[3], r4
 353 ; CHECK-NEXT:    vmov.16 q0[4], r1
 354 ; CHECK-NEXT:    vmov.16 q0[5], r2
 355 ; CHECK-NEXT:    vmov.16 q0[6], r3
 356 ; CHECK-NEXT:    vmov.16 q0[7], r7
 357 ; CHECK-NEXT:    vstrw.32 q0, [r0]
 358 ; CHECK-NEXT:    vldrh.s32 q0, [r0]
 359 ; CHECK-NEXT:    vldrh.s32 q1, [r0, #8]
 360 ; CHECK-NEXT:    add sp, #16
 361 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 362 entry:
 363   %offs = load <8 x i16*>, <8 x i16*>* %offptr, align 4
 364   %gather = call <8 x i16> @llvm.masked.gather.v8i16.v8p0i16(<8 x i16*> %offs, i32 2, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i16> undef)
 365   %ext = sext <8 x i16> %gather to <8 x i32>
 366   ret <8 x i32> %ext
 367 }
 368
 369 define arm_aapcs_vfpcc <8 x i32> @ptr_v8i16_zext(<8 x i16*>* %offptr) {
 370 ; CHECK-LABEL: ptr_v8i16_zext:
 371 ; CHECK:       @ %bb.0: @ %entry
 372 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 373 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 374 ; CHECK-NEXT:    .pad #16
 375 ; CHECK-NEXT:    sub sp, #16
 376 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 377 ; CHECK-NEXT:    vmov r3, r1, d1
 378 ; CHECK-NEXT:    vmov r12, r2, d0
 379 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 380 ; CHECK-NEXT:    vmov lr, r0, d1
 381 ; CHECK-NEXT:    ldrh r7, [r1]
 382 ; CHECK-NEXT:    ldrh.w r1, [r12]
 383 ; CHECK-NEXT:    ldrh r2, [r2]
 384 ; CHECK-NEXT:    ldrh r4, [r0]
 385 ; CHECK-NEXT:    vmov r0, r5, d0
 386 ; CHECK-NEXT:    ldrh.w r6, [lr]
 387 ; CHECK-NEXT:    ldrh r3, [r3]
 388 ; CHECK-NEXT:    ldrh r0, [r0]
 389 ; CHECK-NEXT:    ldrh r5, [r5]
 390 ; CHECK-NEXT:    vmov.16 q0[0], r0
 391 ; CHECK-NEXT:    mov r0, sp
 392 ; CHECK-NEXT:    vmov.16 q0[1], r5
 393 ; CHECK-NEXT:    vmov.16 q0[2], r6
 394 ; CHECK-NEXT:    vmov.16 q0[3], r4
 395 ; CHECK-NEXT:    vmov.16 q0[4], r1
 396 ; CHECK-NEXT:    vmov.16 q0[5], r2
 397 ; CHECK-NEXT:    vmov.16 q0[6], r3
 398 ; CHECK-NEXT:    vmov.16 q0[7], r7
 399 ; CHECK-NEXT:    vstrw.32 q0, [r0]
 400 ; CHECK-NEXT:    vldrh.u32 q0, [r0]
 401 ; CHECK-NEXT:    vldrh.u32 q1, [r0, #8]
 402 ; CHECK-NEXT:    add sp, #16
 403 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 404 entry:
 405   %offs = load <8 x i16*>, <8 x i16*>* %offptr, align 4
 406   %gather = call <8 x i16> @llvm.masked.gather.v8i16.v8p0i16(<8 x i16*> %offs, i32 2, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i16> undef)
 407   %ext = zext <8 x i16> %gather to <8 x i32>
 408   ret <8 x i32> %ext
 409 }
 410
 411 ; f16
 412
 413 define arm_aapcs_vfpcc <8 x half> @ptr_f16(<8 x half*>* %offptr) {
 414 ; CHECK-LABEL: ptr_f16:
 415 ; CHECK:       @ %bb.0: @ %entry
 416 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 417 ; CHECK-NEXT:    vmov r1, r2, d0
 418 ; CHECK-NEXT:    vldr.16 s4, [r2]
 419 ; CHECK-NEXT:    vldr.16 s0, [r1]
 420 ; CHECK-NEXT:    vmov r1, r2, d1
 421 ; CHECK-NEXT:    vins.f16 s0, s4
 422 ; CHECK-NEXT:    vldrw.u32 q1, [r0, #16]
 423 ; CHECK-NEXT:    vldr.16 s1, [r1]
 424 ; CHECK-NEXT:    vldr.16 s2, [r2]
 425 ; CHECK-NEXT:    vmov r0, r1, d2
 426 ; CHECK-NEXT:    vins.f16 s1, s2
 427 ; CHECK-NEXT:    vldr.16 s4, [r1]
 428 ; CHECK-NEXT:    vldr.16 s2, [r0]
 429 ; CHECK-NEXT:    vmov r0, r1, d3
 430 ; CHECK-NEXT:    vldr.16 s3, [r0]
 431 ; CHECK-NEXT:    vins.f16 s2, s4
 432 ; CHECK-NEXT:    vldr.16 s4, [r1]
 433 ; CHECK-NEXT:    vins.f16 s3, s4
 434 ; CHECK-NEXT:    bx lr
 435 entry:
 436   %offs = load <8 x half*>, <8 x half*>* %offptr, align 4
 437   %gather = call <8 x half> @llvm.masked.gather.v8f16.v8p0f16(<8 x half*> %offs, i32 2, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x half> undef)
 438   ret <8 x half> %gather
 439 }
 440
 441 define arm_aapcs_vfpcc <4 x half> @ptr_v4f16(<4 x half*>* %offptr) {
 442 ; CHECK-LABEL: ptr_v4f16:
 443 ; CHECK:       @ %bb.0: @ %entry
 444 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 445 ; CHECK-NEXT:    vmov r0, r1, d0
 446 ; CHECK-NEXT:    vldr.16 s4, [r1]
 447 ; CHECK-NEXT:    vldr.16 s0, [r0]
 448 ; CHECK-NEXT:    vmov r0, r1, d1
 449 ; CHECK-NEXT:    vldr.16 s2, [r1]
 450 ; CHECK-NEXT:    vldr.16 s1, [r0]
 451 ; CHECK-NEXT:    vins.f16 s0, s4
 452 ; CHECK-NEXT:    vins.f16 s1, s2
 453 ; CHECK-NEXT:    bx lr
 454 entry:
 455   %offs = load <4 x half*>, <4 x half*>* %offptr, align 4
 456   %gather = call <4 x half> @llvm.masked.gather.v4f16.v4p0f16(<4 x half*> %offs, i32 2, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x half> undef)
 457   ret <4 x half> %gather
 458 }
 459
 460 ; i8
 461
 462 define arm_aapcs_vfpcc <16 x i8> @ptr_i8(<16 x i8*>* %offptr) {
 463 ; CHECK-LABEL: ptr_i8:
 464 ; CHECK:       @ %bb.0: @ %entry
 465 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 466 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 467 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #48]
 468 ; CHECK-NEXT:    vldrw.u32 q2, [r0]
 469 ; CHECK-NEXT:    vldrw.u32 q1, [r0, #32]
 470 ; CHECK-NEXT:    vmov r1, r2, d0
 471 ; CHECK-NEXT:    vmov r6, r7, d4
 472 ; CHECK-NEXT:    vmov r4, r3, d1
 473 ; CHECK-NEXT:    ldrb r5, [r1]
 474 ; CHECK-NEXT:    ldrb r1, [r2]
 475 ; CHECK-NEXT:    ldrb r2, [r6]
 476 ; CHECK-NEXT:    ldrb.w r12, [r3]
 477 ; CHECK-NEXT:    vmov.8 q0[0], r2
 478 ; CHECK-NEXT:    vmov r2, r3, d3
 479 ; CHECK-NEXT:    ldrb.w lr, [r4]
 480 ; CHECK-NEXT:    ldrb r4, [r2]
 481 ; CHECK-NEXT:    ldrb r2, [r3]
 482 ; CHECK-NEXT:    ldrb r3, [r7]
 483 ; CHECK-NEXT:    vmov.8 q0[1], r3
 484 ; CHECK-NEXT:    vmov r3, r6, d5
 485 ; CHECK-NEXT:    vldrw.u32 q2, [r0, #16]
 486 ; CHECK-NEXT:    ldrb r3, [r3]
 487 ; CHECK-NEXT:    ldrb r6, [r6]
 488 ; CHECK-NEXT:    vmov.8 q0[2], r3
 489 ; CHECK-NEXT:    vmov r0, r3, d4
 490 ; CHECK-NEXT:    vmov.8 q0[3], r6
 491 ; CHECK-NEXT:    ldrb r0, [r0]
 492 ; CHECK-NEXT:    ldrb r3, [r3]
 493 ; CHECK-NEXT:    vmov.8 q0[4], r0
 494 ; CHECK-NEXT:    vmov.8 q0[5], r3
 495 ; CHECK-NEXT:    vmov r0, r3, d5
 496 ; CHECK-NEXT:    ldrb r0, [r0]
 497 ; CHECK-NEXT:    ldrb r3, [r3]
 498 ; CHECK-NEXT:    vmov.8 q0[6], r0
 499 ; CHECK-NEXT:    vmov.8 q0[7], r3
 500 ; CHECK-NEXT:    vmov r0, r3, d2
 501 ; CHECK-NEXT:    ldrb r0, [r0]
 502 ; CHECK-NEXT:    ldrb r3, [r3]
 503 ; CHECK-NEXT:    vmov.8 q0[8], r0
 504 ; CHECK-NEXT:    vmov.8 q0[9], r3
 505 ; CHECK-NEXT:    vmov.8 q0[10], r4
 506 ; CHECK-NEXT:    vmov.8 q0[11], r2
 507 ; CHECK-NEXT:    vmov.8 q0[12], r5
 508 ; CHECK-NEXT:    vmov.8 q0[13], r1
 509 ; CHECK-NEXT:    vmov.8 q0[14], lr
 510 ; CHECK-NEXT:    vmov.8 q0[15], r12
 511 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 512 entry:
 513   %offs = load <16 x i8*>, <16 x i8*>* %offptr, align 4
 514   %gather = call <16 x i8> @llvm.masked.gather.v16i8.v16p0i8(<16 x i8*> %offs, i32 2, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <16 x i8> undef)
 515   ret <16 x i8> %gather
 516 }
 517
 518 define arm_aapcs_vfpcc <8 x i16> @ptr_v8i8_sext16(<8 x i8*>* %offptr) {
 519 ; CHECK-LABEL: ptr_v8i8_sext16:
 520 ; CHECK:       @ %bb.0: @ %entry
 521 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 522 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 523 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 524 ; CHECK-NEXT:    vmov r3, r1, d1
 525 ; CHECK-NEXT:    vmov r12, r2, d0
 526 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 527 ; CHECK-NEXT:    vmov r4, r5, d0
 528 ; CHECK-NEXT:    vmov lr, r0, d1
 529 ; CHECK-NEXT:    ldrb r7, [r1]
 530 ; CHECK-NEXT:    ldrb.w r1, [r12]
 531 ; CHECK-NEXT:    ldrb r2, [r2]
 532 ; CHECK-NEXT:    ldrb r4, [r4]
 533 ; CHECK-NEXT:    ldrb r5, [r5]
 534 ; CHECK-NEXT:    vmov.16 q0[0], r4
 535 ; CHECK-NEXT:    ldrb.w r6, [lr]
 536 ; CHECK-NEXT:    vmov.16 q0[1], r5
 537 ; CHECK-NEXT:    ldrb r0, [r0]
 538 ; CHECK-NEXT:    vmov.16 q0[2], r6
 539 ; CHECK-NEXT:    ldrb r3, [r3]
 540 ; CHECK-NEXT:    vmov.16 q0[3], r0
 541 ; CHECK-NEXT:    vmov.16 q0[4], r1
 542 ; CHECK-NEXT:    vmov.16 q0[5], r2
 543 ; CHECK-NEXT:    vmov.16 q0[6], r3
 544 ; CHECK-NEXT:    vmov.16 q0[7], r7
 545 ; CHECK-NEXT:    vmovlb.s8 q0, q0
 546 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 547 entry:
 548   %offs = load <8 x i8*>, <8 x i8*>* %offptr, align 4
 549   %gather = call <8 x i8> @llvm.masked.gather.v8i8.v8p0i8(<8 x i8*> %offs, i32 1, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i8> undef)
 550   %ext = sext <8 x i8> %gather to <8 x i16>
 551   ret <8 x i16> %ext
 552 }
 553
 554 define arm_aapcs_vfpcc <8 x i16> @ptr_v8i8_zext16(<8 x i8*>* %offptr) {
 555 ; CHECK-LABEL: ptr_v8i8_zext16:
 556 ; CHECK:       @ %bb.0: @ %entry
 557 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 558 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 559 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 560 ; CHECK-NEXT:    vmov r3, r1, d1
 561 ; CHECK-NEXT:    vmov r12, r2, d0
 562 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 563 ; CHECK-NEXT:    vmov r4, r5, d0
 564 ; CHECK-NEXT:    vmov lr, r0, d1
 565 ; CHECK-NEXT:    ldrb r7, [r1]
 566 ; CHECK-NEXT:    ldrb.w r1, [r12]
 567 ; CHECK-NEXT:    ldrb r2, [r2]
 568 ; CHECK-NEXT:    ldrb r4, [r4]
 569 ; CHECK-NEXT:    ldrb r5, [r5]
 570 ; CHECK-NEXT:    vmov.16 q0[0], r4
 571 ; CHECK-NEXT:    ldrb.w r6, [lr]
 572 ; CHECK-NEXT:    vmov.16 q0[1], r5
 573 ; CHECK-NEXT:    ldrb r0, [r0]
 574 ; CHECK-NEXT:    vmov.16 q0[2], r6
 575 ; CHECK-NEXT:    ldrb r3, [r3]
 576 ; CHECK-NEXT:    vmov.16 q0[3], r0
 577 ; CHECK-NEXT:    vmov.16 q0[4], r1
 578 ; CHECK-NEXT:    vmov.16 q0[5], r2
 579 ; CHECK-NEXT:    vmov.16 q0[6], r3
 580 ; CHECK-NEXT:    vmov.16 q0[7], r7
 581 ; CHECK-NEXT:    vmovlb.u8 q0, q0
 582 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 583 entry:
 584   %offs = load <8 x i8*>, <8 x i8*>* %offptr, align 4
 585   %gather = call <8 x i8> @llvm.masked.gather.v8i8.v8p0i8(<8 x i8*> %offs, i32 1, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i8> undef)
 586   %ext = zext <8 x i8> %gather to <8 x i16>
 587   ret <8 x i16> %ext
 588 }
 589
 590 define arm_aapcs_vfpcc <8 x i8> @ptr_v8i8(<8 x i8*>* %offptr) {
 591 ; CHECK-LABEL: ptr_v8i8:
 592 ; CHECK:       @ %bb.0: @ %entry
 593 ; CHECK-NEXT:    .save {r4, r5, r6, lr}
 594 ; CHECK-NEXT:    push {r4, r5, r6, lr}
 595 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 596 ; CHECK-NEXT:    vmov r1, r2, d0
 597 ; CHECK-NEXT:    vmov r3, r12, d1
 598 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 599 ; CHECK-NEXT:    vmov r4, r5, d0
 600 ; CHECK-NEXT:    vmov r0, lr, d1
 601 ; CHECK-NEXT:    ldrb r1, [r1]
 602 ; CHECK-NEXT:    ldrb r6, [r3]
 603 ; CHECK-NEXT:    ldrb r2, [r2]
 604 ; CHECK-NEXT:    ldrb r4, [r4]
 605 ; CHECK-NEXT:    ldrb r5, [r5]
 606 ; CHECK-NEXT:    vmov.16 q0[0], r4
 607 ; CHECK-NEXT:    ldrb r0, [r0]
 608 ; CHECK-NEXT:    vmov.16 q0[1], r5
 609 ; CHECK-NEXT:    ldrb.w r3, [lr]
 610 ; CHECK-NEXT:    vmov.16 q0[2], r0
 611 ; CHECK-NEXT:    ldrb.w r12, [r12]
 612 ; CHECK-NEXT:    vmov.16 q0[3], r3
 613 ; CHECK-NEXT:    vmov.16 q0[4], r1
 614 ; CHECK-NEXT:    vmov.16 q0[5], r2
 615 ; CHECK-NEXT:    vmov.16 q0[6], r6
 616 ; CHECK-NEXT:    vmov.16 q0[7], r12
 617 ; CHECK-NEXT:    pop {r4, r5, r6, pc}
 618 entry:
 619   %offs = load <8 x i8*>, <8 x i8*>* %offptr, align 4
 620   %gather = call <8 x i8> @llvm.masked.gather.v8i8.v8p0i8(<8 x i8*> %offs, i32 1, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i8> undef)
 621   ret <8 x i8> %gather
 622 }
 623
 624 define arm_aapcs_vfpcc <4 x i32> @ptr_v4i8_sext32(<4 x i8*>* %offptr) {
 625 ; CHECK-LABEL: ptr_v4i8_sext32:
 626 ; CHECK:       @ %bb.0: @ %entry
 627 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 628 ; CHECK-NEXT:    movs r1, #0
 629 ; CHECK-NEXT:    vldrb.s32 q0, [r1, q1]
 630 ; CHECK-NEXT:    bx lr
 631 entry:
 632   %offs = load <4 x i8*>, <4 x i8*>* %offptr, align 4
 633   %gather = call <4 x i8> @llvm.masked.gather.v4i8.v4p0i8(<4 x i8*> %offs, i32 1, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i8> undef)
 634   %ext = sext <4 x i8> %gather to <4 x i32>
 635   ret <4 x i32> %ext
 636 }
 637
 638 define arm_aapcs_vfpcc <4 x i32> @ptr_v4i8_zext32(<4 x i8*>* %offptr) {
 639 ; CHECK-LABEL: ptr_v4i8_zext32:
 640 ; CHECK:       @ %bb.0: @ %entry
 641 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 642 ; CHECK-NEXT:    movs r1, #0
 643 ; CHECK-NEXT:    vldrb.u32 q0, [r1, q1]
 644 ; CHECK-NEXT:    bx lr
 645 entry:
 646   %offs = load <4 x i8*>, <4 x i8*>* %offptr, align 4
 647   %gather = call <4 x i8> @llvm.masked.gather.v4i8.v4p0i8(<4 x i8*> %offs, i32 1, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i8> undef)
 648   %ext = zext <4 x i8> %gather to <4 x i32>
 649   ret <4 x i32> %ext
 650 }
 651
 652 define arm_aapcs_vfpcc <4 x i8> @ptr_v4i8(<4 x i8*>* %offptr) {
 653 ; CHECK-LABEL: ptr_v4i8:
 654 ; CHECK:       @ %bb.0: @ %entry
 655 ; CHECK-NEXT:    vldrw.u32 q1, [r0]
 656 ; CHECK-NEXT:    movs r1, #0
 657 ; CHECK-NEXT:    vldrb.u32 q0, [r1, q1]
 658 ; CHECK-NEXT:    bx lr
 659 entry:
 660   %offs = load <4 x i8*>, <4 x i8*>* %offptr, align 4
 661   %gather = call <4 x i8> @llvm.masked.gather.v4i8.v4p0i8(<4 x i8*> %offs, i32 1, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i8> undef)
 662   ret <4 x i8> %gather
 663 }
 664
 665 define arm_aapcs_vfpcc <8 x i32> @ptr_v8i8_sext32(<8 x i8*>* %offptr) {
 666 ; CHECK-LABEL: ptr_v8i8_sext32:
 667 ; CHECK:       @ %bb.0: @ %entry
 668 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 669 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 670 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 671 ; CHECK-NEXT:    vmov r1, r2, d1
 672 ; CHECK-NEXT:    vmov r3, r12, d0
 673 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 674 ; CHECK-NEXT:    vmov r0, lr, d1
 675 ; CHECK-NEXT:    ldrb r7, [r2]
 676 ; CHECK-NEXT:    vmov r2, r4, d0
 677 ; CHECK-NEXT:    ldrb r6, [r1]
 678 ; CHECK-NEXT:    ldrb r3, [r3]
 679 ; CHECK-NEXT:    ldrb r0, [r0]
 680 ; CHECK-NEXT:    ldrb.w r1, [r12]
 681 ; CHECK-NEXT:    vmov q1[2], q1[0], r3, r6
 682 ; CHECK-NEXT:    ldrb.w r5, [lr]
 683 ; CHECK-NEXT:    vmov q1[3], q1[1], r1, r7
 684 ; CHECK-NEXT:    vmovlb.s8 q1, q1
 685 ; CHECK-NEXT:    vmovlb.s16 q1, q1
 686 ; CHECK-NEXT:    ldrb r2, [r2]
 687 ; CHECK-NEXT:    ldrb r4, [r4]
 688 ; CHECK-NEXT:    vmov q0[2], q0[0], r2, r0
 689 ; CHECK-NEXT:    vmov q0[3], q0[1], r4, r5
 690 ; CHECK-NEXT:    vmovlb.s8 q0, q0
 691 ; CHECK-NEXT:    vmovlb.s16 q0, q0
 692 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 693 entry:
 694   %offs = load <8 x i8*>, <8 x i8*>* %offptr, align 4
 695   %gather = call <8 x i8> @llvm.masked.gather.v8i8.v8p0i8(<8 x i8*> %offs, i32 1, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i8> undef)
 696   %ext = sext <8 x i8> %gather to <8 x i32>
 697   ret <8 x i32> %ext
 698 }
 699
 700 define arm_aapcs_vfpcc <8 x i32> @ptr_v8i8_zext32(<8 x i8*>* %offptr) {
 701 ; CHECK-LABEL: ptr_v8i8_zext32:
 702 ; CHECK:       @ %bb.0: @ %entry
 703 ; CHECK-NEXT:    .save {r4, r5, r6, r7, lr}
 704 ; CHECK-NEXT:    push {r4, r5, r6, r7, lr}
 705 ; CHECK-NEXT:    vldrw.u32 q0, [r0, #16]
 706 ; CHECK-NEXT:    vmov.i32 q1, #0xff
 707 ; CHECK-NEXT:    vmov r1, r2, d1
 708 ; CHECK-NEXT:    vmov r12, r3, d0
 709 ; CHECK-NEXT:    vldrw.u32 q0, [r0]
 710 ; CHECK-NEXT:    vmov r4, r5, d0
 711 ; CHECK-NEXT:    vmov r0, lr, d1
 712 ; CHECK-NEXT:    ldrb r7, [r2]
 713 ; CHECK-NEXT:    ldrb r1, [r1]
 714 ; CHECK-NEXT:    ldrb.w r2, [r12]
 715 ; CHECK-NEXT:    ldrb r4, [r4]
 716 ; CHECK-NEXT:    ldrb r0, [r0]
 717 ; CHECK-NEXT:    vmov q2[2], q2[0], r2, r1
 718 ; CHECK-NEXT:    ldrb r3, [r3]
 719 ; CHECK-NEXT:    ldrb.w r6, [lr]
 720 ; CHECK-NEXT:    vmov q0[2], q0[0], r4, r0
 721 ; CHECK-NEXT:    ldrb r5, [r5]
 722 ; CHECK-NEXT:    vmov q2[3], q2[1], r3, r7
 723 ; CHECK-NEXT:    vmov q0[3], q0[1], r5, r6
 724 ; CHECK-NEXT:    vand q0, q0, q1
 725 ; CHECK-NEXT:    vand q1, q2, q1
 726 ; CHECK-NEXT:    pop {r4, r5, r6, r7, pc}
 727 entry:
 728   %offs = load <8 x i8*>, <8 x i8*>* %offptr, align 4
 729   %gather = call <8 x i8> @llvm.masked.gather.v8i8.v8p0i8(<8 x i8*> %offs, i32 1, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i8> undef)
 730   %ext = zext <8 x i8> %gather to <8 x i32>
 731   ret <8 x i32> %ext
 732 }
 733
 734 ; loops
 735
 736 define void @foo_ptr_p_int32_t(i32* %dest, i32** %src, i32 %n) {
 737 ; CHECK-LABEL: foo_ptr_p_int32_t:
 738 ; CHECK:       @ %bb.0: @ %entry
 739 ; CHECK-NEXT:    .save {r7, lr}
 740 ; CHECK-NEXT:    push {r7, lr}
 741 ; CHECK-NEXT:    bic r2, r2, #15
 742 ; CHECK-NEXT:    cmp r2, #1
 743 ; CHECK-NEXT:    it lt
 744 ; CHECK-NEXT:    poplt {r7, pc}
 745 ; CHECK-NEXT:  .LBB30_1: @ %vector.body.preheader
 746 ; CHECK-NEXT:    subs r2, #4
 747 ; CHECK-NEXT:    movs r3, #1
 748 ; CHECK-NEXT:    add.w lr, r3, r2, lsr #2
 749 ; CHECK-NEXT:  .LBB30_2: @ %vector.body
 750 ; CHECK-NEXT:    @ =>This Inner Loop Header: Depth=1
 751 ; CHECK-NEXT:    vldrw.u32 q0, [r1], #16
 752 ; CHECK-NEXT:    vptt.i32 ne, q0, zr
 753 ; CHECK-NEXT:    vldrwt.u32 q1, [q0]
 754 ; CHECK-NEXT:    vstrwt.32 q1, [r0], #16
 755 ; CHECK-NEXT:    le lr, .LBB30_2
 756 ; CHECK-NEXT:  @ %bb.3: @ %for.end
 757 ; CHECK-NEXT:    pop {r7, pc}
 758 entry:
 759   %and = and i32 %n, -16
 760   %cmp11 = icmp sgt i32 %and, 0
 761   br i1 %cmp11, label %vector.body, label %for.end
 762
 763 vector.body:                                      ; preds = %entry, %vector.body
 764   %index = phi i32 [ %index.next, %vector.body ], [ 0, %entry ]
 765   %0 = getelementptr inbounds i32*, i32** %src, i32 %index
 766   %1 = bitcast i32** %0 to <4 x i32*>*
 767   %wide.load = load <4 x i32*>, <4 x i32*>* %1, align 4
 768   %2 = icmp ne <4 x i32*> %wide.load, zeroinitializer
 769   %wide.masked.gather = call <4 x i32> @llvm.masked.gather.v4i32.v4p0i32(<4 x i32*> %wide.load, i32 4, <4 x i1> %2, <4 x i32> undef)
 770   %3 = getelementptr inbounds i32, i32* %dest, i32 %index
 771   %4 = bitcast i32* %3 to <4 x i32>*
 772   call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %wide.masked.gather, <4 x i32>* %4, i32 4, <4 x i1> %2)
 773   %index.next = add i32 %index, 4
 774   %5 = icmp eq i32 %index.next, %and
 775   br i1 %5, label %for.end, label %vector.body
 776
 777 for.end:                                          ; preds = %vector.body, %entry
 778   ret void
 779 }
 780
 781 define void @foo_ptr_p_int32_t_opaque(ptr %dest, ptr %src, i32 %n) {
 782 ; CHECK-LABEL: foo_ptr_p_int32_t_opaque:
 783 ; CHECK:       @ %bb.0: @ %entry
 784 ; CHECK-NEXT:    .save {r7, lr}
 785 ; CHECK-NEXT:    push {r7, lr}
 786 ; CHECK-NEXT:    bic r2, r2, #15
 787 ; CHECK-NEXT:    cmp r2, #1
 788 ; CHECK-NEXT:    it lt
 789 ; CHECK-NEXT:    poplt {r7, pc}
 790 ; CHECK-NEXT:  .LBB31_1: @ %vector.body.preheader
 791 ; CHECK-NEXT:    subs r2, #4
 792 ; CHECK-NEXT:    movs r3, #1
 793 ; CHECK-NEXT:    add.w lr, r3, r2, lsr #2
 794 ; CHECK-NEXT:  .LBB31_2: @ %vector.body
 795 ; CHECK-NEXT:    @ =>This Inner Loop Header: Depth=1
 796 ; CHECK-NEXT:    vldrw.u32 q0, [r1], #16
 797 ; CHECK-NEXT:    vptt.i32 ne, q0, zr
 798 ; CHECK-NEXT:    vldrwt.u32 q1, [q0]
 799 ; CHECK-NEXT:    vstrwt.32 q1, [r0], #16
 800 ; CHECK-NEXT:    le lr, .LBB31_2
 801 ; CHECK-NEXT:  @ %bb.3: @ %for.end
 802 ; CHECK-NEXT:    pop {r7, pc}
 803 entry:
 804   %and = and i32 %n, -16
 805   %cmp11 = icmp sgt i32 %and, 0
 806   br i1 %cmp11, label %vector.body, label %for.end
 807
 808 vector.body:                                      ; preds = %entry, %vector.body
 809   %index = phi i32 [ %index.next, %vector.body ], [ 0, %entry ]
 810   %0 = getelementptr inbounds ptr, ptr %src, i32 %index
 811   %1 = bitcast ptr %0 to ptr
 812   %wide.load = load <4 x ptr>, ptr %1, align 4
 813   %2 = icmp ne <4 x ptr> %wide.load, zeroinitializer
 814   %wide.masked.gather = call <4 x i32> @llvm.masked.gather.v4i32.v4p0(<4 x ptr> %wide.load, i32 4, <4 x i1> %2, <4 x i32> undef)
 815   %3 = getelementptr inbounds i32, ptr %dest, i32 %index
 816   %4 = bitcast ptr %3 to ptr
 817   call void @llvm.masked.store.v4i32.p0(<4 x i32> %wide.masked.gather, ptr %4, i32 4, <4 x i1> %2)
 818   %index.next = add i32 %index, 4
 819   %5 = icmp eq i32 %index.next, %and
 820   br i1 %5, label %for.end, label %vector.body
 821
 822 for.end:                                          ; preds = %vector.body, %entry
 823   ret void
 824 }
 825
 826 define void @foo_ptr_p_float(float* %dest, float** %src, i32 %n) {
 827 ; CHECK-LABEL: foo_ptr_p_float:
 828 ; CHECK:       @ %bb.0: @ %entry
 829 ; CHECK-NEXT:    .save {r7, lr}
 830 ; CHECK-NEXT:    push {r7, lr}
 831 ; CHECK-NEXT:    bic r2, r2, #15
 832 ; CHECK-NEXT:    cmp r2, #1
 833 ; CHECK-NEXT:    it lt
 834 ; CHECK-NEXT:    poplt {r7, pc}
 835 ; CHECK-NEXT:  .LBB32_1: @ %vector.body.preheader
 836 ; CHECK-NEXT:    subs r2, #4
 837 ; CHECK-NEXT:    movs r3, #1
 838 ; CHECK-NEXT:    add.w lr, r3, r2, lsr #2
 839 ; CHECK-NEXT:  .LBB32_2: @ %vector.body
 840 ; CHECK-NEXT:    @ =>This Inner Loop Header: Depth=1
 841 ; CHECK-NEXT:    vldrw.u32 q0, [r1], #16
 842 ; CHECK-NEXT:    vptt.i32 ne, q0, zr
 843 ; CHECK-NEXT:    vldrwt.u32 q1, [q0]
 844 ; CHECK-NEXT:    vstrwt.32 q1, [r0], #16
 845 ; CHECK-NEXT:    le lr, .LBB32_2
 846 ; CHECK-NEXT:  @ %bb.3: @ %for.end
 847 ; CHECK-NEXT:    pop {r7, pc}
 848 entry:
 849   %and = and i32 %n, -16
 850   %cmp11 = icmp sgt i32 %and, 0
 851   br i1 %cmp11, label %vector.body, label %for.end
 852
 853 vector.body:                                      ; preds = %entry, %vector.body
 854   %index = phi i32 [ %index.next, %vector.body ], [ 0, %entry ]
 855   %0 = getelementptr inbounds float*, float** %src, i32 %index
 856   %1 = bitcast float** %0 to <4 x float*>*
 857   %wide.load = load <4 x float*>, <4 x float*>* %1, align 4
 858   %2 = icmp ne <4 x float*> %wide.load, zeroinitializer
 859   %3 = bitcast <4 x float*> %wide.load to <4 x i32*>
 860   %wide.masked.gather = call <4 x i32> @llvm.masked.gather.v4i32.v4p0i32(<4 x i32*> %3, i32 4, <4 x i1> %2, <4 x i32> undef)
 861   %4 = getelementptr inbounds float, float* %dest, i32 %index
 862   %5 = bitcast float* %4 to <4 x i32>*
 863   call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %wide.masked.gather, <4 x i32>* %5, i32 4, <4 x i1> %2)
 864   %index.next = add i32 %index, 4
 865   %6 = icmp eq i32 %index.next, %and
 866   br i1 %6, label %for.end, label %vector.body
 867
 868 for.end:                                          ; preds = %vector.body, %entry
 869   ret void
 870 }
 871
 872 define arm_aapcs_vfpcc <4 x i32> @qi4(<4 x i32*> %p) {
 873 ; CHECK-LABEL: qi4:
 874 ; CHECK:       @ %bb.0: @ %entry
 875 ; CHECK-NEXT:    vmov.i32 q1, #0x10
 876 ; CHECK-NEXT:    vadd.i32 q1, q0, q1
 877 ; CHECK-NEXT:    vldrw.u32 q0, [q1]
 878 ; CHECK-NEXT:    bx lr
 879 entry:
 880   %g = getelementptr inbounds i32, <4 x i32*> %p, i32 4
 881   %gather = call <4 x i32> @llvm.masked.gather.v4i32.v4p0i32(<4 x i32*> %g, i32 4, <4 x i1> <i1 true, i1 true, i1 true, i1 true>, <4 x i32> undef)
 882   ret <4 x i32> %gather
 883 }
 884
 885 define arm_aapcs_vfpcc <8 x i32> @sext_unsigned_unscaled_i8_i8_toi64(i8* %base, <8 x i8>* %offptr) {
 886 ; CHECK-LABEL: sext_unsigned_unscaled_i8_i8_toi64:
 887 ; CHECK:       @ %bb.0: @ %entry
 888 ; CHECK-NEXT:    vldrb.u16 q0, [r1]
 889 ; CHECK-NEXT:    vldrb.u16 q1, [r0, q0]
 890 ; CHECK-NEXT:    vmov.u16 r0, q1[2]
 891 ; CHECK-NEXT:    vmov.u16 r1, q1[0]
 892 ; CHECK-NEXT:    vmov q0[2], q0[0], r1, r0
 893 ; CHECK-NEXT:    vmov.u16 r0, q1[3]
 894 ; CHECK-NEXT:    vmov.u16 r1, q1[1]
 895 ; CHECK-NEXT:    vmov q0[3], q0[1], r1, r0
 896 ; CHECK-NEXT:    vmov.u16 r0, q1[6]
 897 ; CHECK-NEXT:    vmov.u16 r1, q1[4]
 898 ; CHECK-NEXT:    vmovlb.s8 q0, q0
 899 ; CHECK-NEXT:    vmov q2[2], q2[0], r1, r0
 900 ; CHECK-NEXT:    vmov.u16 r0, q1[7]
 901 ; CHECK-NEXT:    vmov.u16 r1, q1[5]
 902 ; CHECK-NEXT:    vmovlb.s16 q0, q0
 903 ; CHECK-NEXT:    vmov q2[3], q2[1], r1, r0
 904 ; CHECK-NEXT:    vmovlb.s8 q1, q2
 905 ; CHECK-NEXT:    vmovlb.s16 q1, q1
 906 ; CHECK-NEXT:    bx lr
 907 entry:
 908   %offs = load <8 x i8>, <8 x i8>* %offptr, align 1
 909   %offs.zext = zext <8 x i8> %offs to <8 x i32>
 910   %ptrs = getelementptr inbounds i8, i8* %base, <8 x i32> %offs.zext
 911   %gather = call <8 x i8> @llvm.masked.gather.v8i8.v8p0i8(<8 x i8*> %ptrs, i32 1, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i8> undef)
 912   %gather.sext = sext <8 x i8> %gather to <8 x i32>
 913   ret <8 x i32> %gather.sext
 914 }
 915
 916 declare <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*>, i32, <2 x i1>, <2 x i32>)
 917 declare <4 x i32> @llvm.masked.gather.v4i32.v4p0i32(<4 x i32*>, i32, <4 x i1>, <4 x i32>)
 918 declare <8 x i32> @llvm.masked.gather.v8i32.v8p0i32(<8 x i32*>, i32, <8 x i1>, <8 x i32>)
 919 declare <16 x i32> @llvm.masked.gather.v16i32.v16p0i32(<16 x i32*>, i32, <16 x i1>, <16 x i32>)
 920 declare <2 x float> @llvm.masked.gather.v2f32.v2p0f32(<2 x float*>, i32, <2 x i1>, <2 x float>)
 921 declare <4 x float> @llvm.masked.gather.v4f32.v4p0f32(<4 x float*>, i32, <4 x i1>, <4 x float>)
 922 declare <8 x float> @llvm.masked.gather.v8f32.v8p0f32(<8 x float*>, i32, <8 x i1>, <8 x float>)
 923 declare <2 x i16> @llvm.masked.gather.v2i16.v2p0i16(<2 x i16*>, i32, <2 x i1>, <2 x i16>)
 924 declare <4 x i16> @llvm.masked.gather.v4i16.v4p0i16(<4 x i16*>, i32, <4 x i1>, <4 x i16>)
 925 declare <8 x i16> @llvm.masked.gather.v8i16.v8p0i16(<8 x i16*>, i32, <8 x i1>, <8 x i16>)
 926 declare <16 x i16> @llvm.masked.gather.v16i16.v16p0i16(<16 x i16*>, i32, <16 x i1>, <16 x i16>)
 927 declare <4 x half> @llvm.masked.gather.v4f16.v4p0f16(<4 x half*>, i32, <4 x i1>, <4 x half>)
 928 declare <8 x half> @llvm.masked.gather.v8f16.v8p0f16(<8 x half*>, i32, <8 x i1>, <8 x half>)
 929 declare <16 x half> @llvm.masked.gather.v16f16.v16p0f16(<16 x half*>, i32, <16 x i1>, <16 x half>)
 930 declare <4 x i8> @llvm.masked.gather.v4i8.v4p0i8(<4 x i8*>, i32, <4 x i1>, <4 x i8>)
 931 declare <8 x i8> @llvm.masked.gather.v8i8.v8p0i8(<8 x i8*>, i32, <8 x i1>, <8 x i8>)
 932 declare <16 x i8> @llvm.masked.gather.v16i8.v16p0i8(<16 x i8*>, i32, <16 x i1>, <16 x i8>)
 933 declare <32 x i8> @llvm.masked.gather.v32i8.v32p0i8(<32 x i8*>, i32, <32 x i1>, <32 x i8>)
 934 declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32, <4 x i1>)
 935
 936 declare <4 x float> @llvm.masked.gather.v4f32.v4p0(<4 x ptr>, i32, <4 x i1>, <4 x float>)
 937 declare <4 x i32> @llvm.masked.gather.v4i32.v4p0(<4 x ptr>, i32, <4 x i1>, <4 x i32>)
 938 declare <4 x i16> @llvm.masked.gather.v4i16.v4p0(<4 x ptr>, i32, <4 x i1>, <4 x i16>)
 939 declare void @llvm.masked.store.v4i32.p0(<4 x i32>, ptr, i32, <4 x i1>)