llvm/test/CodeGen/AArch64/aarch64-interleaved-ld-combine.ll

   1 ; RUN: llc < %s | FileCheck --check-prefix AS %s
   2 ; RUN: opt -S -interleaved-load-combine < %s | FileCheck %s
   3
   4 ; ModuleID = 'aarch64_interleaved-ld-combine.bc'
   5 target datalayout = "e-m:e-i64:64-i128:128-n32:64-S128"
   6 target triple = "arm64--linux-gnu"
   7
   8 ; This should be lowered into LD4
   9 define void @aarch64_ilc_const(ptr %ptr) {
  10 entry:
  11
  12 ;;; Check LLVM transformation
  13 ; CHECK-LABEL: @aarch64_ilc_const(
  14 ; CHECK-DAG: [[GEP:%.+]] = getelementptr inbounds <4 x float>, ptr %ptr, i64 2
  15 ; CHECK-DAG: [[LOAD:%.+]] = load <16 x float>, ptr [[GEP]], align 16
  16 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
  17 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 1, i32 5, i32 9, i32 13>
  18 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 2, i32 6, i32 10, i32 14>
  19 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
  20 ; CHECK: ret void
  21
  22 ;;; Check if it gets lowerd
  23 ; AS-LABEL: aarch64_ilc_const
  24 ; AS: ld4
  25 ; AS: ret
  26
  27   %gep1 = getelementptr inbounds <4 x float>, ptr %ptr, i64  2
  28   %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i64  3
  29   %gep3 = getelementptr inbounds <4 x float>, ptr %ptr, i64  4
  30   %gep4 = getelementptr inbounds <4 x float>, ptr %ptr, i64  5
  31   %ld1 = load <4 x float>, ptr %gep1, align 16
  32   %ld2 = load <4 x float>, ptr %gep2, align 16
  33   %ld3 = load <4 x float>, ptr %gep3, align 16
  34   %ld4 = load <4 x float>, ptr %gep4, align 16
  35   %sv1 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  36   %sv2 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 2, i32 3, i32 6, i32 7>
  37   %sv3 = shufflevector <4 x float> %ld3, <4 x float> %ld4, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  38   %sv4 = shufflevector <4 x float> %ld3, <4 x float> %ld4, <4 x i32> <i32 2, i32 3, i32 6, i32 7>
  39   %m0_3   = shufflevector <4 x float> %sv1, <4 x float> %sv3, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
  40   %m4_7   = shufflevector <4 x float> %sv1, <4 x float> %sv3, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
  41   %m8_11  = shufflevector <4 x float> %sv2, <4 x float> %sv4, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
  42   %m12_15 = shufflevector <4 x float> %sv2, <4 x float> %sv4, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
  43
  44   store <4 x float> %m0_3, ptr %gep1, align 16
  45   store <4 x float> %m4_7, ptr %gep2, align 16
  46   store <4 x float> %m8_11, ptr %gep3, align 16
  47   store <4 x float> %m12_15, ptr %gep4, align 16
  48   ret void
  49 }
  50
  51 ; This should be lowered into LD4
  52 define void @aarch64_ilc_idx(ptr %ptr, i64 %idx) {
  53 entry:
  54
  55 ;;; Check LLVM transformation
  56 ; CHECK-LABEL: @aarch64_ilc_idx(
  57 ; CHECK-DAG: [[ADD:%.+]] = add i64 %idx, 16
  58 ; CHECK-DAG: [[LSHR:%.+]] = lshr i64 [[ADD]], 2
  59 ; CHECK-DAG: [[GEP:%.+]] = getelementptr inbounds <4 x float>, ptr %ptr, i64 [[LSHR]]
  60 ; CHECK-DAG: [[LOAD:%.+]] = load <16 x float>, ptr [[GEP]], align 16
  61 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
  62 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 1, i32 5, i32 9, i32 13>
  63 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 2, i32 6, i32 10, i32 14>
  64 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
  65 ; CHECK: ret void
  66
  67 ; AS-LABEL: aarch64_ilc_idx
  68 ; AS-DAG: lsl [[LSL:x[0-9]+]], x1, #2
  69 ; AS-DAG: add [[ADD:x[0-9]+]], [[LSL]], #64
  70 ; AS-DAG: and [[AND:x[0-9]+]], [[ADD]], #0xfffffffffffffff0
  71 ; AS-DAG: add [[ADR:x[0-9]+]], x0, [[AND]]
  72 ; AS-DAG: ld4 { v[[V0:[0-9]+]].4s, v[[V1:[0-9]+]].4s, v[[V2:[0-9]+]].4s, v[[V3:[0-9]+]].4s }, [[[ADR]]]
  73 ; AS-DAG: str q[[V0]]
  74 ; AS-DAG: str q[[V1]]
  75 ; AS-DAG: str q[[V2]]
  76 ; AS-DAG: str q[[V3]]
  77 ; AS: ret
  78
  79   %a2 = add i64 %idx, 20
  80   %idx2 = lshr i64 %a2, 2
  81   %a3 = add i64 %idx, 24
  82   %a1 = add i64 %idx, 16
  83   %idx1 = lshr i64 %a1, 2
  84   %idx3 = lshr i64 %a3, 2
  85   %a4 = add i64 %idx, 28
  86   %idx4 = lshr i64 %a4, 2
  87
  88   %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx2
  89   %gep4 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx4
  90   %gep1 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx1
  91   %gep3 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx3
  92   %ld1 = load <4 x float>, ptr %gep1, align 16
  93   %ld2 = load <4 x float>, ptr %gep2, align 16
  94   %ld3 = load <4 x float>, ptr %gep3, align 16
  95   %ld4 = load <4 x float>, ptr %gep4, align 16
  96   %sv1 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  97   %sv2 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 2, i32 3, i32 6, i32 7>
  98   %sv3 = shufflevector <4 x float> %ld3, <4 x float> %ld4, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  99   %sv4 = shufflevector <4 x float> %ld3, <4 x float> %ld4, <4 x i32> <i32 2, i32 3, i32 6, i32 7>
 100   %m0_3   = shufflevector <4 x float> %sv1, <4 x float> %sv3, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 101   %m4_7   = shufflevector <4 x float> %sv1, <4 x float> %sv3, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 102   %m8_11  = shufflevector <4 x float> %sv2, <4 x float> %sv4, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 103   %m12_15 = shufflevector <4 x float> %sv2, <4 x float> %sv4, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 104
 105   store <4 x float> %m0_3, ptr %gep1, align 16
 106   store <4 x float> %m4_7, ptr %gep2, align 16
 107   store <4 x float> %m8_11, ptr %gep3, align 16
 108   store <4 x float> %m12_15, ptr %gep4, align 16
 109   ret void
 110 }
 111
 112 ; This should be lowered into LD4, a offset of has to be taken into account
 113 %struct.ilc = type <{ float, [0 x <4 x float>] }>
 114 define void @aarch64_ilc_struct(ptr %ptr, i64 %idx) {
 115 entry:
 116
 117 ;;; Check LLVM transformation
 118 ; CHECK-LABEL: @aarch64_ilc_struct(
 119 ; CHECK-DAG: [[LSHR:%.+]] = lshr i64 %idx, 2
 120 ; CHECK-DAG: [[GEP:%.+]] = getelementptr %struct.ilc, ptr %ptr, i32 0, i32 1, i64 [[LSHR]]
 121 ; CHECK-DAG: [[LOAD:%.+]] = load <16 x float>, ptr [[GEP]], align 4
 122 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
 123 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 1, i32 5, i32 9, i32 13>
 124 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 2, i32 6, i32 10, i32 14>
 125 ; CHECK-DAG: %{{.* }}= shufflevector <16 x float> [[LOAD]], <16 x float> poison, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
 126 ; CHECK: ret void
 127
 128 ; AS-LABEL: aarch64_ilc_struct
 129 ; AS-DAG: lsl [[LSL:x[0-9]+]], x1, #2
 130 ; AS-DAG: add [[ADD:x[0-9]+]], x0, #4
 131 ; AS-DAG: and [[AND:x[0-9]+]], [[LSL]], #0xfffffffffffffff0
 132 ; AS-DAG: add [[ADR:x[0-9]+]], [[ADD]], [[AND]]
 133 ; AS-DAG: ld4 { v[[V0:[0-9]+]].4s, v[[V1:[0-9]+]].4s, v[[V2:[0-9]+]].4s, v[[V3:[0-9]+]].4s }, [[[ADR]]]
 134 ; AS-DAG: str q[[V0]]
 135 ; AS-DAG: str q[[V1]]
 136 ; AS-DAG: str q[[V2]]
 137 ; AS-DAG: str q[[V3]]
 138 ; AS: ret
 139
 140   %a1 = add i64 %idx, 4
 141   %idx2 = lshr i64 %a1, 2
 142   %a2 = add i64 %idx, 8
 143   %idx3 = lshr i64 %a2, 2
 144   %a3 = add i64 %idx, 12
 145   %idx4 = lshr i64 %a3, 2
 146
 147   %gep2 = getelementptr %struct.ilc, ptr %ptr, i32 0, i32 1, i64 %idx2
 148   %gep3 = getelementptr %struct.ilc, ptr %ptr, i32 0, i32 1, i64 %idx3
 149   %gep4 = getelementptr %struct.ilc, ptr %ptr, i32 0, i32 1, i64 %idx4
 150   %idx1 = lshr i64 %idx, 2
 151   %gep1 = getelementptr %struct.ilc, ptr %ptr, i32 0, i32 1, i64 %idx1
 152   %ld1 = load <4 x float>, ptr %gep1, align 4
 153   %ld2 = load <4 x float>, ptr %gep2, align 4
 154   %ld3 = load <4 x float>, ptr %gep3, align 4
 155   %ld4 = load <4 x float>, ptr %gep4, align 4
 156   %sv1 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
 157   %sv2 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 2, i32 3, i32 6, i32 7>
 158   %sv3 = shufflevector <4 x float> %ld3, <4 x float> %ld4, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
 159   %sv4 = shufflevector <4 x float> %ld3, <4 x float> %ld4, <4 x i32> <i32 2, i32 3, i32 6, i32 7>
 160   %m0_3   = shufflevector <4 x float> %sv1, <4 x float> %sv3, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 161   %m4_7   = shufflevector <4 x float> %sv1, <4 x float> %sv3, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 162   %m8_11  = shufflevector <4 x float> %sv2, <4 x float> %sv4, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 163   %m12_15 = shufflevector <4 x float> %sv2, <4 x float> %sv4, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 164
 165   store <4 x float> %m0_3, ptr %gep1, align 16
 166   store <4 x float> %m4_7, ptr %gep2, align 16
 167   store <4 x float> %m8_11, ptr %gep3, align 16
 168   store <4 x float> %m12_15, ptr %gep4, align 16
 169   ret void
 170 }
 171
 172 ; This should be lowered into LD2
 173 define void @aarch64_ilc_idx_ld2(ptr %ptr, i64 %idx) {
 174 entry:
 175 ; CHECK-LABEL: @aarch64_ilc_idx_ld2(
 176 ; CHECK-DAG: [[LSHR:%.+]] = lshr i64 %idx, 2
 177 ; CHECK-DAG: [[GEP:%.+]] = getelementptr inbounds <4 x float>, ptr %ptr, i64 [[LSHR]]
 178 ; CHECK-DAG: [[LOAD:%.+]] = load <8 x float>, ptr [[GEP]], align 16
 179 ; CHECK: %{{.* }}= shufflevector <8 x float> [[LOAD]], <8 x float> poison, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 180 ; CHECK: %{{.* }}= shufflevector <8 x float> [[LOAD]], <8 x float> poison, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 181 ; CHECK-DAG: ret void
 182
 183 ; AS-LABEL: aarch64_ilc_idx_ld2
 184 ; AS: ld2
 185 ; AS: ret
 186
 187   %idx1 = lshr i64 %idx, 2
 188   %a1 = add i64 %idx, 4
 189   %idx2 = lshr i64 %a1, 2
 190
 191   %gep1 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx1
 192   %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx2
 193   %ld1 = load <4 x float>, ptr %gep1, align 16
 194   %ld2 = load <4 x float>, ptr %gep2, align 16
 195   %m0_3 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 196   %m4_7 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 197
 198   store <4 x float> %m0_3, ptr %gep1
 199   store <4 x float> %m4_7, ptr %gep2
 200   ret void
 201 }
 202
 203 ; This should be lowered into LD3
 204 define void @aarch64_ilc_idx_ld3(ptr %ptr, i64 %idx) {
 205 entry:
 206 ; CHECK-LABEL: @aarch64_ilc_idx_ld3(
 207 ; CHECK-DAG: [[LSHR:%.+]] = lshr i64 %idx, 2
 208 ; CHECK-DAG: [[GEP:%.+]] = getelementptr inbounds <4 x float>, ptr %ptr, i64 [[LSHR]]
 209 ; CHECK-DAG: [[LOAD:%.+]] = load <12 x float>, ptr [[GEP]], align 16
 210 ; CHECK: %{{.* }}= shufflevector <12 x float> [[LOAD]], <12 x float> poison, <4 x i32> <i32 0, i32 3, i32 6, i32 9>
 211 ; CHECK: %{{.* }}= shufflevector <12 x float> [[LOAD]], <12 x float> poison, <4 x i32> <i32 1, i32 4, i32 7, i32 10>
 212 ; CHECK: %{{.* }}= shufflevector <12 x float> [[LOAD]], <12 x float> poison, <4 x i32> <i32 2, i32 5, i32 8, i32 11>
 213 ; CHECK-DAG: ret void
 214
 215 ; AS-LABEL: aarch64_ilc_idx_ld3
 216 ; AS: ld3
 217 ; AS: ret
 218
 219   %idx1 = lshr i64 %idx, 2
 220   %a1 = add i64 %idx, 4
 221   %idx2 = lshr i64 %a1, 2
 222   %a2 = add i64 %idx, 8
 223   %idx3 = lshr i64 %a2, 2
 224
 225   %gep1 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx1
 226   %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx2
 227   %gep3 = getelementptr inbounds <4 x float>, ptr %ptr, i64  %idx3
 228   %ld1 = load <4 x float>, ptr %gep1, align 16
 229   %ld2 = load <4 x float>, ptr %gep2, align 16
 230   %ld3 = load <4 x float>, ptr %gep3, align 16
 231
 232   %sv1 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 3, i32 6, i32 undef>
 233   %sv2 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 1, i32 4, i32 7, i32 undef>
 234   %sv3 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 2, i32 5, i32 undef, i32 undef>
 235   %m0_3 = shufflevector <4 x float> %sv1, <4 x float> %ld3, <4 x i32> <i32 0, i32 1, i32 2, i32 5>
 236   %m4_7 = shufflevector <4 x float> %sv2, <4 x float> %ld3, <4 x i32> <i32 0, i32 1, i32 2, i32 6>
 237   %m8_11 = shufflevector <4 x float> %sv3, <4 x float> %ld3, <4 x i32> <i32 0, i32 1, i32 4, i32 7>
 238
 239   store <4 x float> %m0_3, ptr %gep1, align 16
 240   store <4 x float> %m4_7, ptr %gep2, align 16
 241   store <4 x float> %m8_11, ptr %gep3, align 16
 242   ret void
 243 }
 244 ;  %sv3 = shufflevector <4 x float> %ld3, <4 x float> %ld4, <4 x i32> <i32 0, i32 undef, i32 4, i32 undef>
 245
 246 ; This must not be lowered
 247 define void @aarch64_ilc_i32_idx(ptr %ptr, i32 %idx) {
 248 ; CHECK-LABEL: @aarch64_ilc_i32_idx(
 249 ; CHECK: %idx1 = lshr i32 %idx, 2
 250 ; CHECK-NEXT: %a1 = add i32 %idx, 4
 251 ; CHECK-NEXT: %idx2 = lshr i32 %a1, 2
 252 ; CHECK-NEXT: %gep1 = getelementptr inbounds <4 x float>, ptr %ptr, i32 %idx1
 253 ; CHECK-NEXT: %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i32 %idx2
 254 ; CHECK-NEXT: %ld1 = load <4 x float>, ptr %gep1, align 16
 255 ; CHECK-NEXT: %ld2 = load <4 x float>, ptr %gep2, align 16
 256 ; CHECK-NEXT: %m0_3 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 257 ; CHECK-NEXT: %m4_7 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 258 ; CHECK-NEXT: store <4 x float> %m0_3, ptr %gep1, align 16
 259 ; CHECK-NEXT: store <4 x float> %m4_7, ptr %gep2, align 16
 260 ; CHECK-NEXT: ret void
 261
 262 ; AS-LABEL: aarch64_ilc_i32_idx
 263 ; AS-DAG: @function
 264 ; AS-NOT: ld2
 265 ; AS-NOT: ld3
 266 ; AS-NOT: ld4
 267 ; AS-DAG: ret
 268
 269 entry:
 270   %idx1 = lshr i32 %idx, 2
 271   %a1 = add i32 %idx, 4
 272   %idx2 = lshr i32 %a1, 2
 273
 274   %gep1 = getelementptr inbounds <4 x float>, ptr %ptr, i32 %idx1
 275   %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i32 %idx2
 276   %ld1 = load <4 x float>, ptr %gep1, align 16
 277   %ld2 = load <4 x float>, ptr %gep2, align 16
 278   %m0_3 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 279   %m4_7 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 280
 281   store <4 x float> %m0_3, ptr %gep1, align 16
 282   store <4 x float> %m4_7, ptr %gep2, align 16
 283   ret void
 284 }
 285
 286 ; Volatile loads must not be lowered
 287 define void @aarch64_ilc_volatile(ptr %ptr) {
 288 ; CHECK-LABEL: @aarch64_ilc_volatile(
 289 ; CHECK: %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i32 1
 290 ; CHECK-NEXT: %ld1 = load volatile <4 x float>, ptr %ptr, align 16
 291 ; CHECK-NEXT: %ld2 = load <4 x float>, ptr %gep2, align 16
 292 ; CHECK-NEXT: %m0_3 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 293 ; CHECK-NEXT: %m4_7 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 294 ; CHECK-NEXT: store <4 x float> %m0_3, ptr %ptr, align 16
 295 ; CHECK-NEXT: store <4 x float> %m4_7, ptr %gep2, align 16
 296 ; CHECK-NEXT: ret void
 297
 298 ; AS-LABEL: aarch64_ilc_volatile
 299 ; AS-DAG: @function
 300 ; AS-NOT: ld2
 301 ; AS-NOT: ld3
 302 ; AS-NOT: ld4
 303 ; AS-DAG: ret
 304
 305 entry:
 306   %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i32 1
 307   %ld1 = load volatile <4 x float>, ptr %ptr, align 16
 308   %ld2 = load <4 x float>, ptr %gep2, align 16
 309   %m0_3 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 310   %m4_7 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 311   store <4 x float> %m0_3, ptr %ptr, align 16
 312   store <4 x float> %m4_7, ptr %gep2, align 16
 313   ret void
 314 }
 315
 316 ; This must not be lowered
 317 define void @aarch64_ilc_depmem(ptr %ptr, i32 %idx) {
 318 entry:
 319 ; CHECK-LABEL: @aarch64_ilc_depmem(
 320 ; CHECK: %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i32 1
 321 ; CHECK-NEXT: %ld1 = load <4 x float>, ptr %ptr, align 16
 322 ; CHECK-NEXT: store <4 x float> %ld1, ptr %gep2, align 16
 323 ; CHECK-NEXT: %ld2 = load <4 x float>, ptr %gep2, align 16
 324 ; CHECK-NEXT: %m0_3 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 325 ; CHECK-NEXT: %m4_7 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 326 ; CHECK-NEXT: store <4 x float> %m0_3, ptr %ptr, align 16
 327 ; CHECK-NEXT: store <4 x float> %m4_7, ptr %gep2, align 16
 328 ; CHECK-NEXT: ret void
 329
 330 ; AS-LABEL: aarch64_ilc_depmem
 331 ; AS-DAG: @function
 332 ; AS-NOT: ld2
 333 ; AS-NOT: ld3
 334 ; AS-NOT: ld4
 335 ; AS-DAG: ret
 336
 337   %gep2 = getelementptr inbounds <4 x float>, ptr %ptr, i32 1
 338   %ld1 = load <4 x float>, ptr %ptr, align 16
 339   store <4 x float> %ld1, ptr %gep2, align 16
 340   %ld2 = load <4 x float>, ptr %gep2, align 16
 341   %m0_3 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 342   %m4_7 = shufflevector <4 x float> %ld1, <4 x float> %ld2, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
 343
 344   store <4 x float> %m0_3, ptr %ptr, align 16
 345   store <4 x float> %m4_7, ptr %gep2, align 16
 346   ret void
 347 }
 348
 349 ; This cannot be converted - insertion position cannot be determined
 350 define void @aarch64_no_insertion_pos(ptr %ptr) {
 351 entry:
 352 ; CHECK-LABEL: @aarch64_no_insertion_pos(
 353 ; CHECK: %p1 = getelementptr inbounds float, ptr %ptr, i32 4
 354 ; CHECK-NEXT: %l0 = load <5 x float>, ptr %ptr
 355 ; CHECK-NEXT: %l1 = load <5 x float>, ptr %p1
 356 ; CHECK-NEXT: %s0 = shufflevector <5 x float> %l0, <5 x float> %l1, <4 x i32> <i32 1, i32 3, i32 6, i32 8>
 357 ; CHECK-NEXT: %s1 = shufflevector <5 x float> %l0, <5 x float> %l1, <4 x i32> <i32 2, i32 4, i32 7, i32 9>
 358 ; CHECK-NEXT: ret void
 359
 360   %p1 = getelementptr inbounds float, ptr %ptr, i32 4
 361   %l0 = load <5 x float>, ptr %ptr
 362   %l1 = load <5 x float>, ptr %p1
 363   %s0 = shufflevector <5 x float> %l0, <5 x float> %l1, <4 x i32> <i32 1, i32 3, i32 6, i32 8>
 364   %s1 = shufflevector <5 x float> %l0, <5 x float> %l1, <4 x i32> <i32 2, i32 4, i32 7, i32 9>
 365   ret void
 366 }
 367
 368 ; This cannot be converted - the insertion position does not dominate all
 369 ; uses
 370 define void @aarch64_insertpos_does_not_dominate(ptr %ptr) {
 371 entry:
 372 ; CHECK-LABEL: @aarch64_insertpos_does_not_dominate(
 373 ; CHECK: %p1 = getelementptr inbounds float, ptr %ptr, i32 1
 374 ; CHECK-NEXT: %l1 = load <7 x float>, ptr %p1
 375 ; CHECK-NEXT: %s1 = shufflevector <7 x float> %l1, <7 x float> poison, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 376 ; CHECK-NEXT: %l0 = load <7 x float>, ptr %ptr
 377 ; CHECK-NEXT: %s0 = shufflevector <7 x float> %l0, <7 x float> poison, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 378 ; CHECK-NEXT: ret void
 379   %p1 = getelementptr inbounds float, ptr %ptr, i32 1
 380   %l1 = load <7 x float>, ptr %p1
 381   %s1 = shufflevector <7 x float> %l1, <7 x float> poison, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 382   %l0 = load <7 x float>, ptr %ptr
 383   %s0 = shufflevector <7 x float> %l0, <7 x float> poison, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
 384   ret void
 385 }