test/CodeGen/ARM/ParallelDSP/multi-use-loads.ll

   1 ; RUN: llc -O3 -mtriple=arm-arm-eabi -mcpu=cortex-m33 < %s | FileCheck %s
   2 ; RUN: llc -O3 -mtriple=armeb-arm-eabi -mcpu=cortex-m33 < %s | FileCheck %s --check-prefix=CHECK-UNSUPPORTED
   3
   4 ; CHECK-UNSUPPORTED-NOT: smlad
   5
   6 ; CHECK-LABEL: add_user
   7 ; CHECK: %for.body
   8 ; CHECK: ldr [[A:[rl0-9]+]],{{.*}}, #2]!
   9 ; CHECK: ldr [[B:[rl0-9]+]],{{.*}}, #2]!
  10 ; CHECK: sxtah [[COUNT:r[0-9]+]], [[COUNT]], [[A]]
  11 ; CHECK: smlad [[ACC:r[0-9]+]], [[B]], [[A]], [[ACC]]
  12 define i32 @add_user(i32 %arg, i32* nocapture readnone %arg1, i16* nocapture readonly %arg2, i16* nocapture readonly %arg3) {
  13 entry:
  14   %cmp24 = icmp sgt i32 %arg, 0
  15   br i1 %cmp24, label %for.body.preheader, label %for.cond.cleanup
  16
  17 for.body.preheader:
  18   %.pre = load i16, i16* %arg3, align 2
  19   %.pre27 = load i16, i16* %arg2, align 2
  20   br label %for.body
  21
  22 for.cond.cleanup:
  23   %mac1.0.lcssa = phi i32 [ 0, %entry ], [ %add11, %for.body ]
  24   %count.final = phi i32 [ 0, %entry ], [ %count.next, %for.body ]
  25   %res = add i32 %mac1.0.lcssa, %count.final
  26   ret i32 %res
  27
  28 for.body:
  29   %mac1.026 = phi i32 [ %add11, %for.body ], [ 0, %for.body.preheader ]
  30   %i.025 = phi i32 [ %add, %for.body ], [ 0, %for.body.preheader ]
  31   %count = phi i32 [ %count.next, %for.body ], [ 0, %for.body.preheader ]
  32   %arrayidx = getelementptr inbounds i16, i16* %arg3, i32 %i.025
  33   %0 = load i16, i16* %arrayidx, align 2
  34   %add = add nuw nsw i32 %i.025, 1
  35   %arrayidx1 = getelementptr inbounds i16, i16* %arg3, i32 %add
  36   %1 = load i16, i16* %arrayidx1, align 2
  37   %arrayidx3 = getelementptr inbounds i16, i16* %arg2, i32 %i.025
  38   %2 = load i16, i16* %arrayidx3, align 2
  39   %conv = sext i16 %2 to i32
  40   %conv4 = sext i16 %0 to i32
  41   %count.next = add i32 %conv4, %count
  42   %mul = mul nsw i32 %conv, %conv4
  43   %arrayidx6 = getelementptr inbounds i16, i16* %arg2, i32 %add
  44   %3 = load i16, i16* %arrayidx6, align 2
  45   %conv7 = sext i16 %3 to i32
  46   %conv8 = sext i16 %1 to i32
  47   %mul9 = mul nsw i32 %conv7, %conv8
  48   %add10 = add i32 %mul, %mac1.026
  49   %add11 = add i32 %mul9, %add10
  50   %exitcond = icmp ne i32 %add, %arg
  51   br i1 %exitcond, label %for.body, label %for.cond.cleanup
  52 }
  53
  54 ; CHECK-LABEL: mul_bottom_user
  55 ; CHECK: %for.body
  56 ; CHECK: ldr [[A:[rl0-9]+]],{{.*}}, #2]!
  57 ; CHECK: ldr [[B:[rl0-9]+]],{{.*}}, #2]!
  58 ; CHECK: sxth [[SXT:r[0-9]+]], [[A]]
  59 ; CHECK: smlad [[ACC:r[0-9]+]], [[B]], [[A]], [[ACC]]
  60 ; CHECK: mul [[COUNT:r[0-9]+]],{{.*}}[[SXT]]
  61 define i32 @mul_bottom_user(i32 %arg, i32* nocapture readnone %arg1, i16* nocapture readonly %arg2, i16* nocapture readonly %arg3) {
  62 entry:
  63   %cmp24 = icmp sgt i32 %arg, 0
  64   br i1 %cmp24, label %for.body.preheader, label %for.cond.cleanup
  65
  66 for.body.preheader:
  67   %.pre = load i16, i16* %arg3, align 2
  68   %.pre27 = load i16, i16* %arg2, align 2
  69   br label %for.body
  70
  71 for.cond.cleanup:
  72   %mac1.0.lcssa = phi i32 [ 0, %entry ], [ %add11, %for.body ]
  73   %count.final = phi i32 [ 0, %entry ], [ %count.next, %for.body ]
  74   %res = add i32 %mac1.0.lcssa, %count.final
  75   ret i32 %res
  76
  77 for.body:
  78   %mac1.026 = phi i32 [ %add11, %for.body ], [ 0, %for.body.preheader ]
  79   %i.025 = phi i32 [ %add, %for.body ], [ 0, %for.body.preheader ]
  80   %count = phi i32 [ %count.next, %for.body ], [ 0, %for.body.preheader ]
  81   %arrayidx = getelementptr inbounds i16, i16* %arg3, i32 %i.025
  82   %0 = load i16, i16* %arrayidx, align 2
  83   %add = add nuw nsw i32 %i.025, 1
  84   %arrayidx1 = getelementptr inbounds i16, i16* %arg3, i32 %add
  85   %1 = load i16, i16* %arrayidx1, align 2
  86   %arrayidx3 = getelementptr inbounds i16, i16* %arg2, i32 %i.025
  87   %2 = load i16, i16* %arrayidx3, align 2
  88   %conv = sext i16 %2 to i32
  89   %conv4 = sext i16 %0 to i32
  90   %mul = mul nsw i32 %conv, %conv4
  91   %arrayidx6 = getelementptr inbounds i16, i16* %arg2, i32 %add
  92   %3 = load i16, i16* %arrayidx6, align 2
  93   %conv7 = sext i16 %3 to i32
  94   %conv8 = sext i16 %1 to i32
  95   %mul9 = mul nsw i32 %conv7, %conv8
  96   %add10 = add i32 %mul, %mac1.026
  97   %add11 = add i32 %mul9, %add10
  98   %count.next = mul i32 %conv4, %count
  99   %exitcond = icmp ne i32 %add, %arg
 100   br i1 %exitcond, label %for.body, label %for.cond.cleanup
 101 }
 102
 103 ; CHECK-LABEL: mul_top_user
 104 ; CHECK: %for.body
 105 ; CHECK: ldr [[A:[rl0-9]+]],{{.*}}, #2]!
 106 ; CHECK: ldr [[B:[rl0-9]+]],{{.*}}, #2]!
 107 ; CHECK: asrs [[ASR:[rl0-9]+]], [[A]], #16
 108 ; CHECK: smlad [[ACC:[rl0-9]+]], [[A]], [[B]], [[ACC]]
 109 ; CHECK: mul [[COUNT:[rl0-9]+]],{{.}}[[ASR]]
 110 define i32 @mul_top_user(i32 %arg, i32* nocapture readnone %arg1, i16* nocapture readonly %arg2, i16* nocapture readonly %arg3) {
 111 entry:
 112   %cmp24 = icmp sgt i32 %arg, 0
 113   br i1 %cmp24, label %for.body.preheader, label %for.cond.cleanup
 114
 115 for.body.preheader:
 116   %.pre = load i16, i16* %arg3, align 2
 117   %.pre27 = load i16, i16* %arg2, align 2
 118   br label %for.body
 119
 120 for.cond.cleanup:
 121   %mac1.0.lcssa = phi i32 [ 0, %entry ], [ %add11, %for.body ]
 122   %count.final = phi i32 [ 0, %entry ], [ %count.next, %for.body ]
 123   %res = add i32 %mac1.0.lcssa, %count.final
 124   ret i32 %res
 125
 126 for.body:
 127   %mac1.026 = phi i32 [ %add11, %for.body ], [ 0, %for.body.preheader ]
 128   %i.025 = phi i32 [ %add, %for.body ], [ 0, %for.body.preheader ]
 129   %count = phi i32 [ %count.next, %for.body ], [ 0, %for.body.preheader ]
 130   %arrayidx = getelementptr inbounds i16, i16* %arg3, i32 %i.025
 131   %0 = load i16, i16* %arrayidx, align 2
 132   %add = add nuw nsw i32 %i.025, 1
 133   %arrayidx1 = getelementptr inbounds i16, i16* %arg3, i32 %add
 134   %1 = load i16, i16* %arrayidx1, align 2
 135   %arrayidx3 = getelementptr inbounds i16, i16* %arg2, i32 %i.025
 136   %2 = load i16, i16* %arrayidx3, align 2
 137   %conv = sext i16 %2 to i32
 138   %conv4 = sext i16 %0 to i32
 139   %mul = mul nsw i32 %conv, %conv4
 140   %arrayidx6 = getelementptr inbounds i16, i16* %arg2, i32 %add
 141   %3 = load i16, i16* %arrayidx6, align 2
 142   %conv7 = sext i16 %3 to i32
 143   %conv8 = sext i16 %1 to i32
 144   %mul9 = mul nsw i32 %conv7, %conv8
 145   %add10 = add i32 %mul, %mac1.026
 146   %add11 = add i32 %mul9, %add10
 147   %count.next = mul i32 %conv7, %count
 148   %exitcond = icmp ne i32 %add, %arg
 149   br i1 %exitcond, label %for.body, label %for.cond.cleanup
 150 }
 151
 152 ; CHECK-LABEL: and_user
 153 ; CHECK: %for.body
 154 ; CHECK: ldr [[A:[rl0-9]+]],{{.*}}, #2]!
 155 ; CHECK: ldr [[B:[rl0-9]+]],{{.*}}, #2]!
 156 ; CHECK: uxth [[UXT:r[0-9]+]], [[A]]
 157 ; CHECK: smlad [[ACC:r[0-9]+]], [[B]], [[A]], [[ACC]]
 158 ; CHECK: mul [[MUL:r[0-9]+]],{{.*}}[[UXT]]
 159 define i32 @and_user(i32 %arg, i32* nocapture readnone %arg1, i16* nocapture readonly %arg2, i16* nocapture readonly %arg3) {
 160 entry:
 161   %cmp24 = icmp sgt i32 %arg, 0
 162   br i1 %cmp24, label %for.body.preheader, label %for.cond.cleanup
 163
 164 for.body.preheader:
 165   %.pre = load i16, i16* %arg3, align 2
 166   %.pre27 = load i16, i16* %arg2, align 2
 167   br label %for.body
 168
 169 for.cond.cleanup:
 170   %mac1.0.lcssa = phi i32 [ 0, %entry ], [ %add11, %for.body ]
 171   %count.final = phi i32 [ 0, %entry ], [ %count.next, %for.body ]
 172   %res = add i32 %mac1.0.lcssa, %count.final
 173   ret i32 %res
 174
 175 for.body:
 176   %mac1.026 = phi i32 [ %add11, %for.body ], [ 0, %for.body.preheader ]
 177   %i.025 = phi i32 [ %add, %for.body ], [ 0, %for.body.preheader ]
 178   %count = phi i32 [ %count.next, %for.body ], [ 0, %for.body.preheader ]
 179   %arrayidx = getelementptr inbounds i16, i16* %arg3, i32 %i.025
 180   %0 = load i16, i16* %arrayidx, align 2
 181   %add = add nuw nsw i32 %i.025, 1
 182   %arrayidx1 = getelementptr inbounds i16, i16* %arg3, i32 %add
 183   %arrayidx3 = getelementptr inbounds i16, i16* %arg2, i32 %i.025
 184   %arrayidx6 = getelementptr inbounds i16, i16* %arg2, i32 %add
 185   %1 = load i16, i16* %arrayidx1, align 2
 186   %2 = load i16, i16* %arrayidx3, align 2
 187   %conv = sext i16 %2 to i32
 188   %conv4 = sext i16 %0 to i32
 189   %bottom = and i32 %conv4, 65535
 190   %mul = mul nsw i32 %conv, %conv4
 191   %3 = load i16, i16* %arrayidx6, align 2
 192   %conv7 = sext i16 %3 to i32
 193   %conv8 = sext i16 %1 to i32
 194   %mul9 = mul nsw i32 %conv7, %conv8
 195   %add10 = add i32 %mul, %mac1.026
 196   %add11 = add i32 %mul9, %add10
 197   %count.next = mul i32 %bottom, %count
 198   %exitcond = icmp ne i32 %add, %arg
 199   br i1 %exitcond, label %for.body, label %for.cond.cleanup
 200 }
 201
 202 ; CHECK-LABEL: multi_uses
 203 ; CHECK: %for.body
 204 ; CHECK: ldr [[A:[rl0-9]+]], [{{.*}}, #2]!
 205 ; CHECK: ldr [[B:[rl0-9]+]], [{{.*}}, #2]!
 206 ; CHECK: sxth [[SXT:r[0-9]+]], [[A]]
 207 ; CHECK: smlad [[ACC:[rl0-9]+]], [[B]], [[A]], [[ACC]]
 208 ; CHECK: eor.w [[EOR:r[0-9]+]], [[SXT]], [[SHIFT:r[0-9]+]]
 209 ; CHECK: muls [[MUL:r[0-9]+]],{{.*}}[[SXT]]
 210 ; CHECK: lsl.w [[SHIFT]], [[MUL]], #16
 211 define i32 @multi_uses(i32 %arg, i32* nocapture readnone %arg1, i16* nocapture readonly %arg2, i16* nocapture readonly %arg3) {
 212 entry:
 213   %cmp24 = icmp sgt i32 %arg, 0
 214   br i1 %cmp24, label %for.body.preheader, label %for.cond.cleanup
 215
 216 for.body.preheader:
 217   %.pre = load i16, i16* %arg3, align 2
 218   %.pre27 = load i16, i16* %arg2, align 2
 219   br label %for.body
 220
 221 for.cond.cleanup:
 222   %mac1.0.lcssa = phi i32 [ 0, %entry ], [ %add11, %for.body ]
 223   %count.final = phi i32 [ 0, %entry ], [ %count.next, %for.body ]
 224   %res = add i32 %mac1.0.lcssa, %count.final
 225   ret i32 %res
 226
 227 for.body:
 228   %mac1.026 = phi i32 [ %add11, %for.body ], [ 0, %for.body.preheader ]
 229   %i.025 = phi i32 [ %add, %for.body ], [ 0, %for.body.preheader ]
 230   %count = phi i32 [ %count.next, %for.body ], [ 0, %for.body.preheader ]
 231   %arrayidx = getelementptr inbounds i16, i16* %arg3, i32 %i.025
 232   %0 = load i16, i16* %arrayidx, align 2
 233   %add = add nuw nsw i32 %i.025, 1
 234   %arrayidx1 = getelementptr inbounds i16, i16* %arg3, i32 %add
 235   %arrayidx3 = getelementptr inbounds i16, i16* %arg2, i32 %i.025
 236   %arrayidx6 = getelementptr inbounds i16, i16* %arg2, i32 %add
 237   %1 = load i16, i16* %arrayidx1, align 2
 238   %2 = load i16, i16* %arrayidx3, align 2
 239   %conv = sext i16 %2 to i32
 240   %conv4 = sext i16 %0 to i32
 241   %bottom = and i32 %conv4, 65535
 242   %mul = mul nsw i32 %conv, %conv4
 243   %3 = load i16, i16* %arrayidx6, align 2
 244   %conv7 = sext i16 %3 to i32
 245   %conv8 = sext i16 %1 to i32
 246   %mul9 = mul nsw i32 %conv7, %conv8
 247   %add10 = add i32 %mul, %mac1.026
 248   %shl = shl i32 %conv4, 16
 249   %add11 = add i32 %mul9, %add10
 250   %xor = xor i32 %bottom, %count
 251   %count.next = mul i32 %xor, %shl
 252   %exitcond = icmp ne i32 %add, %arg
 253   br i1 %exitcond, label %for.body, label %for.cond.cleanup
 254 }