llvm/test/CodeGen/Thumb2/mve-intrinsics/ternary.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve.fp -verify-machineinstrs -o - %s | FileCheck %s
   3
   4 define arm_aapcs_vfpcc <8 x half> @test_vfmaq_f16(<8 x half> %a, <8 x half> %b, <8 x half> %c) {
   5 ; CHECK-LABEL: test_vfmaq_f16:
   6 ; CHECK:       @ %bb.0: @ %entry
   7 ; CHECK-NEXT:    vfma.f16 q0, q1, q2
   8 ; CHECK-NEXT:    bx lr
   9 entry:
  10   %0 = tail call <8 x half> @llvm.fma.v8f16(<8 x half> %b, <8 x half> %c, <8 x half> %a)
  11   ret <8 x half> %0
  12 }
  13
  14 define arm_aapcs_vfpcc <4 x float> @test_vfmaq_f32(<4 x float> %a, <4 x float> %b, <4 x float> %c) {
  15 ; CHECK-LABEL: test_vfmaq_f32:
  16 ; CHECK:       @ %bb.0: @ %entry
  17 ; CHECK-NEXT:    vfma.f32 q0, q1, q2
  18 ; CHECK-NEXT:    bx lr
  19 entry:
  20   %0 = tail call <4 x float> @llvm.fma.v4f32(<4 x float> %b, <4 x float> %c, <4 x float> %a)
  21   ret <4 x float> %0
  22 }
  23
  24 define arm_aapcs_vfpcc <8 x half> @test_vfmaq_n_f16(<8 x half> %a, <8 x half> %b, float %c.coerce) {
  25 ; CHECK-LABEL: test_vfmaq_n_f16:
  26 ; CHECK:       @ %bb.0: @ %entry
  27 ; CHECK-NEXT:    vmov r0, s8
  28 ; CHECK-NEXT:    vfma.f16 q0, q1, r0
  29 ; CHECK-NEXT:    bx lr
  30 entry:
  31   %0 = bitcast float %c.coerce to i32
  32   %tmp.0.extract.trunc = trunc i32 %0 to i16
  33   %1 = bitcast i16 %tmp.0.extract.trunc to half
  34   %.splatinsert = insertelement <8 x half> undef, half %1, i32 0
  35   %.splat = shufflevector <8 x half> %.splatinsert, <8 x half> undef, <8 x i32> zeroinitializer
  36   %2 = tail call <8 x half> @llvm.fma.v8f16(<8 x half> %b, <8 x half> %.splat, <8 x half> %a)
  37   ret <8 x half> %2
  38 }
  39
  40 define arm_aapcs_vfpcc <4 x float> @test_vfmaq_n_f32(<4 x float> %a, <4 x float> %b, float %c) {
  41 ; CHECK-LABEL: test_vfmaq_n_f32:
  42 ; CHECK:       @ %bb.0: @ %entry
  43 ; CHECK-NEXT:    vmov r0, s8
  44 ; CHECK-NEXT:    vfma.f32 q0, q1, r0
  45 ; CHECK-NEXT:    bx lr
  46 entry:
  47   %.splatinsert = insertelement <4 x float> undef, float %c, i32 0
  48   %.splat = shufflevector <4 x float> %.splatinsert, <4 x float> undef, <4 x i32> zeroinitializer
  49   %0 = tail call <4 x float> @llvm.fma.v4f32(<4 x float> %b, <4 x float> %.splat, <4 x float> %a)
  50   ret <4 x float> %0
  51 }
  52
  53 define arm_aapcs_vfpcc <8 x half> @test_vfmasq_n_f16(<8 x half> %a, <8 x half> %b, float %c.coerce) {
  54 ; CHECK-LABEL: test_vfmasq_n_f16:
  55 ; CHECK:       @ %bb.0: @ %entry
  56 ; CHECK-NEXT:    vmov r0, s8
  57 ; CHECK-NEXT:    vfmas.f16 q0, q1, r0
  58 ; CHECK-NEXT:    bx lr
  59 entry:
  60   %0 = bitcast float %c.coerce to i32
  61   %tmp.0.extract.trunc = trunc i32 %0 to i16
  62   %1 = bitcast i16 %tmp.0.extract.trunc to half
  63   %.splatinsert = insertelement <8 x half> undef, half %1, i32 0
  64   %.splat = shufflevector <8 x half> %.splatinsert, <8 x half> undef, <8 x i32> zeroinitializer
  65   %2 = tail call <8 x half> @llvm.fma.v8f16(<8 x half> %a, <8 x half> %b, <8 x half> %.splat)
  66   ret <8 x half> %2
  67 }
  68
  69 define arm_aapcs_vfpcc <4 x float> @test_vfmasq_n_f32(<4 x float> %a, <4 x float> %b, float %c) {
  70 ; CHECK-LABEL: test_vfmasq_n_f32:
  71 ; CHECK:       @ %bb.0: @ %entry
  72 ; CHECK-NEXT:    vmov r0, s8
  73 ; CHECK-NEXT:    vfmas.f32 q0, q1, r0
  74 ; CHECK-NEXT:    bx lr
  75 entry:
  76   %.splatinsert = insertelement <4 x float> undef, float %c, i32 0
  77   %.splat = shufflevector <4 x float> %.splatinsert, <4 x float> undef, <4 x i32> zeroinitializer
  78   %0 = tail call <4 x float> @llvm.fma.v4f32(<4 x float> %a, <4 x float> %b, <4 x float> %.splat)
  79   ret <4 x float> %0
  80 }
  81
  82 define arm_aapcs_vfpcc <8 x half> @test_vfmsq_f16(<8 x half> %a, <8 x half> %b, <8 x half> %c) {
  83 ; CHECK-LABEL: test_vfmsq_f16:
  84 ; CHECK:       @ %bb.0: @ %entry
  85 ; CHECK-NEXT:    vfms.f16 q0, q2, q1
  86 ; CHECK-NEXT:    bx lr
  87 entry:
  88   %0 = fneg <8 x half> %c
  89   %1 = tail call <8 x half> @llvm.fma.v8f16(<8 x half> %b, <8 x half> %0, <8 x half> %a)
  90   ret <8 x half> %1
  91 }
  92
  93 define arm_aapcs_vfpcc <4 x float> @test_vfmsq_f32(<4 x float> %a, <4 x float> %b, <4 x float> %c) {
  94 ; CHECK-LABEL: test_vfmsq_f32:
  95 ; CHECK:       @ %bb.0: @ %entry
  96 ; CHECK-NEXT:    vfms.f32 q0, q2, q1
  97 ; CHECK-NEXT:    bx lr
  98 entry:
  99   %0 = fneg <4 x float> %c
 100   %1 = tail call <4 x float> @llvm.fma.v4f32(<4 x float> %b, <4 x float> %0, <4 x float> %a)
 101   ret <4 x float> %1
 102 }
 103
 104 define arm_aapcs_vfpcc <16 x i8> @test_vmlaq_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c) {
 105 ; CHECK-LABEL: test_vmlaq_n_s8:
 106 ; CHECK:       @ %bb.0: @ %entry
 107 ; CHECK-NEXT:    vmla.i8 q0, q1, r0
 108 ; CHECK-NEXT:    bx lr
 109 entry:
 110   %.splatinsert = insertelement <16 x i8> undef, i8 %c, i32 0
 111   %.splat = shufflevector <16 x i8> %.splatinsert, <16 x i8> undef, <16 x i32> zeroinitializer
 112   %0 = mul <16 x i8> %.splat, %b
 113   %1 = add <16 x i8> %0, %a
 114   ret <16 x i8> %1
 115 }
 116
 117 define arm_aapcs_vfpcc <8 x i16> @test_vmlaq_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c) {
 118 ; CHECK-LABEL: test_vmlaq_n_s16:
 119 ; CHECK:       @ %bb.0: @ %entry
 120 ; CHECK-NEXT:    vmla.i16 q0, q1, r0
 121 ; CHECK-NEXT:    bx lr
 122 entry:
 123   %.splatinsert = insertelement <8 x i16> undef, i16 %c, i32 0
 124   %.splat = shufflevector <8 x i16> %.splatinsert, <8 x i16> undef, <8 x i32> zeroinitializer
 125   %0 = mul <8 x i16> %.splat, %b
 126   %1 = add <8 x i16> %0, %a
 127   ret <8 x i16> %1
 128 }
 129
 130 define arm_aapcs_vfpcc <4 x i32> @test_vmlaq_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c) {
 131 ; CHECK-LABEL: test_vmlaq_n_s32:
 132 ; CHECK:       @ %bb.0: @ %entry
 133 ; CHECK-NEXT:    vmla.i32 q0, q1, r0
 134 ; CHECK-NEXT:    bx lr
 135 entry:
 136   %.splatinsert = insertelement <4 x i32> undef, i32 %c, i32 0
 137   %.splat = shufflevector <4 x i32> %.splatinsert, <4 x i32> undef, <4 x i32> zeroinitializer
 138   %0 = mul <4 x i32> %.splat, %b
 139   %1 = add <4 x i32> %0, %a
 140   ret <4 x i32> %1
 141 }
 142
 143 define arm_aapcs_vfpcc <16 x i8> @test_vmlaq_n_u8(<16 x i8> %a, <16 x i8> %b, i8 zeroext %c) {
 144 ; CHECK-LABEL: test_vmlaq_n_u8:
 145 ; CHECK:       @ %bb.0: @ %entry
 146 ; CHECK-NEXT:    vmla.i8 q0, q1, r0
 147 ; CHECK-NEXT:    bx lr
 148 entry:
 149   %.splatinsert = insertelement <16 x i8> undef, i8 %c, i32 0
 150   %.splat = shufflevector <16 x i8> %.splatinsert, <16 x i8> undef, <16 x i32> zeroinitializer
 151   %0 = mul <16 x i8> %.splat, %b
 152   %1 = add <16 x i8> %0, %a
 153   ret <16 x i8> %1
 154 }
 155
 156 define arm_aapcs_vfpcc <8 x i16> @test_vmlaq_n_u16(<8 x i16> %a, <8 x i16> %b, i16 zeroext %c) {
 157 ; CHECK-LABEL: test_vmlaq_n_u16:
 158 ; CHECK:       @ %bb.0: @ %entry
 159 ; CHECK-NEXT:    vmla.i16 q0, q1, r0
 160 ; CHECK-NEXT:    bx lr
 161 entry:
 162   %.splatinsert = insertelement <8 x i16> undef, i16 %c, i32 0
 163   %.splat = shufflevector <8 x i16> %.splatinsert, <8 x i16> undef, <8 x i32> zeroinitializer
 164   %0 = mul <8 x i16> %.splat, %b
 165   %1 = add <8 x i16> %0, %a
 166   ret <8 x i16> %1
 167 }
 168
 169 define arm_aapcs_vfpcc <4 x i32> @test_vmlaq_n_u32(<4 x i32> %a, <4 x i32> %b, i32 %c) {
 170 ; CHECK-LABEL: test_vmlaq_n_u32:
 171 ; CHECK:       @ %bb.0: @ %entry
 172 ; CHECK-NEXT:    vmla.i32 q0, q1, r0
 173 ; CHECK-NEXT:    bx lr
 174 entry:
 175   %.splatinsert = insertelement <4 x i32> undef, i32 %c, i32 0
 176   %.splat = shufflevector <4 x i32> %.splatinsert, <4 x i32> undef, <4 x i32> zeroinitializer
 177   %0 = mul <4 x i32> %.splat, %b
 178   %1 = add <4 x i32> %0, %a
 179   ret <4 x i32> %1
 180 }
 181
 182 define arm_aapcs_vfpcc <16 x i8> @test_vmlasq_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c) {
 183 ; CHECK-LABEL: test_vmlasq_n_s8:
 184 ; CHECK:       @ %bb.0: @ %entry
 185 ; CHECK-NEXT:    vmlas.i8 q1, q0, r0
 186 ; CHECK-NEXT:    vmov q0, q1
 187 ; CHECK-NEXT:    bx lr
 188 entry:
 189   %0 = mul <16 x i8> %b, %a
 190   %.splatinsert = insertelement <16 x i8> undef, i8 %c, i32 0
 191   %.splat = shufflevector <16 x i8> %.splatinsert, <16 x i8> undef, <16 x i32> zeroinitializer
 192   %1 = add <16 x i8> %.splat, %0
 193   ret <16 x i8> %1
 194 }
 195
 196 define arm_aapcs_vfpcc <8 x i16> @test_vmlasq_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c) {
 197 ; CHECK-LABEL: test_vmlasq_n_s16:
 198 ; CHECK:       @ %bb.0: @ %entry
 199 ; CHECK-NEXT:    vmlas.i16 q1, q0, r0
 200 ; CHECK-NEXT:    vmov q0, q1
 201 ; CHECK-NEXT:    bx lr
 202 entry:
 203   %0 = mul <8 x i16> %b, %a
 204   %.splatinsert = insertelement <8 x i16> undef, i16 %c, i32 0
 205   %.splat = shufflevector <8 x i16> %.splatinsert, <8 x i16> undef, <8 x i32> zeroinitializer
 206   %1 = add <8 x i16> %.splat, %0
 207   ret <8 x i16> %1
 208 }
 209
 210 define arm_aapcs_vfpcc <4 x i32> @test_vmlasq_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c) {
 211 ; CHECK-LABEL: test_vmlasq_n_s32:
 212 ; CHECK:       @ %bb.0: @ %entry
 213 ; CHECK-NEXT:    vmlas.i32 q1, q0, r0
 214 ; CHECK-NEXT:    vmov q0, q1
 215 ; CHECK-NEXT:    bx lr
 216 entry:
 217   %0 = mul <4 x i32> %b, %a
 218   %.splatinsert = insertelement <4 x i32> undef, i32 %c, i32 0
 219   %.splat = shufflevector <4 x i32> %.splatinsert, <4 x i32> undef, <4 x i32> zeroinitializer
 220   %1 = add <4 x i32> %.splat, %0
 221   ret <4 x i32> %1
 222 }
 223
 224 define arm_aapcs_vfpcc <16 x i8> @test_vmlasq_n_u8(<16 x i8> %a, <16 x i8> %b, i8 zeroext %c) {
 225 ; CHECK-LABEL: test_vmlasq_n_u8:
 226 ; CHECK:       @ %bb.0: @ %entry
 227 ; CHECK-NEXT:    vmlas.i8 q1, q0, r0
 228 ; CHECK-NEXT:    vmov q0, q1
 229 ; CHECK-NEXT:    bx lr
 230 entry:
 231   %0 = mul <16 x i8> %b, %a
 232   %.splatinsert = insertelement <16 x i8> undef, i8 %c, i32 0
 233   %.splat = shufflevector <16 x i8> %.splatinsert, <16 x i8> undef, <16 x i32> zeroinitializer
 234   %1 = add <16 x i8> %.splat, %0
 235   ret <16 x i8> %1
 236 }
 237
 238 define arm_aapcs_vfpcc <8 x i16> @test_vmlasq_n_u16(<8 x i16> %a, <8 x i16> %b, i16 zeroext %c) {
 239 ; CHECK-LABEL: test_vmlasq_n_u16:
 240 ; CHECK:       @ %bb.0: @ %entry
 241 ; CHECK-NEXT:    vmlas.i16 q1, q0, r0
 242 ; CHECK-NEXT:    vmov q0, q1
 243 ; CHECK-NEXT:    bx lr
 244 entry:
 245   %0 = mul <8 x i16> %b, %a
 246   %.splatinsert = insertelement <8 x i16> undef, i16 %c, i32 0
 247   %.splat = shufflevector <8 x i16> %.splatinsert, <8 x i16> undef, <8 x i32> zeroinitializer
 248   %1 = add <8 x i16> %.splat, %0
 249   ret <8 x i16> %1
 250 }
 251
 252 define arm_aapcs_vfpcc <4 x i32> @test_vmlasq_n_u32(<4 x i32> %a, <4 x i32> %b, i32 %c) {
 253 ; CHECK-LABEL: test_vmlasq_n_u32:
 254 ; CHECK:       @ %bb.0: @ %entry
 255 ; CHECK-NEXT:    vmlas.i32 q1, q0, r0
 256 ; CHECK-NEXT:    vmov q0, q1
 257 ; CHECK-NEXT:    bx lr
 258 entry:
 259   %0 = mul <4 x i32> %b, %a
 260   %.splatinsert = insertelement <4 x i32> undef, i32 %c, i32 0
 261   %.splat = shufflevector <4 x i32> %.splatinsert, <4 x i32> undef, <4 x i32> zeroinitializer
 262   %1 = add <4 x i32> %.splat, %0
 263   ret <4 x i32> %1
 264 }
 265
 266 define arm_aapcs_vfpcc <16 x i8> @test_vqdmlahq_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c) {
 267 ; CHECK-LABEL: test_vqdmlahq_n_s8:
 268 ; CHECK:       @ %bb.0: @ %entry
 269 ; CHECK-NEXT:    vqdmlah.s8 q0, q1, r0
 270 ; CHECK-NEXT:    bx lr
 271 entry:
 272   %0 = zext i8 %c to i32
 273   %1 = tail call <16 x i8> @llvm.arm.mve.vqdmlah.v16i8(<16 x i8> %a, <16 x i8> %b, i32 %0)
 274   ret <16 x i8> %1
 275 }
 276
 277 define arm_aapcs_vfpcc <8 x i16> @test_vqdmlahq_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c) {
 278 ; CHECK-LABEL: test_vqdmlahq_n_s16:
 279 ; CHECK:       @ %bb.0: @ %entry
 280 ; CHECK-NEXT:    vqdmlah.s16 q0, q1, r0
 281 ; CHECK-NEXT:    bx lr
 282 entry:
 283   %0 = zext i16 %c to i32
 284   %1 = tail call <8 x i16> @llvm.arm.mve.vqdmlah.v8i16(<8 x i16> %a, <8 x i16> %b, i32 %0)
 285   ret <8 x i16> %1
 286 }
 287
 288 define arm_aapcs_vfpcc <4 x i32> @test_vqdmlahq_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c) {
 289 ; CHECK-LABEL: test_vqdmlahq_n_s32:
 290 ; CHECK:       @ %bb.0: @ %entry
 291 ; CHECK-NEXT:    vqdmlah.s32 q0, q1, r0
 292 ; CHECK-NEXT:    bx lr
 293 entry:
 294   %0 = tail call <4 x i32> @llvm.arm.mve.vqdmlah.v4i32(<4 x i32> %a, <4 x i32> %b, i32 %c)
 295   ret <4 x i32> %0
 296 }
 297
 298 define arm_aapcs_vfpcc <16 x i8> @test_vqdmlashq_n_s8(<16 x i8> %m1, <16 x i8> %m2, i8 signext %add) {
 299 ; CHECK-LABEL: test_vqdmlashq_n_s8:
 300 ; CHECK:       @ %bb.0: @ %entry
 301 ; CHECK-NEXT:    vqdmlash.s8 q0, q1, r0
 302 ; CHECK-NEXT:    bx lr
 303 entry:
 304   %0 = zext i8 %add to i32
 305   %1 = tail call <16 x i8> @llvm.arm.mve.vqdmlash.v16i8(<16 x i8> %m1, <16 x i8> %m2, i32 %0)
 306   ret <16 x i8> %1
 307 }
 308
 309 define arm_aapcs_vfpcc <8 x i16> @test_vqdmlashq_n_s16(<8 x i16> %m1, <8 x i16> %m2, i16 signext %add) {
 310 ; CHECK-LABEL: test_vqdmlashq_n_s16:
 311 ; CHECK:       @ %bb.0: @ %entry
 312 ; CHECK-NEXT:    vqdmlash.s16 q0, q1, r0
 313 ; CHECK-NEXT:    bx lr
 314 entry:
 315   %0 = zext i16 %add to i32
 316   %1 = tail call <8 x i16> @llvm.arm.mve.vqdmlash.v8i16(<8 x i16> %m1, <8 x i16> %m2, i32 %0)
 317   ret <8 x i16> %1
 318 }
 319
 320 define arm_aapcs_vfpcc <4 x i32> @test_vqdmlashq_n_s32(<4 x i32> %m1, <4 x i32> %m2, i32 %add) {
 321 ; CHECK-LABEL: test_vqdmlashq_n_s32:
 322 ; CHECK:       @ %bb.0: @ %entry
 323 ; CHECK-NEXT:    vqdmlash.s32 q0, q1, r0
 324 ; CHECK-NEXT:    bx lr
 325 entry:
 326   %0 = tail call <4 x i32> @llvm.arm.mve.vqdmlash.v4i32(<4 x i32> %m1, <4 x i32> %m2, i32 %add)
 327   ret <4 x i32> %0
 328 }
 329
 330 define arm_aapcs_vfpcc <16 x i8> @test_vqrdmlahq_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c) {
 331 ; CHECK-LABEL: test_vqrdmlahq_n_s8:
 332 ; CHECK:       @ %bb.0: @ %entry
 333 ; CHECK-NEXT:    vqrdmlah.s8 q0, q1, r0
 334 ; CHECK-NEXT:    bx lr
 335 entry:
 336   %0 = zext i8 %c to i32
 337   %1 = tail call <16 x i8> @llvm.arm.mve.vqrdmlah.v16i8(<16 x i8> %a, <16 x i8> %b, i32 %0)
 338   ret <16 x i8> %1
 339 }
 340
 341 define arm_aapcs_vfpcc <8 x i16> @test_vqrdmlahq_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c) {
 342 ; CHECK-LABEL: test_vqrdmlahq_n_s16:
 343 ; CHECK:       @ %bb.0: @ %entry
 344 ; CHECK-NEXT:    vqrdmlah.s16 q0, q1, r0
 345 ; CHECK-NEXT:    bx lr
 346 entry:
 347   %0 = zext i16 %c to i32
 348   %1 = tail call <8 x i16> @llvm.arm.mve.vqrdmlah.v8i16(<8 x i16> %a, <8 x i16> %b, i32 %0)
 349   ret <8 x i16> %1
 350 }
 351
 352 define arm_aapcs_vfpcc <4 x i32> @test_vqrdmlahq_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c) {
 353 ; CHECK-LABEL: test_vqrdmlahq_n_s32:
 354 ; CHECK:       @ %bb.0: @ %entry
 355 ; CHECK-NEXT:    vqrdmlah.s32 q0, q1, r0
 356 ; CHECK-NEXT:    bx lr
 357 entry:
 358   %0 = tail call <4 x i32> @llvm.arm.mve.vqrdmlah.v4i32(<4 x i32> %a, <4 x i32> %b, i32 %c)
 359   ret <4 x i32> %0
 360 }
 361
 362 define arm_aapcs_vfpcc <16 x i8> @test_vqrdmlashq_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c) {
 363 ; CHECK-LABEL: test_vqrdmlashq_n_s8:
 364 ; CHECK:       @ %bb.0: @ %entry
 365 ; CHECK-NEXT:    vqrdmlash.s8 q0, q1, r0
 366 ; CHECK-NEXT:    bx lr
 367 entry:
 368   %0 = zext i8 %c to i32
 369   %1 = tail call <16 x i8> @llvm.arm.mve.vqrdmlash.v16i8(<16 x i8> %a, <16 x i8> %b, i32 %0)
 370   ret <16 x i8> %1
 371 }
 372
 373 define arm_aapcs_vfpcc <8 x i16> @test_vqrdmlashq_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c) {
 374 ; CHECK-LABEL: test_vqrdmlashq_n_s16:
 375 ; CHECK:       @ %bb.0: @ %entry
 376 ; CHECK-NEXT:    vqrdmlash.s16 q0, q1, r0
 377 ; CHECK-NEXT:    bx lr
 378 entry:
 379   %0 = zext i16 %c to i32
 380   %1 = tail call <8 x i16> @llvm.arm.mve.vqrdmlash.v8i16(<8 x i16> %a, <8 x i16> %b, i32 %0)
 381   ret <8 x i16> %1
 382 }
 383
 384 define arm_aapcs_vfpcc <4 x i32> @test_vqrdmlashq_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c) {
 385 ; CHECK-LABEL: test_vqrdmlashq_n_s32:
 386 ; CHECK:       @ %bb.0: @ %entry
 387 ; CHECK-NEXT:    vqrdmlash.s32 q0, q1, r0
 388 ; CHECK-NEXT:    bx lr
 389 entry:
 390   %0 = tail call <4 x i32> @llvm.arm.mve.vqrdmlash.v4i32(<4 x i32> %a, <4 x i32> %b, i32 %c)
 391   ret <4 x i32> %0
 392 }
 393
 394 define arm_aapcs_vfpcc <8 x half> @test_vfmaq_m_f16(<8 x half> %a, <8 x half> %b, <8 x half> %c, i16 zeroext %p) {
 395 ; CHECK-LABEL: test_vfmaq_m_f16:
 396 ; CHECK:       @ %bb.0: @ %entry
 397 ; CHECK-NEXT:    vmsr p0, r0
 398 ; CHECK-NEXT:    vpst
 399 ; CHECK-NEXT:    vfmat.f16 q0, q1, q2
 400 ; CHECK-NEXT:    bx lr
 401 entry:
 402   %0 = zext i16 %p to i32
 403   %1 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %0)
 404   %2 = tail call <8 x half> @llvm.arm.mve.fma.predicated.v8f16.v8i1(<8 x half> %b, <8 x half> %c, <8 x half> %a, <8 x i1> %1)
 405   ret <8 x half> %2
 406 }
 407
 408 define arm_aapcs_vfpcc <4 x float> @test_vfmaq_m_f32(<4 x float> %a, <4 x float> %b, <4 x float> %c, i16 zeroext %p) {
 409 ; CHECK-LABEL: test_vfmaq_m_f32:
 410 ; CHECK:       @ %bb.0: @ %entry
 411 ; CHECK-NEXT:    vmsr p0, r0
 412 ; CHECK-NEXT:    vpst
 413 ; CHECK-NEXT:    vfmat.f32 q0, q1, q2
 414 ; CHECK-NEXT:    bx lr
 415 entry:
 416   %0 = zext i16 %p to i32
 417   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 418   %2 = tail call <4 x float> @llvm.arm.mve.fma.predicated.v4f32.v4i1(<4 x float> %b, <4 x float> %c, <4 x float> %a, <4 x i1> %1)
 419   ret <4 x float> %2
 420 }
 421
 422 define arm_aapcs_vfpcc <8 x half> @test_vfmaq_m_n_f16(<8 x half> %a, <8 x half> %b, float %c.coerce, i16 zeroext %p) {
 423 ; CHECK-LABEL: test_vfmaq_m_n_f16:
 424 ; CHECK:       @ %bb.0: @ %entry
 425 ; CHECK-NEXT:    vmov r1, s8
 426 ; CHECK-NEXT:    vmsr p0, r0
 427 ; CHECK-NEXT:    vpst
 428 ; CHECK-NEXT:    vfmat.f16 q0, q1, r1
 429 ; CHECK-NEXT:    bx lr
 430 entry:
 431   %0 = bitcast float %c.coerce to i32
 432   %tmp.0.extract.trunc = trunc i32 %0 to i16
 433   %1 = bitcast i16 %tmp.0.extract.trunc to half
 434   %.splatinsert = insertelement <8 x half> undef, half %1, i32 0
 435   %.splat = shufflevector <8 x half> %.splatinsert, <8 x half> undef, <8 x i32> zeroinitializer
 436   %2 = zext i16 %p to i32
 437   %3 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %2)
 438   %4 = tail call <8 x half> @llvm.arm.mve.fma.predicated.v8f16.v8i1(<8 x half> %b, <8 x half> %.splat, <8 x half> %a, <8 x i1> %3)
 439   ret <8 x half> %4
 440 }
 441
 442 define arm_aapcs_vfpcc <4 x float> @test_vfmaq_m_n_f32(<4 x float> %a, <4 x float> %b, float %c, i16 zeroext %p) {
 443 ; CHECK-LABEL: test_vfmaq_m_n_f32:
 444 ; CHECK:       @ %bb.0: @ %entry
 445 ; CHECK-NEXT:    vmov r1, s8
 446 ; CHECK-NEXT:    vmsr p0, r0
 447 ; CHECK-NEXT:    vpst
 448 ; CHECK-NEXT:    vfmat.f32 q0, q1, r1
 449 ; CHECK-NEXT:    bx lr
 450 entry:
 451   %.splatinsert = insertelement <4 x float> undef, float %c, i32 0
 452   %.splat = shufflevector <4 x float> %.splatinsert, <4 x float> undef, <4 x i32> zeroinitializer
 453   %0 = zext i16 %p to i32
 454   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 455   %2 = tail call <4 x float> @llvm.arm.mve.fma.predicated.v4f32.v4i1(<4 x float> %b, <4 x float> %.splat, <4 x float> %a, <4 x i1> %1)
 456   ret <4 x float> %2
 457 }
 458
 459 define arm_aapcs_vfpcc <8 x half> @test_vfmasq_m_n_f16(<8 x half> %a, <8 x half> %b, float %c.coerce, i16 zeroext %p) {
 460 ; CHECK-LABEL: test_vfmasq_m_n_f16:
 461 ; CHECK:       @ %bb.0: @ %entry
 462 ; CHECK-NEXT:    vmov r1, s8
 463 ; CHECK-NEXT:    vmsr p0, r0
 464 ; CHECK-NEXT:    vdup.16 q2, r1
 465 ; CHECK-NEXT:    vpst
 466 ; CHECK-NEXT:    vfmat.f16 q2, q0, q1
 467 ; CHECK-NEXT:    vmov q0, q2
 468 ; CHECK-NEXT:    bx lr
 469 entry:
 470   %0 = bitcast float %c.coerce to i32
 471   %tmp.0.extract.trunc = trunc i32 %0 to i16
 472   %1 = bitcast i16 %tmp.0.extract.trunc to half
 473   %.splatinsert = insertelement <8 x half> undef, half %1, i32 0
 474   %.splat = shufflevector <8 x half> %.splatinsert, <8 x half> undef, <8 x i32> zeroinitializer
 475   %2 = zext i16 %p to i32
 476   %3 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %2)
 477   %4 = tail call <8 x half> @llvm.arm.mve.fma.predicated.v8f16.v8i1(<8 x half> %a, <8 x half> %b, <8 x half> %.splat, <8 x i1> %3)
 478   ret <8 x half> %4
 479 }
 480
 481 define arm_aapcs_vfpcc <8 x half> @test_vfmasq_m_n_f16_select(<8 x half> %a, <8 x half> %b, float %c.coerce, i16 zeroext %p) {
 482 ; CHECK-LABEL: test_vfmasq_m_n_f16_select:
 483 ; CHECK:       @ %bb.0: @ %entry
 484 ; CHECK-NEXT:    vmov r1, s8
 485 ; CHECK-NEXT:    vmsr p0, r0
 486 ; CHECK-NEXT:    vpst
 487 ; CHECK-NEXT:    vfmast.f16 q0, q1, r1
 488 ; CHECK-NEXT:    bx lr
 489 entry:
 490   %0 = bitcast float %c.coerce to i32
 491   %tmp.0.extract.trunc = trunc i32 %0 to i16
 492   %1 = bitcast i16 %tmp.0.extract.trunc to half
 493   %.splatinsert = insertelement <8 x half> undef, half %1, i32 0
 494   %.splat = shufflevector <8 x half> %.splatinsert, <8 x half> undef, <8 x i32> zeroinitializer
 495   %2 = zext i16 %p to i32
 496   %3 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %2)
 497   %4 = tail call <8 x half> @llvm.fma.v8f16(<8 x half> %a, <8 x half> %b, <8 x half> %.splat)
 498   %5 = select <8 x i1> %3, <8 x half> %4, <8 x half> %a
 499   ret <8 x half> %5
 500 }
 501
 502 define arm_aapcs_vfpcc <4 x float> @test_vfmasq_m_n_f32(<4 x float> %a, <4 x float> %b, float %c, i16 zeroext %p) {
 503 ; CHECK-LABEL: test_vfmasq_m_n_f32:
 504 ; CHECK:       @ %bb.0: @ %entry
 505 ; CHECK-NEXT:    vmov r1, s8
 506 ; CHECK-NEXT:    vmsr p0, r0
 507 ; CHECK-NEXT:    vdup.32 q2, r1
 508 ; CHECK-NEXT:    vpst
 509 ; CHECK-NEXT:    vfmat.f32 q2, q0, q1
 510 ; CHECK-NEXT:    vmov q0, q2
 511 ; CHECK-NEXT:    bx lr
 512 entry:
 513   %.splatinsert = insertelement <4 x float> undef, float %c, i32 0
 514   %.splat = shufflevector <4 x float> %.splatinsert, <4 x float> undef, <4 x i32> zeroinitializer
 515   %0 = zext i16 %p to i32
 516   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 517   %2 = tail call <4 x float> @llvm.arm.mve.fma.predicated.v4f32.v4i1(<4 x float> %a, <4 x float> %b, <4 x float> %.splat, <4 x i1> %1)
 518   ret <4 x float> %2
 519 }
 520
 521 define arm_aapcs_vfpcc <4 x float> @test_vfmasq_m_n_f32_select(<4 x float> %a, <4 x float> %b, float %c, i16 zeroext %p) {
 522 ; CHECK-LABEL: test_vfmasq_m_n_f32_select:
 523 ; CHECK:       @ %bb.0: @ %entry
 524 ; CHECK-NEXT:    vmov r1, s8
 525 ; CHECK-NEXT:    vmsr p0, r0
 526 ; CHECK-NEXT:    vpst
 527 ; CHECK-NEXT:    vfmast.f32 q0, q1, r1
 528 ; CHECK-NEXT:    bx lr
 529 entry:
 530   %.splatinsert = insertelement <4 x float> undef, float %c, i32 0
 531   %.splat = shufflevector <4 x float> %.splatinsert, <4 x float> undef, <4 x i32> zeroinitializer
 532   %0 = zext i16 %p to i32
 533   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 534   %2 = tail call <4 x float> @llvm.fma.v4f32(<4 x float> %a, <4 x float> %b, <4 x float> %.splat)
 535   %3 = select <4 x i1> %1, <4 x float> %2, <4 x float> %a
 536   ret <4 x float> %3
 537 }
 538
 539 define arm_aapcs_vfpcc <8 x half> @test_vfmsq_m_f16(<8 x half> %a, <8 x half> %b, <8 x half> %c, i16 zeroext %p) {
 540 ; CHECK-LABEL: test_vfmsq_m_f16:
 541 ; CHECK:       @ %bb.0: @ %entry
 542 ; CHECK-NEXT:    vmsr p0, r0
 543 ; CHECK-NEXT:    vpst
 544 ; CHECK-NEXT:    vfmst.f16 q0, q1, q2
 545 ; CHECK-NEXT:    bx lr
 546 entry:
 547   %0 = fneg <8 x half> %c
 548   %1 = zext i16 %p to i32
 549   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 550   %3 = tail call <8 x half> @llvm.arm.mve.fma.predicated.v8f16.v8i1(<8 x half> %b, <8 x half> %0, <8 x half> %a, <8 x i1> %2)
 551   ret <8 x half> %3
 552 }
 553
 554 define arm_aapcs_vfpcc <4 x float> @test_vfmsq_m_f32(<4 x float> %a, <4 x float> %b, <4 x float> %c, i16 zeroext %p) {
 555 ; CHECK-LABEL: test_vfmsq_m_f32:
 556 ; CHECK:       @ %bb.0: @ %entry
 557 ; CHECK-NEXT:    vmsr p0, r0
 558 ; CHECK-NEXT:    vpst
 559 ; CHECK-NEXT:    vfmst.f32 q0, q1, q2
 560 ; CHECK-NEXT:    bx lr
 561 entry:
 562   %0 = fneg <4 x float> %c
 563   %1 = zext i16 %p to i32
 564   %2 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %1)
 565   %3 = tail call <4 x float> @llvm.arm.mve.fma.predicated.v4f32.v4i1(<4 x float> %b, <4 x float> %0, <4 x float> %a, <4 x i1> %2)
 566   ret <4 x float> %3
 567 }
 568
 569 define arm_aapcs_vfpcc <16 x i8> @test_vmlaq_m_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c, i16 zeroext %p) {
 570 ; CHECK-LABEL: test_vmlaq_m_n_s8:
 571 ; CHECK:       @ %bb.0: @ %entry
 572 ; CHECK-NEXT:    vmsr p0, r1
 573 ; CHECK-NEXT:    vpst
 574 ; CHECK-NEXT:    vmlat.i8 q0, q1, r0
 575 ; CHECK-NEXT:    bx lr
 576 entry:
 577   %0 = zext i8 %c to i32
 578   %1 = zext i16 %p to i32
 579   %2 = tail call <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32 %1)
 580   %3 = tail call <16 x i8> @llvm.arm.mve.vmla.n.predicated.v16i8.v16i1(<16 x i8> %a, <16 x i8> %b, i32 %0, <16 x i1> %2)
 581   ret <16 x i8> %3
 582 }
 583
 584 define arm_aapcs_vfpcc <8 x i16> @test_vmlaq_m_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c, i16 zeroext %p) {
 585 ; CHECK-LABEL: test_vmlaq_m_n_s16:
 586 ; CHECK:       @ %bb.0: @ %entry
 587 ; CHECK-NEXT:    vmsr p0, r1
 588 ; CHECK-NEXT:    vpst
 589 ; CHECK-NEXT:    vmlat.i16 q0, q1, r0
 590 ; CHECK-NEXT:    bx lr
 591 entry:
 592   %0 = zext i16 %c to i32
 593   %1 = zext i16 %p to i32
 594   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 595   %3 = tail call <8 x i16> @llvm.arm.mve.vmla.n.predicated.v8i16.v8i1(<8 x i16> %a, <8 x i16> %b, i32 %0, <8 x i1> %2)
 596   ret <8 x i16> %3
 597 }
 598
 599 define arm_aapcs_vfpcc <4 x i32> @test_vmlaq_m_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c, i16 zeroext %p) {
 600 ; CHECK-LABEL: test_vmlaq_m_n_s32:
 601 ; CHECK:       @ %bb.0: @ %entry
 602 ; CHECK-NEXT:    vmsr p0, r1
 603 ; CHECK-NEXT:    vpst
 604 ; CHECK-NEXT:    vmlat.i32 q0, q1, r0
 605 ; CHECK-NEXT:    bx lr
 606 entry:
 607   %0 = zext i16 %p to i32
 608   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 609   %2 = tail call <4 x i32> @llvm.arm.mve.vmla.n.predicated.v4i32.v4i1(<4 x i32> %a, <4 x i32> %b, i32 %c, <4 x i1> %1)
 610   ret <4 x i32> %2
 611 }
 612
 613 define arm_aapcs_vfpcc <16 x i8> @test_vmlaq_m_n_u8(<16 x i8> %a, <16 x i8> %b, i8 zeroext %c, i16 zeroext %p) {
 614 ; CHECK-LABEL: test_vmlaq_m_n_u8:
 615 ; CHECK:       @ %bb.0: @ %entry
 616 ; CHECK-NEXT:    vmsr p0, r1
 617 ; CHECK-NEXT:    vpst
 618 ; CHECK-NEXT:    vmlat.i8 q0, q1, r0
 619 ; CHECK-NEXT:    bx lr
 620 entry:
 621   %0 = zext i8 %c to i32
 622   %1 = zext i16 %p to i32
 623   %2 = tail call <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32 %1)
 624   %3 = tail call <16 x i8> @llvm.arm.mve.vmla.n.predicated.v16i8.v16i1(<16 x i8> %a, <16 x i8> %b, i32 %0, <16 x i1> %2)
 625   ret <16 x i8> %3
 626 }
 627
 628 define arm_aapcs_vfpcc <8 x i16> @test_vmlaq_m_n_u16(<8 x i16> %a, <8 x i16> %b, i16 zeroext %c, i16 zeroext %p) {
 629 ; CHECK-LABEL: test_vmlaq_m_n_u16:
 630 ; CHECK:       @ %bb.0: @ %entry
 631 ; CHECK-NEXT:    vmsr p0, r1
 632 ; CHECK-NEXT:    vpst
 633 ; CHECK-NEXT:    vmlat.i16 q0, q1, r0
 634 ; CHECK-NEXT:    bx lr
 635 entry:
 636   %0 = zext i16 %c to i32
 637   %1 = zext i16 %p to i32
 638   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 639   %3 = tail call <8 x i16> @llvm.arm.mve.vmla.n.predicated.v8i16.v8i1(<8 x i16> %a, <8 x i16> %b, i32 %0, <8 x i1> %2)
 640   ret <8 x i16> %3
 641 }
 642
 643 define arm_aapcs_vfpcc <4 x i32> @test_vmlaq_m_n_u32(<4 x i32> %a, <4 x i32> %b, i32 %c, i16 zeroext %p) {
 644 ; CHECK-LABEL: test_vmlaq_m_n_u32:
 645 ; CHECK:       @ %bb.0: @ %entry
 646 ; CHECK-NEXT:    vmsr p0, r1
 647 ; CHECK-NEXT:    vpst
 648 ; CHECK-NEXT:    vmlat.i32 q0, q1, r0
 649 ; CHECK-NEXT:    bx lr
 650 entry:
 651   %0 = zext i16 %p to i32
 652   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 653   %2 = tail call <4 x i32> @llvm.arm.mve.vmla.n.predicated.v4i32.v4i1(<4 x i32> %a, <4 x i32> %b, i32 %c, <4 x i1> %1)
 654   ret <4 x i32> %2
 655 }
 656
 657 define arm_aapcs_vfpcc <16 x i8> @test_vmlasq_m_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c, i16 zeroext %p) {
 658 ; CHECK-LABEL: test_vmlasq_m_n_s8:
 659 ; CHECK:       @ %bb.0: @ %entry
 660 ; CHECK-NEXT:    vmsr p0, r1
 661 ; CHECK-NEXT:    vpst
 662 ; CHECK-NEXT:    vmlast.i8 q0, q1, r0
 663 ; CHECK-NEXT:    bx lr
 664 entry:
 665   %0 = zext i8 %c to i32
 666   %1 = zext i16 %p to i32
 667   %2 = tail call <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32 %1)
 668   %3 = tail call <16 x i8> @llvm.arm.mve.vmlas.n.predicated.v16i8.v16i1(<16 x i8> %a, <16 x i8> %b, i32 %0, <16 x i1> %2)
 669   ret <16 x i8> %3
 670 }
 671
 672 define arm_aapcs_vfpcc <8 x i16> @test_vmlasq_m_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c, i16 zeroext %p) {
 673 ; CHECK-LABEL: test_vmlasq_m_n_s16:
 674 ; CHECK:       @ %bb.0: @ %entry
 675 ; CHECK-NEXT:    vmsr p0, r1
 676 ; CHECK-NEXT:    vpst
 677 ; CHECK-NEXT:    vmlast.i16 q0, q1, r0
 678 ; CHECK-NEXT:    bx lr
 679 entry:
 680   %0 = zext i16 %c to i32
 681   %1 = zext i16 %p to i32
 682   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 683   %3 = tail call <8 x i16> @llvm.arm.mve.vmlas.n.predicated.v8i16.v8i1(<8 x i16> %a, <8 x i16> %b, i32 %0, <8 x i1> %2)
 684   ret <8 x i16> %3
 685 }
 686
 687 define arm_aapcs_vfpcc <4 x i32> @test_vmlasq_m_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c, i16 zeroext %p) {
 688 ; CHECK-LABEL: test_vmlasq_m_n_s32:
 689 ; CHECK:       @ %bb.0: @ %entry
 690 ; CHECK-NEXT:    vmsr p0, r1
 691 ; CHECK-NEXT:    vpst
 692 ; CHECK-NEXT:    vmlast.i32 q0, q1, r0
 693 ; CHECK-NEXT:    bx lr
 694 entry:
 695   %0 = zext i16 %p to i32
 696   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 697   %2 = tail call <4 x i32> @llvm.arm.mve.vmlas.n.predicated.v4i32.v4i1(<4 x i32> %a, <4 x i32> %b, i32 %c, <4 x i1> %1)
 698   ret <4 x i32> %2
 699 }
 700
 701 define arm_aapcs_vfpcc <16 x i8> @test_vmlasq_m_n_u8(<16 x i8> %a, <16 x i8> %b, i8 zeroext %c, i16 zeroext %p) {
 702 ; CHECK-LABEL: test_vmlasq_m_n_u8:
 703 ; CHECK:       @ %bb.0: @ %entry
 704 ; CHECK-NEXT:    vmsr p0, r1
 705 ; CHECK-NEXT:    vpst
 706 ; CHECK-NEXT:    vmlast.i8 q0, q1, r0
 707 ; CHECK-NEXT:    bx lr
 708 entry:
 709   %0 = zext i8 %c to i32
 710   %1 = zext i16 %p to i32
 711   %2 = tail call <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32 %1)
 712   %3 = tail call <16 x i8> @llvm.arm.mve.vmlas.n.predicated.v16i8.v16i1(<16 x i8> %a, <16 x i8> %b, i32 %0, <16 x i1> %2)
 713   ret <16 x i8> %3
 714 }
 715
 716 define arm_aapcs_vfpcc <8 x i16> @test_vmlasq_m_n_u16(<8 x i16> %a, <8 x i16> %b, i16 zeroext %c, i16 zeroext %p) {
 717 ; CHECK-LABEL: test_vmlasq_m_n_u16:
 718 ; CHECK:       @ %bb.0: @ %entry
 719 ; CHECK-NEXT:    vmsr p0, r1
 720 ; CHECK-NEXT:    vpst
 721 ; CHECK-NEXT:    vmlast.i16 q0, q1, r0
 722 ; CHECK-NEXT:    bx lr
 723 entry:
 724   %0 = zext i16 %c to i32
 725   %1 = zext i16 %p to i32
 726   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 727   %3 = tail call <8 x i16> @llvm.arm.mve.vmlas.n.predicated.v8i16.v8i1(<8 x i16> %a, <8 x i16> %b, i32 %0, <8 x i1> %2)
 728   ret <8 x i16> %3
 729 }
 730
 731 define arm_aapcs_vfpcc <4 x i32> @test_vmlasq_m_n_u32(<4 x i32> %a, <4 x i32> %b, i32 %c, i16 zeroext %p) {
 732 ; CHECK-LABEL: test_vmlasq_m_n_u32:
 733 ; CHECK:       @ %bb.0: @ %entry
 734 ; CHECK-NEXT:    vmsr p0, r1
 735 ; CHECK-NEXT:    vpst
 736 ; CHECK-NEXT:    vmlast.i32 q0, q1, r0
 737 ; CHECK-NEXT:    bx lr
 738 entry:
 739   %0 = zext i16 %p to i32
 740   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 741   %2 = tail call <4 x i32> @llvm.arm.mve.vmlas.n.predicated.v4i32.v4i1(<4 x i32> %a, <4 x i32> %b, i32 %c, <4 x i1> %1)
 742   ret <4 x i32> %2
 743 }
 744
 745 define arm_aapcs_vfpcc <16 x i8> @test_vqdmlahq_m_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c, i16 zeroext %p) {
 746 ; CHECK-LABEL: test_vqdmlahq_m_n_s8:
 747 ; CHECK:       @ %bb.0: @ %entry
 748 ; CHECK-NEXT:    vmsr p0, r1
 749 ; CHECK-NEXT:    vpst
 750 ; CHECK-NEXT:    vqdmlaht.s8 q0, q1, r0
 751 ; CHECK-NEXT:    bx lr
 752 entry:
 753   %0 = zext i8 %c to i32
 754   %1 = zext i16 %p to i32
 755   %2 = tail call <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32 %1)
 756   %3 = tail call <16 x i8> @llvm.arm.mve.vqdmlah.predicated.v16i8.v16i1(<16 x i8> %a, <16 x i8> %b, i32 %0, <16 x i1> %2)
 757   ret <16 x i8> %3
 758 }
 759
 760 define arm_aapcs_vfpcc <8 x i16> @test_vqdmlahq_m_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c, i16 zeroext %p) {
 761 ; CHECK-LABEL: test_vqdmlahq_m_n_s16:
 762 ; CHECK:       @ %bb.0: @ %entry
 763 ; CHECK-NEXT:    vmsr p0, r1
 764 ; CHECK-NEXT:    vpst
 765 ; CHECK-NEXT:    vqdmlaht.s16 q0, q1, r0
 766 ; CHECK-NEXT:    bx lr
 767 entry:
 768   %0 = zext i16 %c to i32
 769   %1 = zext i16 %p to i32
 770   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 771   %3 = tail call <8 x i16> @llvm.arm.mve.vqdmlah.predicated.v8i16.v8i1(<8 x i16> %a, <8 x i16> %b, i32 %0, <8 x i1> %2)
 772   ret <8 x i16> %3
 773 }
 774
 775 define arm_aapcs_vfpcc <4 x i32> @test_vqdmlahq_m_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c, i16 zeroext %p) {
 776 ; CHECK-LABEL: test_vqdmlahq_m_n_s32:
 777 ; CHECK:       @ %bb.0: @ %entry
 778 ; CHECK-NEXT:    vmsr p0, r1
 779 ; CHECK-NEXT:    vpst
 780 ; CHECK-NEXT:    vqdmlaht.s32 q0, q1, r0
 781 ; CHECK-NEXT:    bx lr
 782 entry:
 783   %0 = zext i16 %p to i32
 784   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 785   %2 = tail call <4 x i32> @llvm.arm.mve.vqdmlah.predicated.v4i32.v4i1(<4 x i32> %a, <4 x i32> %b, i32 %c, <4 x i1> %1)
 786   ret <4 x i32> %2
 787 }
 788
 789 define arm_aapcs_vfpcc <16 x i8> @test_vqdmlashq_m_n_s8(<16 x i8> %m1, <16 x i8> %m2, i8 signext %add, i16 zeroext %p) {
 790 ; CHECK-LABEL: test_vqdmlashq_m_n_s8:
 791 ; CHECK:       @ %bb.0: @ %entry
 792 ; CHECK-NEXT:    vmsr p0, r1
 793 ; CHECK-NEXT:    vpst
 794 ; CHECK-NEXT:    vqdmlasht.s8 q0, q1, r0
 795 ; CHECK-NEXT:    bx lr
 796 entry:
 797   %0 = zext i8 %add to i32
 798   %1 = zext i16 %p to i32
 799   %2 = tail call <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32 %1)
 800   %3 = tail call <16 x i8> @llvm.arm.mve.vqdmlash.predicated.v16i8.v16i1(<16 x i8> %m1, <16 x i8> %m2, i32 %0, <16 x i1> %2)
 801   ret <16 x i8> %3
 802 }
 803
 804 define arm_aapcs_vfpcc <8 x i16> @test_vqdmlashq_m_n_s16(<8 x i16> %m1, <8 x i16> %m2, i16 signext %add, i16 zeroext %p) {
 805 ; CHECK-LABEL: test_vqdmlashq_m_n_s16:
 806 ; CHECK:       @ %bb.0: @ %entry
 807 ; CHECK-NEXT:    vmsr p0, r1
 808 ; CHECK-NEXT:    vpst
 809 ; CHECK-NEXT:    vqdmlasht.s16 q0, q1, r0
 810 ; CHECK-NEXT:    bx lr
 811 entry:
 812   %0 = zext i16 %add to i32
 813   %1 = zext i16 %p to i32
 814   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 815   %3 = tail call <8 x i16> @llvm.arm.mve.vqdmlash.predicated.v8i16.v8i1(<8 x i16> %m1, <8 x i16> %m2, i32 %0, <8 x i1> %2)
 816   ret <8 x i16> %3
 817 }
 818
 819 define arm_aapcs_vfpcc <4 x i32> @test_vqdmlashq_m_n_s32(<4 x i32> %m1, <4 x i32> %m2, i32 %add, i16 zeroext %p) {
 820 ; CHECK-LABEL: test_vqdmlashq_m_n_s32:
 821 ; CHECK:       @ %bb.0: @ %entry
 822 ; CHECK-NEXT:    vmsr p0, r1
 823 ; CHECK-NEXT:    vpst
 824 ; CHECK-NEXT:    vqdmlasht.s32 q0, q1, r0
 825 ; CHECK-NEXT:    bx lr
 826 entry:
 827   %0 = zext i16 %p to i32
 828   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 829   %2 = tail call <4 x i32> @llvm.arm.mve.vqdmlash.predicated.v4i32.v4i1(<4 x i32> %m1, <4 x i32> %m2, i32 %add, <4 x i1> %1)
 830   ret <4 x i32> %2
 831 }
 832
 833 define arm_aapcs_vfpcc <16 x i8> @test_vqrdmlahq_m_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c, i16 zeroext %p) {
 834 ; CHECK-LABEL: test_vqrdmlahq_m_n_s8:
 835 ; CHECK:       @ %bb.0: @ %entry
 836 ; CHECK-NEXT:    vmsr p0, r1
 837 ; CHECK-NEXT:    vpst
 838 ; CHECK-NEXT:    vqrdmlaht.s8 q0, q1, r0
 839 ; CHECK-NEXT:    bx lr
 840 entry:
 841   %0 = zext i8 %c to i32
 842   %1 = zext i16 %p to i32
 843   %2 = tail call <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32 %1)
 844   %3 = tail call <16 x i8> @llvm.arm.mve.vqrdmlah.predicated.v16i8.v16i1(<16 x i8> %a, <16 x i8> %b, i32 %0, <16 x i1> %2)
 845   ret <16 x i8> %3
 846 }
 847
 848 define arm_aapcs_vfpcc <8 x i16> @test_vqrdmlahq_m_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c, i16 zeroext %p) {
 849 ; CHECK-LABEL: test_vqrdmlahq_m_n_s16:
 850 ; CHECK:       @ %bb.0: @ %entry
 851 ; CHECK-NEXT:    vmsr p0, r1
 852 ; CHECK-NEXT:    vpst
 853 ; CHECK-NEXT:    vqrdmlaht.s16 q0, q1, r0
 854 ; CHECK-NEXT:    bx lr
 855 entry:
 856   %0 = zext i16 %c to i32
 857   %1 = zext i16 %p to i32
 858   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 859   %3 = tail call <8 x i16> @llvm.arm.mve.vqrdmlah.predicated.v8i16.v8i1(<8 x i16> %a, <8 x i16> %b, i32 %0, <8 x i1> %2)
 860   ret <8 x i16> %3
 861 }
 862
 863 define arm_aapcs_vfpcc <4 x i32> @test_vqrdmlahq_m_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c, i16 zeroext %p) {
 864 ; CHECK-LABEL: test_vqrdmlahq_m_n_s32:
 865 ; CHECK:       @ %bb.0: @ %entry
 866 ; CHECK-NEXT:    vmsr p0, r1
 867 ; CHECK-NEXT:    vpst
 868 ; CHECK-NEXT:    vqrdmlaht.s32 q0, q1, r0
 869 ; CHECK-NEXT:    bx lr
 870 entry:
 871   %0 = zext i16 %p to i32
 872   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 873   %2 = tail call <4 x i32> @llvm.arm.mve.vqrdmlah.predicated.v4i32.v4i1(<4 x i32> %a, <4 x i32> %b, i32 %c, <4 x i1> %1)
 874   ret <4 x i32> %2
 875 }
 876
 877 define arm_aapcs_vfpcc <16 x i8> @test_vqrdmlashq_m_n_s8(<16 x i8> %a, <16 x i8> %b, i8 signext %c, i16 zeroext %p) {
 878 ; CHECK-LABEL: test_vqrdmlashq_m_n_s8:
 879 ; CHECK:       @ %bb.0: @ %entry
 880 ; CHECK-NEXT:    vmsr p0, r1
 881 ; CHECK-NEXT:    vpst
 882 ; CHECK-NEXT:    vqrdmlasht.s8 q0, q1, r0
 883 ; CHECK-NEXT:    bx lr
 884 entry:
 885   %0 = zext i8 %c to i32
 886   %1 = zext i16 %p to i32
 887   %2 = tail call <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32 %1)
 888   %3 = tail call <16 x i8> @llvm.arm.mve.vqrdmlash.predicated.v16i8.v16i1(<16 x i8> %a, <16 x i8> %b, i32 %0, <16 x i1> %2)
 889   ret <16 x i8> %3
 890 }
 891
 892 define arm_aapcs_vfpcc <8 x i16> @test_vqrdmlashq_m_n_s16(<8 x i16> %a, <8 x i16> %b, i16 signext %c, i16 zeroext %p) {
 893 ; CHECK-LABEL: test_vqrdmlashq_m_n_s16:
 894 ; CHECK:       @ %bb.0: @ %entry
 895 ; CHECK-NEXT:    vmsr p0, r1
 896 ; CHECK-NEXT:    vpst
 897 ; CHECK-NEXT:    vqrdmlasht.s16 q0, q1, r0
 898 ; CHECK-NEXT:    bx lr
 899 entry:
 900   %0 = zext i16 %c to i32
 901   %1 = zext i16 %p to i32
 902   %2 = tail call <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32 %1)
 903   %3 = tail call <8 x i16> @llvm.arm.mve.vqrdmlash.predicated.v8i16.v8i1(<8 x i16> %a, <8 x i16> %b, i32 %0, <8 x i1> %2)
 904   ret <8 x i16> %3
 905 }
 906
 907 define arm_aapcs_vfpcc <4 x i32> @test_vqrdmlashq_m_n_s32(<4 x i32> %a, <4 x i32> %b, i32 %c, i16 zeroext %p) {
 908 ; CHECK-LABEL: test_vqrdmlashq_m_n_s32:
 909 ; CHECK:       @ %bb.0: @ %entry
 910 ; CHECK-NEXT:    vmsr p0, r1
 911 ; CHECK-NEXT:    vpst
 912 ; CHECK-NEXT:    vqrdmlasht.s32 q0, q1, r0
 913 ; CHECK-NEXT:    bx lr
 914 entry:
 915   %0 = zext i16 %p to i32
 916   %1 = tail call <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32 %0)
 917   %2 = tail call <4 x i32> @llvm.arm.mve.vqrdmlash.predicated.v4i32.v4i1(<4 x i32> %a, <4 x i32> %b, i32 %c, <4 x i1> %1)
 918   ret <4 x i32> %2
 919 }
 920
 921 declare <16 x i1> @llvm.arm.mve.pred.i2v.v16i1(i32)
 922 declare <8 x i1> @llvm.arm.mve.pred.i2v.v8i1(i32)
 923 declare <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32)
 924
 925 declare <8 x half> @llvm.fma.v8f16(<8 x half>, <8 x half>, <8 x half>)
 926 declare <4 x float> @llvm.fma.v4f32(<4 x float>, <4 x float>, <4 x float>)
 927 declare <8 x half> @llvm.arm.mve.fma.predicated.v8f16.v8i1(<8 x half>, <8 x half>, <8 x half>, <8 x i1>)
 928 declare <4 x float> @llvm.arm.mve.fma.predicated.v4f32.v4i1(<4 x float>, <4 x float>, <4 x float>, <4 x i1>)
 929 declare <16 x i8> @llvm.arm.mve.vmla.n.predicated.v16i8.v16i1(<16 x i8>, <16 x i8>, i32, <16 x i1>)
 930 declare <8 x i16> @llvm.arm.mve.vmla.n.predicated.v8i16.v8i1(<8 x i16>, <8 x i16>, i32, <8 x i1>)
 931 declare <4 x i32> @llvm.arm.mve.vmla.n.predicated.v4i32.v4i1(<4 x i32>, <4 x i32>, i32, <4 x i1>)
 932 declare <16 x i8> @llvm.arm.mve.vmlas.n.predicated.v16i8.v16i1(<16 x i8>, <16 x i8>, i32, <16 x i1>)
 933 declare <8 x i16> @llvm.arm.mve.vmlas.n.predicated.v8i16.v8i1(<8 x i16>, <8 x i16>, i32, <8 x i1>)
 934 declare <4 x i32> @llvm.arm.mve.vmlas.n.predicated.v4i32.v4i1(<4 x i32>, <4 x i32>, i32, <4 x i1>)
 935 declare <16 x i8> @llvm.arm.mve.vqdmlah.v16i8(<16 x i8>, <16 x i8>, i32)
 936 declare <8 x i16> @llvm.arm.mve.vqdmlah.v8i16(<8 x i16>, <8 x i16>, i32)
 937 declare <4 x i32> @llvm.arm.mve.vqdmlah.v4i32(<4 x i32>, <4 x i32>, i32)
 938 declare <16 x i8> @llvm.arm.mve.vqdmlash.v16i8(<16 x i8>, <16 x i8>, i32)
 939 declare <8 x i16> @llvm.arm.mve.vqdmlash.v8i16(<8 x i16>, <8 x i16>, i32)
 940 declare <4 x i32> @llvm.arm.mve.vqdmlash.v4i32(<4 x i32>, <4 x i32>, i32)
 941 declare <16 x i8> @llvm.arm.mve.vqrdmlah.v16i8(<16 x i8>, <16 x i8>, i32)
 942 declare <8 x i16> @llvm.arm.mve.vqrdmlah.v8i16(<8 x i16>, <8 x i16>, i32)
 943 declare <4 x i32> @llvm.arm.mve.vqrdmlah.v4i32(<4 x i32>, <4 x i32>, i32)
 944 declare <16 x i8> @llvm.arm.mve.vqrdmlash.v16i8(<16 x i8>, <16 x i8>, i32)
 945 declare <8 x i16> @llvm.arm.mve.vqrdmlash.v8i16(<8 x i16>, <8 x i16>, i32)
 946 declare <4 x i32> @llvm.arm.mve.vqrdmlash.v4i32(<4 x i32>, <4 x i32>, i32)
 947 declare <16 x i8> @llvm.arm.mve.vqdmlah.predicated.v16i8.v16i1(<16 x i8>, <16 x i8>, i32, <16 x i1>)
 948 declare <8 x i16> @llvm.arm.mve.vqdmlah.predicated.v8i16.v8i1(<8 x i16>, <8 x i16>, i32, <8 x i1>)
 949 declare <4 x i32> @llvm.arm.mve.vqdmlah.predicated.v4i32.v4i1(<4 x i32>, <4 x i32>, i32, <4 x i1>)
 950 declare <16 x i8> @llvm.arm.mve.vqdmlash.predicated.v16i8.v16i1(<16 x i8>, <16 x i8>, i32, <16 x i1>)
 951 declare <8 x i16> @llvm.arm.mve.vqdmlash.predicated.v8i16.v8i1(<8 x i16>, <8 x i16>, i32, <8 x i1>)
 952 declare <4 x i32> @llvm.arm.mve.vqdmlash.predicated.v4i32.v4i1(<4 x i32>, <4 x i32>, i32, <4 x i1>)
 953 declare <16 x i8> @llvm.arm.mve.vqrdmlah.predicated.v16i8.v16i1(<16 x i8>, <16 x i8>, i32, <16 x i1>)
 954 declare <8 x i16> @llvm.arm.mve.vqrdmlah.predicated.v8i16.v8i1(<8 x i16>, <8 x i16>, i32, <8 x i1>)
 955 declare <4 x i32> @llvm.arm.mve.vqrdmlah.predicated.v4i32.v4i1(<4 x i32>, <4 x i32>, i32, <4 x i1>)
 956 declare <16 x i8> @llvm.arm.mve.vqrdmlash.predicated.v16i8.v16i1(<16 x i8>, <16 x i8>, i32, <16 x i1>)
 957 declare <8 x i16> @llvm.arm.mve.vqrdmlash.predicated.v8i16.v8i1(<8 x i16>, <8 x i16>, i32, <8 x i1>)
 958 declare <4 x i32> @llvm.arm.mve.vqrdmlash.predicated.v4i32.v4i1(<4 x i32>, <4 x i32>, i32, <4 x i1>)