llvm/test/CodeGen/PowerPC/loop-p10-pair-prepare.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc -ppc-asm-full-reg-names -verify-machineinstrs -disable-lsr \
   3 ; RUN:   -mtriple=powerpc64le-unknown-linux-gnu -mcpu=pwr10 < %s | FileCheck %s
   4 ; RUN: llc -ppc-asm-full-reg-names -verify-machineinstrs -disable-lsr \
   5 ; RUN:   -mtriple=powerpc64-unknown-linux-gnu -mcpu=pwr10 < %s | FileCheck %s \
   6 ; RUN:   --check-prefix=CHECK-BE
   7
   8 ; This test checks the PPCLoopInstrFormPrep pass supports the lxvp and stxvp
   9 ; intrinsics so we generate more dq-form instructions instead of x-forms.
  10
  11 %_elem_type_of_x = type <{ double }>
  12 %_elem_type_of_y = type <{ double }>
  13
  14 define void @foo(ptr %.n, ptr %.x, ptr %.y, ptr %.sum) {
  15 ; CHECK-LABEL: foo:
  16 ; CHECK:       # %bb.0: # %entry
  17 ; CHECK-NEXT:    ld r5, 0(r3)
  18 ; CHECK-NEXT:    cmpdi r5, 0
  19 ; CHECK-NEXT:    blelr cr0
  20 ; CHECK-NEXT:  # %bb.1: # %_loop_1_do_.lr.ph
  21 ; CHECK-NEXT:    addi r3, r4, 1
  22 ; CHECK-NEXT:    addi r4, r5, -1
  23 ; CHECK-NEXT:    lxv vs0, 0(r6)
  24 ; CHECK-NEXT:    rldicl r4, r4, 60, 4
  25 ; CHECK-NEXT:    addi r4, r4, 1
  26 ; CHECK-NEXT:    mtctr r4
  27 ; CHECK-NEXT:    .p2align 5
  28 ; CHECK-NEXT:  .LBB0_2: # %_loop_1_do_
  29 ; CHECK-NEXT:    #
  30 ; CHECK-NEXT:    lxvp vsp34, 0(r3)
  31 ; CHECK-NEXT:    lxvp vsp36, 32(r3)
  32 ; CHECK-NEXT:    addi r3, r3, 128
  33 ; CHECK-NEXT:    xvadddp vs0, vs0, vs35
  34 ; CHECK-NEXT:    xvadddp vs0, vs0, vs34
  35 ; CHECK-NEXT:    xvadddp vs0, vs0, vs37
  36 ; CHECK-NEXT:    xvadddp vs0, vs0, vs36
  37 ; CHECK-NEXT:    bdnz .LBB0_2
  38 ; CHECK-NEXT:  # %bb.3: # %_loop_1_loopHeader_._return_bb_crit_edge
  39 ; CHECK-NEXT:    stxv vs0, 0(r6)
  40 ; CHECK-NEXT:    blr
  41 ;
  42 ; CHECK-BE-LABEL: foo:
  43 ; CHECK-BE:       # %bb.0: # %entry
  44 ; CHECK-BE-NEXT:    ld r5, 0(r3)
  45 ; CHECK-BE-NEXT:    cmpdi r5, 0
  46 ; CHECK-BE-NEXT:    blelr cr0
  47 ; CHECK-BE-NEXT:  # %bb.1: # %_loop_1_do_.lr.ph
  48 ; CHECK-BE-NEXT:    addi r3, r4, 1
  49 ; CHECK-BE-NEXT:    addi r4, r5, -1
  50 ; CHECK-BE-NEXT:    lxv vs0, 0(r6)
  51 ; CHECK-BE-NEXT:    rldicl r4, r4, 60, 4
  52 ; CHECK-BE-NEXT:    addi r4, r4, 1
  53 ; CHECK-BE-NEXT:    mtctr r4
  54 ; CHECK-BE-NEXT:    .p2align 5
  55 ; CHECK-BE-NEXT:  .LBB0_2: # %_loop_1_do_
  56 ; CHECK-BE-NEXT:    #
  57 ; CHECK-BE-NEXT:    lxvp vsp34, 0(r3)
  58 ; CHECK-BE-NEXT:    lxvp vsp36, 32(r3)
  59 ; CHECK-BE-NEXT:    addi r3, r3, 128
  60 ; CHECK-BE-NEXT:    xvadddp vs0, vs0, vs34
  61 ; CHECK-BE-NEXT:    xvadddp vs0, vs0, vs35
  62 ; CHECK-BE-NEXT:    xvadddp vs0, vs0, vs36
  63 ; CHECK-BE-NEXT:    xvadddp vs0, vs0, vs37
  64 ; CHECK-BE-NEXT:    bdnz .LBB0_2
  65 ; CHECK-BE-NEXT:  # %bb.3: # %_loop_1_loopHeader_._return_bb_crit_edge
  66 ; CHECK-BE-NEXT:    stxv vs0, 0(r6)
  67 ; CHECK-BE-NEXT:    blr
  68 entry:
  69   %_val_n_2 = load i64, ptr %.n, align 8
  70   %_grt_tmp7 = icmp slt i64 %_val_n_2, 1
  71   br i1 %_grt_tmp7, label %_return_bb, label %_loop_1_do_.lr.ph
  72
  73 _loop_1_do_.lr.ph:                                ; preds = %entry
  74   %x_rvo_based_addr_5 = getelementptr inbounds [0 x %_elem_type_of_x], ptr %.x, i64 0, i64 -1
  75   %.sum.promoted = load <2 x double>, ptr %.sum, align 16
  76   br label %_loop_1_do_
  77
  78 _loop_1_do_:                                      ; preds = %_loop_1_do_.lr.ph, %_loop_1_do_
  79   %_val_sum_9 = phi <2 x double> [ %.sum.promoted, %_loop_1_do_.lr.ph ], [ %_add_tmp49, %_loop_1_do_ ]
  80   %i.08 = phi i64 [ 1, %_loop_1_do_.lr.ph ], [ %_loop_1_update_loop_ix, %_loop_1_do_ ]
  81   %x_ix_dim_0_6 = getelementptr %_elem_type_of_x, ptr %x_rvo_based_addr_5, i64 %i.08
  82   %0 = getelementptr i8, ptr %x_ix_dim_0_6, i64 1
  83   %1 = tail call <256 x i1> @llvm.ppc.vsx.lxvp(ptr %0)
  84   %2 = tail call { <16 x i8>, <16 x i8> } @llvm.ppc.vsx.disassemble.pair(<256 x i1> %1)
  85   %.fca.0.extract1 = extractvalue { <16 x i8>, <16 x i8> } %2, 0
  86   %.fca.1.extract2 = extractvalue { <16 x i8>, <16 x i8> } %2, 1
  87   %3 = getelementptr i8, ptr %x_ix_dim_0_6, i64 33
  88   %4 = tail call <256 x i1> @llvm.ppc.vsx.lxvp(ptr %3)
  89   %5 = tail call { <16 x i8>, <16 x i8> } @llvm.ppc.vsx.disassemble.pair(<256 x i1> %4)
  90   %.fca.0.extract = extractvalue { <16 x i8>, <16 x i8> } %5, 0
  91   %.fca.1.extract = extractvalue { <16 x i8>, <16 x i8> } %5, 1
  92   %6 = bitcast <16 x i8> %.fca.0.extract1 to <2 x double>
  93   %_add_tmp23 = fadd contract <2 x double> %_val_sum_9, %6
  94   %7 = bitcast <16 x i8> %.fca.1.extract2 to <2 x double>
  95   %_add_tmp32 = fadd contract <2 x double> %_add_tmp23, %7
  96   %8 = bitcast <16 x i8> %.fca.0.extract to <2 x double>
  97   %_add_tmp40 = fadd contract <2 x double> %_add_tmp32, %8
  98   %9 = bitcast <16 x i8> %.fca.1.extract to <2 x double>
  99   %_add_tmp49 = fadd contract <2 x double> %_add_tmp40, %9
 100   %_loop_1_update_loop_ix = add nuw nsw i64 %i.08, 16
 101   %_grt_tmp = icmp sgt i64 %_loop_1_update_loop_ix, %_val_n_2
 102   br i1 %_grt_tmp, label %_loop_1_loopHeader_._return_bb_crit_edge, label %_loop_1_do_
 103
 104 _loop_1_loopHeader_._return_bb_crit_edge:         ; preds = %_loop_1_do_
 105   store <2 x double> %_add_tmp49, ptr %.sum, align 16
 106   br label %_return_bb
 107
 108 _return_bb:                                       ; preds = %_loop_1_loopHeader_._return_bb_crit_edge, %entry
 109   ret void
 110 }
 111
 112 declare <256 x i1> @llvm.ppc.vsx.lxvp(ptr)
 113 declare { <16 x i8>, <16 x i8> } @llvm.ppc.vsx.disassemble.pair(<256 x i1>)