test/CodeGen/X86/combine-sse41-intrinsics.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=sse4.1 | FileCheck %s
   3
   4
   5 define <2 x double> @test_x86_sse41_blend_pd(<2 x double> %a0, <2 x double> %a1) {
   6 ; CHECK-LABEL: test_x86_sse41_blend_pd:
   7 ; CHECK:       # %bb.0:
   8 ; CHECK-NEXT:    retq
   9   %1 = call <2 x double> @llvm.x86.sse41.blendpd(<2 x double> %a0, <2 x double> %a1, i32 0)
  10   ret <2 x double> %1
  11 }
  12
  13 define <4 x float> @test_x86_sse41_blend_ps(<4 x float> %a0, <4 x float> %a1) {
  14 ; CHECK-LABEL: test_x86_sse41_blend_ps:
  15 ; CHECK:       # %bb.0:
  16 ; CHECK-NEXT:    retq
  17   %1 = call <4 x float> @llvm.x86.sse41.blendps(<4 x float> %a0, <4 x float> %a1, i32 0)
  18   ret <4 x float> %1
  19 }
  20
  21 define <8 x i16> @test_x86_sse41_pblend_w(<8 x i16> %a0, <8 x i16> %a1) {
  22 ; CHECK-LABEL: test_x86_sse41_pblend_w:
  23 ; CHECK:       # %bb.0:
  24 ; CHECK-NEXT:    retq
  25   %1 = call <8 x i16> @llvm.x86.sse41.pblendw(<8 x i16> %a0, <8 x i16> %a1, i32 0)
  26   ret <8 x i16> %1
  27 }
  28
  29 define <2 x double> @test2_x86_sse41_blend_pd(<2 x double> %a0, <2 x double> %a1) {
  30 ; CHECK-LABEL: test2_x86_sse41_blend_pd:
  31 ; CHECK:       # %bb.0:
  32 ; CHECK-NEXT:    movaps %xmm1, %xmm0
  33 ; CHECK-NEXT:    retq
  34   %1 = call <2 x double> @llvm.x86.sse41.blendpd(<2 x double> %a0, <2 x double> %a1, i32 -1)
  35   ret <2 x double> %1
  36 }
  37
  38 define <4 x float> @test2_x86_sse41_blend_ps(<4 x float> %a0, <4 x float> %a1) {
  39 ; CHECK-LABEL: test2_x86_sse41_blend_ps:
  40 ; CHECK:       # %bb.0:
  41 ; CHECK-NEXT:    movaps %xmm1, %xmm0
  42 ; CHECK-NEXT:    retq
  43   %1 = call <4 x float> @llvm.x86.sse41.blendps(<4 x float> %a0, <4 x float> %a1, i32 -1)
  44   ret <4 x float> %1
  45 }
  46
  47 define <8 x i16> @test2_x86_sse41_pblend_w(<8 x i16> %a0, <8 x i16> %a1) {
  48 ; CHECK-LABEL: test2_x86_sse41_pblend_w:
  49 ; CHECK:       # %bb.0:
  50 ; CHECK-NEXT:    movaps %xmm1, %xmm0
  51 ; CHECK-NEXT:    retq
  52   %1 = call <8 x i16> @llvm.x86.sse41.pblendw(<8 x i16> %a0, <8 x i16> %a1, i32 -1)
  53   ret <8 x i16> %1
  54 }
  55
  56 define <2 x double> @test3_x86_sse41_blend_pd(<2 x double> %a0) {
  57 ; CHECK-LABEL: test3_x86_sse41_blend_pd:
  58 ; CHECK:       # %bb.0:
  59 ; CHECK-NEXT:    retq
  60   %1 = call <2 x double> @llvm.x86.sse41.blendpd(<2 x double> %a0, <2 x double> %a0, i32 7)
  61   ret <2 x double> %1
  62 }
  63
  64 define <4 x float> @test3_x86_sse41_blend_ps(<4 x float> %a0) {
  65 ; CHECK-LABEL: test3_x86_sse41_blend_ps:
  66 ; CHECK:       # %bb.0:
  67 ; CHECK-NEXT:    retq
  68   %1 = call <4 x float> @llvm.x86.sse41.blendps(<4 x float> %a0, <4 x float> %a0, i32 7)
  69   ret <4 x float> %1
  70 }
  71
  72 define <8 x i16> @test3_x86_sse41_pblend_w(<8 x i16> %a0) {
  73 ; CHECK-LABEL: test3_x86_sse41_pblend_w:
  74 ; CHECK:       # %bb.0:
  75 ; CHECK-NEXT:    retq
  76   %1 = call <8 x i16> @llvm.x86.sse41.pblendw(<8 x i16> %a0, <8 x i16> %a0, i32 7)
  77   ret <8 x i16> %1
  78 }
  79
  80 define double @demandedelts_blendvpd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) {
  81 ; CHECK-LABEL: demandedelts_blendvpd:
  82 ; CHECK:       # %bb.0:
  83 ; CHECK-NEXT:    movapd %xmm0, %xmm3
  84 ; CHECK-NEXT:    movaps %xmm2, %xmm0
  85 ; CHECK-NEXT:    blendvpd %xmm0, %xmm1, %xmm3
  86 ; CHECK-NEXT:    movapd %xmm3, %xmm0
  87 ; CHECK-NEXT:    retq
  88   %1 = shufflevector <2 x double> %a0, <2 x double> undef, <2 x i32> zeroinitializer
  89   %2 = shufflevector <2 x double> %a1, <2 x double> undef, <2 x i32> zeroinitializer
  90   %3 = shufflevector <2 x double> %a2, <2 x double> undef, <2 x i32> zeroinitializer
  91   %4 = tail call <2 x double> @llvm.x86.sse41.blendvpd(<2 x double> %1, <2 x double> %2, <2 x double> %3)
  92   %5 = extractelement <2 x double> %4, i32 0
  93   ret double %5
  94 }
  95
  96 define float @demandedelts_blendvps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
  97 ; CHECK-LABEL: demandedelts_blendvps:
  98 ; CHECK:       # %bb.0:
  99 ; CHECK-NEXT:    movaps %xmm0, %xmm3
 100 ; CHECK-NEXT:    movaps %xmm2, %xmm0
 101 ; CHECK-NEXT:    blendvps %xmm0, %xmm1, %xmm3
 102 ; CHECK-NEXT:    movaps %xmm3, %xmm0
 103 ; CHECK-NEXT:    retq
 104   %1 = shufflevector <4 x float> %a0, <4 x float> undef, <4 x i32> zeroinitializer
 105   %2 = shufflevector <4 x float> %a1, <4 x float> undef, <4 x i32> zeroinitializer
 106   %3 = shufflevector <4 x float> %a2, <4 x float> undef, <4 x i32> zeroinitializer
 107   %4 = tail call <4 x float> @llvm.x86.sse41.blendvps(<4 x float> %1, <4 x float> %2, <4 x float> %3)
 108   %5 = extractelement <4 x float> %4, i32 0
 109   ret float %5
 110 }
 111
 112 define <16 x i8> @demandedelts_pblendvb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> %a2) {
 113 ; CHECK-LABEL: demandedelts_pblendvb:
 114 ; CHECK:       # %bb.0:
 115 ; CHECK-NEXT:    movdqa %xmm0, %xmm3
 116 ; CHECK-NEXT:    movdqa %xmm2, %xmm0
 117 ; CHECK-NEXT:    pblendvb %xmm0, %xmm1, %xmm3
 118 ; CHECK-NEXT:    pxor %xmm0, %xmm0
 119 ; CHECK-NEXT:    pshufb %xmm0, %xmm3
 120 ; CHECK-NEXT:    movdqa %xmm3, %xmm0
 121 ; CHECK-NEXT:    retq
 122   %1 = shufflevector <16 x i8> %a0, <16 x i8> undef, <16 x i32> zeroinitializer
 123   %2 = shufflevector <16 x i8> %a1, <16 x i8> undef, <16 x i32> zeroinitializer
 124   %3 = shufflevector <16 x i8> %a2, <16 x i8> undef, <16 x i32> zeroinitializer
 125   %4 = tail call <16 x i8> @llvm.x86.sse41.pblendvb(<16 x i8> %1, <16 x i8> %2, <16 x i8> %3)
 126   %5 = shufflevector <16 x i8> %4, <16 x i8> undef, <16 x i32> zeroinitializer
 127   ret <16 x i8> %5
 128 }
 129
 130 define <2 x i64> @demandedbits_blendvpd(i64 %a0, i64 %a2, <2 x double> %a3) {
 131 ; CHECK-LABEL: demandedbits_blendvpd:
 132 ; CHECK:       # %bb.0:
 133 ; CHECK-NEXT:    movq %rdi, %rax
 134 ; CHECK-NEXT:    orq $1, %rax
 135 ; CHECK-NEXT:    orq $4, %rdi
 136 ; CHECK-NEXT:    movq %rax, %xmm1
 137 ; CHECK-NEXT:    movq %rdi, %xmm2
 138 ; CHECK-NEXT:    movq {{.*#+}} xmm1 = xmm1[0],zero
 139 ; CHECK-NEXT:    movq {{.*#+}} xmm2 = xmm2[0],zero
 140 ; CHECK-NEXT:    blendvpd %xmm0, %xmm2, %xmm1
 141 ; CHECK-NEXT:    psrlq $11, %xmm1
 142 ; CHECK-NEXT:    movdqa %xmm1, %xmm0
 143 ; CHECK-NEXT:    retq
 144   %1  = or i64 %a0, 1
 145   %2  = or i64 %a0, 4
 146   %3  = bitcast i64 %1 to double
 147   %4  = bitcast i64 %2 to double
 148   %5  = insertelement <2 x double> zeroinitializer, double %3, i32 0
 149   %6  = insertelement <2 x double> zeroinitializer, double %4, i32 0
 150   %7  = tail call <2 x double> @llvm.x86.sse41.blendvpd(<2 x double> %5, <2 x double> %6, <2 x double> %a3)
 151   %8  = bitcast <2 x double> %7 to <2 x i64>
 152   %9  = lshr <2 x i64> %8, <i64 11, i64 11>
 153   ret <2 x i64> %9
 154 }
 155
 156 define <16 x i8> @xor_pblendvb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> %a2) {
 157 ; CHECK-LABEL: xor_pblendvb:
 158 ; CHECK:       # %bb.0:
 159 ; CHECK-NEXT:    movdqa %xmm0, %xmm3
 160 ; CHECK-NEXT:    movaps %xmm2, %xmm0
 161 ; CHECK-NEXT:    pblendvb %xmm0, %xmm3, %xmm1
 162 ; CHECK-NEXT:    movdqa %xmm1, %xmm0
 163 ; CHECK-NEXT:    retq
 164   %1 = xor <16 x i8> %a2, <i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>
 165   %2 = tail call <16 x i8> @llvm.x86.sse41.pblendvb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> %1)
 166   ret <16 x i8> %2
 167 }
 168
 169 define <4 x float> @xor_blendvps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) {
 170 ; CHECK-LABEL: xor_blendvps:
 171 ; CHECK:       # %bb.0:
 172 ; CHECK-NEXT:    movaps %xmm0, %xmm3
 173 ; CHECK-NEXT:    movaps %xmm2, %xmm0
 174 ; CHECK-NEXT:    blendvps %xmm0, %xmm3, %xmm1
 175 ; CHECK-NEXT:    movaps %xmm1, %xmm0
 176 ; CHECK-NEXT:    retq
 177   %1 = bitcast <4 x float> %a2 to <4 x i32>
 178   %2 = xor <4 x i32> %1, <i32 -1, i32 -1, i32 -1, i32 -1>
 179   %3 = bitcast <4 x i32> %2 to <4 x float>
 180   %4 = tail call <4 x float> @llvm.x86.sse41.blendvps(<4 x float> %a0, <4 x float> %a1, <4 x float> %3)
 181   ret <4 x float> %4
 182 }
 183
 184 define <2 x double> @xor_blendvpd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) {
 185 ; CHECK-LABEL: xor_blendvpd:
 186 ; CHECK:       # %bb.0:
 187 ; CHECK-NEXT:    movapd %xmm0, %xmm3
 188 ; CHECK-NEXT:    movaps %xmm2, %xmm0
 189 ; CHECK-NEXT:    blendvpd %xmm0, %xmm3, %xmm1
 190 ; CHECK-NEXT:    movapd %xmm1, %xmm0
 191 ; CHECK-NEXT:    retq
 192   %1 = bitcast <2 x double> %a2 to <4 x i32>
 193   %2 = xor <4 x i32> %1, <i32 -1, i32 -1, i32 -1, i32 -1>
 194   %3 = bitcast <4 x i32> %2 to <2 x double>
 195   %4 = tail call <2 x double> @llvm.x86.sse41.blendvpd(<2 x double> %a0, <2 x double> %a1, <2 x double> %3)
 196   ret <2 x double> %4
 197 }
 198
 199 declare <2 x double> @llvm.x86.sse41.blendpd(<2 x double>, <2 x double>, i32)
 200 declare <4 x float> @llvm.x86.sse41.blendps(<4 x float>, <4 x float>, i32)
 201 declare <8 x i16> @llvm.x86.sse41.pblendw(<8 x i16>, <8 x i16>, i32)
 202
 203 declare <2 x double> @llvm.x86.sse41.blendvpd(<2 x double>, <2 x double>, <2 x double>)
 204 declare <4 x float> @llvm.x86.sse41.blendvps(<4 x float>, <4 x float>, <4 x float>)
 205 declare <16 x i8> @llvm.x86.sse41.pblendvb(<16 x i8>, <16 x i8>, <16 x i8>)