Run DCE after a LoopFlatten test to reduce spurious output [nfc]
[llvm-project.git] / llvm / test / CodeGen / X86 / vector-width-store-merge.ll
blob50c7b018c0783350d4dbaed4fb44db568a1688d1
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -mtriple=x86_64-- -mcpu=skylake| FileCheck %s --check-prefixes=CHECK,PREFER256
3 ; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mcpu=sandybridge| FileCheck %s --check-prefixes=CHECK,LIGHT256
4 ; RUN: llc < %s -mtriple=x86_64-- -mcpu=znver1| FileCheck %s --check-prefixes=CHECK,PREFER256
6 ; This tests whether or not we generate vectors large than preferred vector width when
7 ; lowering memmove.
9 ; Function Attrs: nounwind uwtable
10 define weak_odr dso_local void @A(ptr %src, ptr %dst) local_unnamed_addr #0 {
11 ; PREFER256-LABEL: A:
12 ; PREFER256:       # %bb.0: # %entry
13 ; PREFER256-NEXT:    vmovups (%rdi), %ymm0
14 ; PREFER256-NEXT:    vmovups %ymm0, (%rsi)
15 ; PREFER256-NEXT:    vzeroupper
16 ; PREFER256-NEXT:    retq
18 ; LIGHT256-LABEL: A:
19 ; LIGHT256:       # %bb.0: # %entry
20 ; LIGHT256-NEXT:    vmovups (%rdi), %xmm0
21 ; LIGHT256-NEXT:    vmovups 16(%rdi), %xmm1
22 ; LIGHT256-NEXT:    vmovups %xmm1, 16(%rsi)
23 ; LIGHT256-NEXT:    vmovups %xmm0, (%rsi)
24 ; LIGHT256-NEXT:    retq
25 entry:
26   call void @llvm.memmove.p0.p0.i64(ptr align 1 %dst, ptr align 1 %src, i64 32, i1 false)
27   ret void
30 ; Function Attrs: nounwind uwtable
31 define weak_odr dso_local void @B(ptr %src, ptr %dst) local_unnamed_addr #0 {
32 ; PREFER256-LABEL: B:
33 ; PREFER256:       # %bb.0: # %entry
34 ; PREFER256-NEXT:    vmovups (%rdi), %ymm0
35 ; PREFER256-NEXT:    vmovups 32(%rdi), %ymm1
36 ; PREFER256-NEXT:    vmovups %ymm1, 32(%rsi)
37 ; PREFER256-NEXT:    vmovups %ymm0, (%rsi)
38 ; PREFER256-NEXT:    vzeroupper
39 ; PREFER256-NEXT:    retq
41 ; LIGHT256-LABEL: B:
42 ; LIGHT256:       # %bb.0: # %entry
43 ; LIGHT256-NEXT:    vmovups (%rdi), %xmm0
44 ; LIGHT256-NEXT:    vmovups 16(%rdi), %xmm1
45 ; LIGHT256-NEXT:    vmovups 32(%rdi), %xmm2
46 ; LIGHT256-NEXT:    vmovups 48(%rdi), %xmm3
47 ; LIGHT256-NEXT:    vmovups %xmm3, 48(%rsi)
48 ; LIGHT256-NEXT:    vmovups %xmm2, 32(%rsi)
49 ; LIGHT256-NEXT:    vmovups %xmm1, 16(%rsi)
50 ; LIGHT256-NEXT:    vmovups %xmm0, (%rsi)
51 ; LIGHT256-NEXT:    retq
52 entry:
53   call void @llvm.memmove.p0.p0.i64(ptr align 1 %dst, ptr align 1 %src, i64 64, i1 false)
54   ret void
57 ; Function Attrs: nounwind uwtable
58 define weak_odr dso_local void @C(ptr %src, ptr %dst) local_unnamed_addr #2 {
59 ; CHECK-LABEL: C:
60 ; CHECK:       # %bb.0: # %entry
61 ; CHECK-NEXT:    vmovups (%rdi), %ymm0
62 ; CHECK-NEXT:    vmovups %ymm0, (%rsi)
63 ; CHECK-NEXT:    vzeroupper
64 ; CHECK-NEXT:    retq
65 entry:
66   call void @llvm.memmove.p0.p0.i64(ptr align 1 %dst, ptr align 1 %src, i64 32, i1 false)
67   ret void
70 ; Function Attrs: nounwind uwtable
71 define weak_odr dso_local void @D(ptr %src, ptr %dst) local_unnamed_addr #2 {
72 ; CHECK-LABEL: D:
73 ; CHECK:       # %bb.0: # %entry
74 ; CHECK-NEXT:    vmovups (%rdi), %ymm0
75 ; CHECK-NEXT:    vmovups 32(%rdi), %ymm1
76 ; CHECK-NEXT:    vmovups %ymm1, 32(%rsi)
77 ; CHECK-NEXT:    vmovups %ymm0, (%rsi)
78 ; CHECK-NEXT:    vzeroupper
79 ; CHECK-NEXT:    retq
80 entry:
81   call void @llvm.memmove.p0.p0.i64(ptr align 1 %dst, ptr align 1 %src, i64 64, i1 false)
82   ret void
85 ; Function Attrs: argmemonly nounwind
86 declare void @llvm.memmove.p0.p0.i64(ptr nocapture, ptr nocapture readonly, i64, i1 immarg) #1
88 attributes #0 = { nounwind uwtable "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "frame-pointer"="none" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "prefer-vector-width"="128" "stack-protector-buffer-size"="8" "target-features"="+adx,+aes,+avx,+avx2,+avx512bw,+avx512cd,+avx512dq,+avx512f,+avx512vl,+bmi,+bmi2,+clflushopt,+clwb,+cx16,+cx8,+f16c,+fma,+fsgsbase,+fxsr,+invpcid,+lzcnt,+mmx,+movbe,+pclmul,+pku,+popcnt,+prfchw,+rdrnd,+rdseed,+sahf,+sse,+sse2,+sse3,+sse4.1,+sse4.2,+ssse3,+x87,+xsave,+xsavec,+xsaveopt,+xsaves" "unsafe-fp-math"="false" "use-soft-float"="false" }
89 attributes #1 = { argmemonly nounwind }
90 attributes #2 = { nounwind uwtable "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "frame-pointer"="none" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "prefer-vector-width"="256" "stack-protector-buffer-size"="8" "target-cpu"="skylake-avx512" "target-features"="+adx,+aes,+avx,+avx2,+avx512bw,+avx512cd,+avx512dq,+avx512f,+avx512vl,+bmi,+bmi2,+clflushopt,+clwb,+cx16,+cx8,+f16c,+fma,+fsgsbase,+fxsr,+invpcid,+lzcnt,+mmx,+movbe,+pclmul,+pku,+popcnt,+prfchw,+rdrnd,+rdseed,+sahf,+sse,+sse2,+sse3,+sse4.1,+sse4.2,+ssse3,+x87,+xsave,+xsavec,+xsaveopt,+xsaves" "unsafe-fp-math"="false" "use-soft-float"="false" }
92 !0 = !{i32 1, !"wchar_size", i32 4}