Merge branch 'x86-urgent-for-linus' of git://git.kernel.org/pub/scm/linux/kernel...
[cris-mirror.git] / arch / sparc / lib / NG4memset.S
blobf81ee5419e2c3f9cf0fdb9e1dcbd9cbd93bc30e9
1 /* SPDX-License-Identifier: GPL-2.0 */
2 /* NG4memset.S: Niagara-4 optimized memset/bzero.
3  *
4  * Copyright (C) 2012 David S. Miller (davem@davemloft.net)
5  */
7 #include <asm/asi.h>
9         .register       %g2, #scratch
10         .register       %g3, #scratch
12         .text
13         .align          32
14         .globl          NG4memset
15 NG4memset:
16         andcc           %o1, 0xff, %o4
17         be,pt           %icc, 1f
18          mov            %o2, %o1
19         sllx            %o4, 8, %g1
20         or              %g1, %o4, %o2
21         sllx            %o2, 16, %g1
22         or              %g1, %o2, %o2
23         sllx            %o2, 32, %g1
24         ba,pt           %icc, 1f
25          or             %g1, %o2, %o4
26         .size           NG4memset,.-NG4memset
28         .align          32
29         .globl          NG4bzero
30 NG4bzero:
31         clr             %o4
32 1:      cmp             %o1, 16
33         ble             %icc, .Ltiny
34          mov            %o0, %o3
35         sub             %g0, %o0, %g1
36         and             %g1, 0x7, %g1
37         brz,pt          %g1, .Laligned8
38          sub            %o1, %g1, %o1
39 1:      stb             %o4, [%o0 + 0x00]
40         subcc           %g1, 1, %g1
41         bne,pt          %icc, 1b
42          add            %o0, 1, %o0
43 .Laligned8:
44         cmp             %o1, 64 + (64 - 8)
45         ble             .Lmedium
46          sub            %g0, %o0, %g1
47         andcc           %g1, (64 - 1), %g1
48         brz,pn          %g1, .Laligned64
49          sub            %o1, %g1, %o1
50 1:      stx             %o4, [%o0 + 0x00]
51         subcc           %g1, 8, %g1
52         bne,pt          %icc, 1b
53          add            %o0, 0x8, %o0
54 .Laligned64:
55         andn            %o1, 64 - 1, %g1
56         sub             %o1, %g1, %o1
57         brnz,pn         %o4, .Lnon_bzero_loop
58          mov            0x20, %g2
59 1:      stxa            %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P
60         subcc           %g1, 0x40, %g1
61         stxa            %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P
62         bne,pt          %icc, 1b
63          add            %o0, 0x40, %o0
64 .Lpostloop:
65         cmp             %o1, 8
66         bl,pn           %icc, .Ltiny
67          membar         #StoreStore|#StoreLoad
68 .Lmedium:
69         andn            %o1, 0x7, %g1
70         sub             %o1, %g1, %o1
71 1:      stx             %o4, [%o0 + 0x00]
72         subcc           %g1, 0x8, %g1
73         bne,pt          %icc, 1b
74          add            %o0, 0x08, %o0
75         andcc           %o1, 0x4, %g1
76         be,pt           %icc, .Ltiny
77          sub            %o1, %g1, %o1
78         stw             %o4, [%o0 + 0x00]
79         add             %o0, 0x4, %o0
80 .Ltiny:
81         cmp             %o1, 0
82         be,pn           %icc, .Lexit
83 1:       subcc          %o1, 1, %o1
84         stb             %o4, [%o0 + 0x00]
85         bne,pt          %icc, 1b
86          add            %o0, 1, %o0
87 .Lexit:
88         retl
89          mov            %o3, %o0
90 .Lnon_bzero_loop:
91         mov             0x08, %g3
92         mov             0x28, %o5
93 1:      stxa            %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P
94         subcc           %g1, 0x40, %g1
95         stxa            %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P
96         stxa            %o4, [%o0 + %g3] ASI_BLK_INIT_QUAD_LDD_P
97         stxa            %o4, [%o0 + %o5] ASI_BLK_INIT_QUAD_LDD_P
98         add             %o0, 0x10, %o0
99         stxa            %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P
100         stxa            %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P
101         stxa            %o4, [%o0 + %g3] ASI_BLK_INIT_QUAD_LDD_P
102         stxa            %o4, [%o0 + %o5] ASI_BLK_INIT_QUAD_LDD_P
103         bne,pt          %icc, 1b
104          add            %o0, 0x30, %o0
105         ba,a,pt         %icc, .Lpostloop
106          nop
107         .size           NG4bzero,.-NG4bzero