libavcodec/armv4l/dsputil_arm_s.S

   1 @
   2 @ ARMv4L optimized DSP utils
   3 @ Copyright (c) 2004 AGAWA Koji <i (AT) atty (DOT) jp>
   4 @
   5 @ This file is part of FFmpeg.
   6 @
   7 @ FFmpeg is free software; you can redistribute it and/or
   8 @ modify it under the terms of the GNU Lesser General Public
   9 @ License as published by the Free Software Foundation; either
  10 @ version 2.1 of the License, or (at your option) any later version.
  11 @
  12 @ FFmpeg is distributed in the hope that it will be useful,
  13 @ but WITHOUT ANY WARRANTY; without even the implied warranty of
  14 @ MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15 @ Lesser General Public License for more details.
  16 @
  17 @ You should have received a copy of the GNU Lesser General Public
  18 @ License along with FFmpeg; if not, write to the Free Software
  19 @ Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20 @
  21
  22 #include "config.h"
  23
  24 #ifndef HAVE_PLD
  25 .macro pld reg
  26 .endm
  27 #endif
  28
  29 .macro  ADJ_ALIGN_QUADWORD_D shift, Rd0, Rd1, Rd2, Rd3, Rn0, Rn1, Rn2, Rn3, Rn4
  30         mov \Rd0, \Rn0, lsr #(\shift * 8)
  31         mov \Rd1, \Rn1, lsr #(\shift * 8)
  32         mov \Rd2, \Rn2, lsr #(\shift * 8)
  33         mov \Rd3, \Rn3, lsr #(\shift * 8)
  34         orr \Rd0, \Rd0, \Rn1, lsl #(32 - \shift * 8)
  35         orr \Rd1, \Rd1, \Rn2, lsl #(32 - \shift * 8)
  36         orr \Rd2, \Rd2, \Rn3, lsl #(32 - \shift * 8)
  37         orr \Rd3, \Rd3, \Rn4, lsl #(32 - \shift * 8)
  38 .endm
  39 .macro  ADJ_ALIGN_DOUBLEWORD shift, R0, R1, R2
  40         mov \R0, \R0, lsr #(\shift * 8)
  41         orr \R0, \R0, \R1, lsl #(32 - \shift * 8)
  42         mov \R1, \R1, lsr #(\shift * 8)
  43         orr \R1, \R1, \R2, lsl #(32 - \shift * 8)
  44 .endm
  45 .macro  ADJ_ALIGN_DOUBLEWORD_D shift, Rdst0, Rdst1, Rsrc0, Rsrc1, Rsrc2
  46         mov \Rdst0, \Rsrc0, lsr #(\shift * 8)
  47         mov \Rdst1, \Rsrc1, lsr #(\shift * 8)
  48         orr \Rdst0, \Rdst0, \Rsrc1, lsl #(32 - (\shift * 8))
  49         orr \Rdst1, \Rdst1, \Rsrc2, lsl #(32 - (\shift * 8))
  50 .endm
  51
  52 .macro  RND_AVG32 Rd0, Rd1, Rn0, Rn1, Rm0, Rm1, Rmask
  53         @ Rd = (Rn | Rm) - (((Rn ^ Rm) & ~0x01010101) >> 1)
  54         @ Rmask = 0xFEFEFEFE
  55         @ Rn = destroy
  56         eor \Rd0, \Rn0, \Rm0
  57         eor \Rd1, \Rn1, \Rm1
  58         orr \Rn0, \Rn0, \Rm0
  59         orr \Rn1, \Rn1, \Rm1
  60         and \Rd0, \Rd0, \Rmask
  61         and \Rd1, \Rd1, \Rmask
  62         sub \Rd0, \Rn0, \Rd0, lsr #1
  63         sub \Rd1, \Rn1, \Rd1, lsr #1
  64 .endm
  65
  66 .macro  NO_RND_AVG32 Rd0, Rd1, Rn0, Rn1, Rm0, Rm1, Rmask
  67         @ Rd = (Rn & Rm) - (((Rn ^ Rm) & ~0x01010101) >> 1)
  68         @ Rmask = 0xFEFEFEFE
  69         @ Rn = destroy
  70         eor \Rd0, \Rn0, \Rm0
  71         eor \Rd1, \Rn1, \Rm1
  72         and \Rn0, \Rn0, \Rm0
  73         and \Rn1, \Rn1, \Rm1
  74         and \Rd0, \Rd0, \Rmask
  75         and \Rd1, \Rd1, \Rmask
  76         add \Rd0, \Rn0, \Rd0, lsr #1
  77         add \Rd1, \Rn1, \Rd1, lsr #1
  78 .endm
  79
  80 @ ----------------------------------------------------------------
  81         .align 8
  82         .global put_pixels16_arm
  83 put_pixels16_arm:
  84         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
  85         @ block = word aligned, pixles = unaligned
  86         pld [r1]
  87         stmfd sp!, {r4-r11, lr} @ R14 is also called LR
  88         adr r5, 5f
  89         ands r4, r1, #3
  90         bic r1, r1, #3
  91         add r5, r5, r4, lsl #2
  92         ldrne pc, [r5]
  93 1:
  94         ldmia r1, {r4-r7}
  95         add r1, r1, r2
  96         stmia r0, {r4-r7}
  97         pld [r1]
  98         subs r3, r3, #1
  99         add r0, r0, r2
 100         bne 1b
 101         ldmfd sp!, {r4-r11, pc}
 102         .align 8
 103 2:
 104         ldmia r1, {r4-r8}
 105         add r1, r1, r2
 106         ADJ_ALIGN_QUADWORD_D 1, r9, r10, r11, r12, r4, r5, r6, r7, r8
 107         pld [r1]
 108         subs r3, r3, #1
 109         stmia r0, {r9-r12}
 110         add r0, r0, r2
 111         bne 2b
 112         ldmfd sp!, {r4-r11, pc}
 113         .align 8
 114 3:
 115         ldmia r1, {r4-r8}
 116         add r1, r1, r2
 117         ADJ_ALIGN_QUADWORD_D 2, r9, r10, r11, r12, r4, r5, r6, r7, r8
 118         pld [r1]
 119         subs r3, r3, #1
 120         stmia r0, {r9-r12}
 121         add r0, r0, r2
 122         bne 3b
 123         ldmfd sp!, {r4-r11, pc}
 124         .align 8
 125 4:
 126         ldmia r1, {r4-r8}
 127         add r1, r1, r2
 128         ADJ_ALIGN_QUADWORD_D 3, r9, r10, r11, r12, r4, r5, r6, r7, r8
 129         pld [r1]
 130         subs r3, r3, #1
 131         stmia r0, {r9-r12}
 132         add r0, r0, r2
 133         bne 4b
 134         ldmfd sp!, {r4-r11,pc}
 135         .align 8
 136 5:
 137         .word 1b
 138         .word 2b
 139         .word 3b
 140         .word 4b
 141
 142 @ ----------------------------------------------------------------
 143         .align 8
 144         .global put_pixels8_arm
 145 put_pixels8_arm:
 146         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 147         @ block = word aligned, pixles = unaligned
 148         pld [r1]
 149         stmfd sp!, {r4-r5,lr} @ R14 is also called LR
 150         adr r5, 5f
 151         ands r4, r1, #3
 152         bic r1, r1, #3
 153         add r5, r5, r4, lsl #2
 154         ldrne pc, [r5]
 155 1:
 156         ldmia r1, {r4-r5}
 157         add r1, r1, r2
 158         subs r3, r3, #1
 159         pld [r1]
 160         stmia r0, {r4-r5}
 161         add r0, r0, r2
 162         bne 1b
 163         ldmfd sp!, {r4-r5,pc}
 164         .align 8
 165 2:
 166         ldmia r1, {r4-r5, r12}
 167         add r1, r1, r2
 168         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r12
 169         pld [r1]
 170         subs r3, r3, #1
 171         stmia r0, {r4-r5}
 172         add r0, r0, r2
 173         bne 2b
 174         ldmfd sp!, {r4-r5,pc}
 175         .align 8
 176 3:
 177         ldmia r1, {r4-r5, r12}
 178         add r1, r1, r2
 179         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r12
 180         pld [r1]
 181         subs r3, r3, #1
 182         stmia r0, {r4-r5}
 183         add r0, r0, r2
 184         bne 3b
 185         ldmfd sp!, {r4-r5,pc}
 186         .align 8
 187 4:
 188         ldmia r1, {r4-r5, r12}
 189         add r1, r1, r2
 190         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r12
 191         pld [r1]
 192         subs r3, r3, #1
 193         stmia r0, {r4-r5}
 194         add r0, r0, r2
 195         bne 4b
 196         ldmfd sp!, {r4-r5,pc}
 197         .align 8
 198 5:
 199         .word 1b
 200         .word 2b
 201         .word 3b
 202         .word 4b
 203
 204 @ ----------------------------------------------------------------
 205         .align 8
 206         .global put_pixels8_x2_arm
 207 put_pixels8_x2_arm:
 208         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 209         @ block = word aligned, pixles = unaligned
 210         pld [r1]
 211         stmfd sp!, {r4-r10,lr} @ R14 is also called LR
 212         adr r5, 5f
 213         ands r4, r1, #3
 214         ldr r12, [r5]
 215         add r5, r5, r4, lsl #2
 216         bic r1, r1, #3
 217         ldrne pc, [r5]
 218 1:
 219         ldmia r1, {r4-r5, r10}
 220         add r1, r1, r2
 221         ADJ_ALIGN_DOUBLEWORD_D 1, r6, r7, r4, r5, r10
 222         pld [r1]
 223         RND_AVG32 r8, r9, r4, r5, r6, r7, r12
 224         subs r3, r3, #1
 225         stmia r0, {r8-r9}
 226         add r0, r0, r2
 227         bne 1b
 228         ldmfd sp!, {r4-r10,pc}
 229         .align 8
 230 2:
 231         ldmia r1, {r4-r5, r10}
 232         add r1, r1, r2
 233         ADJ_ALIGN_DOUBLEWORD_D 1, r6, r7, r4, r5, r10
 234         ADJ_ALIGN_DOUBLEWORD_D 2, r8, r9, r4, r5, r10
 235         pld [r1]
 236         RND_AVG32 r4, r5, r6, r7, r8, r9, r12
 237         subs r3, r3, #1
 238         stmia r0, {r4-r5}
 239         add r0, r0, r2
 240         bne 2b
 241         ldmfd sp!, {r4-r10,pc}
 242         .align 8
 243 3:
 244         ldmia r1, {r4-r5, r10}
 245         add r1, r1, r2
 246         ADJ_ALIGN_DOUBLEWORD_D 2, r6, r7, r4, r5, r10
 247         ADJ_ALIGN_DOUBLEWORD_D 3, r8, r9, r4, r5, r10
 248         pld [r1]
 249         RND_AVG32 r4, r5, r6, r7, r8, r9, r12
 250         subs r3, r3, #1
 251         stmia r0, {r4-r5}
 252         add r0, r0, r2
 253         bne 3b
 254         ldmfd sp!, {r4-r10,pc}
 255         .align 8
 256 4:
 257         ldmia r1, {r4-r5, r10}
 258         add r1, r1, r2
 259         ADJ_ALIGN_DOUBLEWORD_D 3, r6, r7, r4, r5, r10
 260         pld [r1]
 261         RND_AVG32 r8, r9, r6, r7, r5, r10, r12
 262         subs r3, r3, #1
 263         stmia r0, {r8-r9}
 264         add r0, r0, r2
 265         bne 4b
 266         ldmfd sp!, {r4-r10,pc} @@ update PC with LR content.
 267         .align 8
 268 5:
 269         .word 0xFEFEFEFE
 270         .word 2b
 271         .word 3b
 272         .word 4b
 273
 274         .align 8
 275         .global put_no_rnd_pixels8_x2_arm
 276 put_no_rnd_pixels8_x2_arm:
 277         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 278         @ block = word aligned, pixles = unaligned
 279         pld [r1]
 280         stmfd sp!, {r4-r10,lr} @ R14 is also called LR
 281         adr r5, 5f
 282         ands r4, r1, #3
 283         ldr r12, [r5]
 284         add r5, r5, r4, lsl #2
 285         bic r1, r1, #3
 286         ldrne pc, [r5]
 287 1:
 288         ldmia r1, {r4-r5, r10}
 289         add r1, r1, r2
 290         ADJ_ALIGN_DOUBLEWORD_D 1, r6, r7, r4, r5, r10
 291         pld [r1]
 292         NO_RND_AVG32 r8, r9, r4, r5, r6, r7, r12
 293         subs r3, r3, #1
 294         stmia r0, {r8-r9}
 295         add r0, r0, r2
 296         bne 1b
 297         ldmfd sp!, {r4-r10,pc}
 298         .align 8
 299 2:
 300         ldmia r1, {r4-r5, r10}
 301         add r1, r1, r2
 302         ADJ_ALIGN_DOUBLEWORD_D 1, r6, r7, r4, r5, r10
 303         ADJ_ALIGN_DOUBLEWORD_D 2, r8, r9, r4, r5, r10
 304         pld [r1]
 305         NO_RND_AVG32 r4, r5, r6, r7, r8, r9, r12
 306         subs r3, r3, #1
 307         stmia r0, {r4-r5}
 308         add r0, r0, r2
 309         bne 2b
 310         ldmfd sp!, {r4-r10,pc}
 311         .align 8
 312 3:
 313         ldmia r1, {r4-r5, r10}
 314         add r1, r1, r2
 315         ADJ_ALIGN_DOUBLEWORD_D 2, r6, r7, r4, r5, r10
 316         ADJ_ALIGN_DOUBLEWORD_D 3, r8, r9, r4, r5, r10
 317         pld [r1]
 318         NO_RND_AVG32 r4, r5, r6, r7, r8, r9, r12
 319         subs r3, r3, #1
 320         stmia r0, {r4-r5}
 321         add r0, r0, r2
 322         bne 3b
 323         ldmfd sp!, {r4-r10,pc}
 324         .align 8
 325 4:
 326         ldmia r1, {r4-r5, r10}
 327         add r1, r1, r2
 328         ADJ_ALIGN_DOUBLEWORD_D 3, r6, r7, r4, r5, r10
 329         pld [r1]
 330         NO_RND_AVG32 r8, r9, r6, r7, r5, r10, r12
 331         subs r3, r3, #1
 332         stmia r0, {r8-r9}
 333         add r0, r0, r2
 334         bne 4b
 335         ldmfd sp!, {r4-r10,pc} @@ update PC with LR content.
 336         .align 8
 337 5:
 338         .word 0xFEFEFEFE
 339         .word 2b
 340         .word 3b
 341         .word 4b
 342
 343
 344 @ ----------------------------------------------------------------
 345         .align 8
 346         .global put_pixels8_y2_arm
 347 put_pixels8_y2_arm:
 348         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 349         @ block = word aligned, pixles = unaligned
 350         pld [r1]
 351         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
 352         adr r5, 5f
 353         ands r4, r1, #3
 354         mov r3, r3, lsr #1
 355         ldr r12, [r5]
 356         add r5, r5, r4, lsl #2
 357         bic r1, r1, #3
 358         ldrne pc, [r5]
 359 1:
 360         ldmia r1, {r4-r5}
 361         add r1, r1, r2
 362 6:      ldmia r1, {r6-r7}
 363         add r1, r1, r2
 364         pld [r1]
 365         RND_AVG32 r8, r9, r4, r5, r6, r7, r12
 366         ldmia r1, {r4-r5}
 367         add r1, r1, r2
 368         stmia r0, {r8-r9}
 369         add r0, r0, r2
 370         pld [r1]
 371         RND_AVG32 r8, r9, r6, r7, r4, r5, r12
 372         subs r3, r3, #1
 373         stmia r0, {r8-r9}
 374         add r0, r0, r2
 375         bne 6b
 376         ldmfd sp!, {r4-r11,pc}
 377         .align 8
 378 2:
 379         ldmia r1, {r4-r6}
 380         add r1, r1, r2
 381         pld [r1]
 382         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r6
 383 6:      ldmia r1, {r7-r9}
 384         add r1, r1, r2
 385         pld [r1]
 386         ADJ_ALIGN_DOUBLEWORD 1, r7, r8, r9
 387         RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 388         stmia r0, {r10-r11}
 389         add r0, r0, r2
 390         ldmia r1, {r4-r6}
 391         add r1, r1, r2
 392         pld [r1]
 393         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r6
 394         subs r3, r3, #1
 395         RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 396         stmia r0, {r10-r11}
 397         add r0, r0, r2
 398         bne 6b
 399         ldmfd sp!, {r4-r11,pc}
 400         .align 8
 401 3:
 402         ldmia r1, {r4-r6}
 403         add r1, r1, r2
 404         pld [r1]
 405         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r6
 406 6:      ldmia r1, {r7-r9}
 407         add r1, r1, r2
 408         pld [r1]
 409         ADJ_ALIGN_DOUBLEWORD 2, r7, r8, r9
 410         RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 411         stmia r0, {r10-r11}
 412         add r0, r0, r2
 413         ldmia r1, {r4-r6}
 414         add r1, r1, r2
 415         pld [r1]
 416         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r6
 417         subs r3, r3, #1
 418         RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 419         stmia r0, {r10-r11}
 420         add r0, r0, r2
 421         bne 6b
 422         ldmfd sp!, {r4-r11,pc}
 423         .align 8
 424 4:
 425         ldmia r1, {r4-r6}
 426         add r1, r1, r2
 427         pld [r1]
 428         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r6
 429 6:      ldmia r1, {r7-r9}
 430         add r1, r1, r2
 431         pld [r1]
 432         ADJ_ALIGN_DOUBLEWORD 3, r7, r8, r9
 433         RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 434         stmia r0, {r10-r11}
 435         add r0, r0, r2
 436         ldmia r1, {r4-r6}
 437         add r1, r1, r2
 438         pld [r1]
 439         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r6
 440         subs r3, r3, #1
 441         RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 442         stmia r0, {r10-r11}
 443         add r0, r0, r2
 444         bne 6b
 445         ldmfd sp!, {r4-r11,pc}
 446
 447         .align 8
 448 5:
 449         .word 0xFEFEFEFE
 450         .word 2b
 451         .word 3b
 452         .word 4b
 453
 454         .align 8
 455         .global put_no_rnd_pixels8_y2_arm
 456 put_no_rnd_pixels8_y2_arm:
 457         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 458         @ block = word aligned, pixles = unaligned
 459         pld [r1]
 460         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
 461         adr r5, 5f
 462         ands r4, r1, #3
 463         mov r3, r3, lsr #1
 464         ldr r12, [r5]
 465         add r5, r5, r4, lsl #2
 466         bic r1, r1, #3
 467         ldrne pc, [r5]
 468 1:
 469         ldmia r1, {r4-r5}
 470         add r1, r1, r2
 471 6:      ldmia r1, {r6-r7}
 472         add r1, r1, r2
 473         pld [r1]
 474         NO_RND_AVG32 r8, r9, r4, r5, r6, r7, r12
 475         ldmia r1, {r4-r5}
 476         add r1, r1, r2
 477         stmia r0, {r8-r9}
 478         add r0, r0, r2
 479         pld [r1]
 480         NO_RND_AVG32 r8, r9, r6, r7, r4, r5, r12
 481         subs r3, r3, #1
 482         stmia r0, {r8-r9}
 483         add r0, r0, r2
 484         bne 6b
 485         ldmfd sp!, {r4-r11,pc}
 486         .align 8
 487 2:
 488         ldmia r1, {r4-r6}
 489         add r1, r1, r2
 490         pld [r1]
 491         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r6
 492 6:      ldmia r1, {r7-r9}
 493         add r1, r1, r2
 494         pld [r1]
 495         ADJ_ALIGN_DOUBLEWORD 1, r7, r8, r9
 496         NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 497         stmia r0, {r10-r11}
 498         add r0, r0, r2
 499         ldmia r1, {r4-r6}
 500         add r1, r1, r2
 501         pld [r1]
 502         ADJ_ALIGN_DOUBLEWORD 1, r4, r5, r6
 503         subs r3, r3, #1
 504         NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 505         stmia r0, {r10-r11}
 506         add r0, r0, r2
 507         bne 6b
 508         ldmfd sp!, {r4-r11,pc}
 509         .align 8
 510 3:
 511         ldmia r1, {r4-r6}
 512         add r1, r1, r2
 513         pld [r1]
 514         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r6
 515 6:      ldmia r1, {r7-r9}
 516         add r1, r1, r2
 517         pld [r1]
 518         ADJ_ALIGN_DOUBLEWORD 2, r7, r8, r9
 519         NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 520         stmia r0, {r10-r11}
 521         add r0, r0, r2
 522         ldmia r1, {r4-r6}
 523         add r1, r1, r2
 524         pld [r1]
 525         ADJ_ALIGN_DOUBLEWORD 2, r4, r5, r6
 526         subs r3, r3, #1
 527         NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 528         stmia r0, {r10-r11}
 529         add r0, r0, r2
 530         bne 6b
 531         ldmfd sp!, {r4-r11,pc}
 532         .align 8
 533 4:
 534         ldmia r1, {r4-r6}
 535         add r1, r1, r2
 536         pld [r1]
 537         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r6
 538 6:      ldmia r1, {r7-r9}
 539         add r1, r1, r2
 540         pld [r1]
 541         ADJ_ALIGN_DOUBLEWORD 3, r7, r8, r9
 542         NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12
 543         stmia r0, {r10-r11}
 544         add r0, r0, r2
 545         ldmia r1, {r4-r6}
 546         add r1, r1, r2
 547         pld [r1]
 548         ADJ_ALIGN_DOUBLEWORD 3, r4, r5, r6
 549         subs r3, r3, #1
 550         NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12
 551         stmia r0, {r10-r11}
 552         add r0, r0, r2
 553         bne 6b
 554         ldmfd sp!, {r4-r11,pc}
 555         .align 8
 556 5:
 557         .word 0xFEFEFEFE
 558         .word 2b
 559         .word 3b
 560         .word 4b
 561
 562 @ ----------------------------------------------------------------
 563 .macro  RND_XY2_IT align
 564         @ l1=  (a & 0x03030303) + (b & 0x03030303) ?(+ 0x02020202)
 565         @ h1= ((a & 0xFCFCFCFCUL) >> 2) + ((b & 0xFCFCFCFCUL) >> 2)
 566 .if \align == 0
 567         ldmia r1, {r6-r8}
 568 .elseif \align == 3
 569         ldmia r1, {r5-r7}
 570 .else
 571         ldmia r1, {r8-r10}
 572 .endif
 573         add r1, r1, r2
 574         pld [r1]
 575 .if \align == 0
 576         ADJ_ALIGN_DOUBLEWORD_D 1, r4, r5, r6, r7, r8
 577 .elseif \align == 1
 578         ADJ_ALIGN_DOUBLEWORD_D 1, r4, r5, r8, r9, r10
 579         ADJ_ALIGN_DOUBLEWORD_D 2, r6, r7, r8, r9, r10
 580 .elseif \align == 2
 581         ADJ_ALIGN_DOUBLEWORD_D 2, r4, r5, r8, r9, r10
 582         ADJ_ALIGN_DOUBLEWORD_D 3, r6, r7, r8, r9, r10
 583 .elseif \align == 3
 584         ADJ_ALIGN_DOUBLEWORD_D 3, r4, r5, r5, r6, r7
 585 .endif
 586         ldr r14, [r12, #0]      @ 0x03030303
 587         tst r3, #1
 588         and r8, r4, r14
 589         and r9, r5, r14
 590         and r10, r6, r14
 591         and r11, r7, r14
 592         ldreq r14, [r12, #16]   @ 0x02020202/0x01010101
 593         add r8, r8, r10
 594         add r9, r9, r11
 595         addeq r8, r8, r14
 596         addeq r9, r9, r14
 597         ldr r14, [r12, #20]     @ 0xFCFCFCFC >> 2
 598         and r4, r14, r4, lsr #2
 599         and r5, r14, r5, lsr #2
 600         and r6, r14, r6, lsr #2
 601         and r7, r14, r7, lsr #2
 602         add r10, r4, r6
 603         add r11, r5, r7
 604         subs r3, r3, #1
 605 .endm
 606
 607 .macro RND_XY2_EXPAND align
 608         RND_XY2_IT \align
 609 6:      stmfd sp!, {r8-r11}
 610         RND_XY2_IT \align
 611         ldmfd sp!, {r4-r7}
 612         add r4, r4, r8
 613         add r5, r5, r9
 614         add r6, r6, r10
 615         add r7, r7, r11
 616         ldr r14, [r12, #24]     @ 0x0F0F0F0F
 617         and r4, r14, r4, lsr #2
 618         and r5, r14, r5, lsr #2
 619         add r4, r4, r6
 620         add r5, r5, r7
 621         stmia r0, {r4-r5}
 622         add r0, r0, r2
 623         bge 6b
 624         ldmfd sp!, {r4-r11,pc}
 625 .endm
 626
 627         .align 8
 628         .global put_pixels8_xy2_arm
 629 put_pixels8_xy2_arm:
 630         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 631         @ block = word aligned, pixles = unaligned
 632         pld [r1]
 633         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
 634         adrl r12, 5f
 635         ands r4, r1, #3
 636         add r5, r12, r4, lsl #2
 637         bic r1, r1, #3
 638         ldrne pc, [r5]
 639 1:
 640         RND_XY2_EXPAND 0
 641
 642         .align 8
 643 2:
 644         RND_XY2_EXPAND 1
 645
 646         .align 8
 647 3:
 648         RND_XY2_EXPAND 2
 649
 650         .align 8
 651 4:
 652         RND_XY2_EXPAND 3
 653
 654 5:
 655         .word 0x03030303
 656         .word 2b
 657         .word 3b
 658         .word 4b
 659         .word 0x02020202
 660         .word 0xFCFCFCFC >> 2
 661         .word 0x0F0F0F0F
 662
 663         .align 8
 664         .global put_no_rnd_pixels8_xy2_arm
 665 put_no_rnd_pixels8_xy2_arm:
 666         @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 667         @ block = word aligned, pixles = unaligned
 668         pld [r1]
 669         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
 670         adrl r12, 5f
 671         ands r4, r1, #3
 672         add r5, r12, r4, lsl #2
 673         bic r1, r1, #3
 674         ldrne pc, [r5]
 675 1:
 676         RND_XY2_EXPAND 0
 677
 678         .align 8
 679 2:
 680         RND_XY2_EXPAND 1
 681
 682         .align 8
 683 3:
 684         RND_XY2_EXPAND 2
 685
 686         .align 8
 687 4:
 688         RND_XY2_EXPAND 3
 689
 690 5:
 691         .word 0x03030303
 692         .word 2b
 693         .word 3b
 694         .word 4b
 695         .word 0x01010101
 696         .word 0xFCFCFCFC >> 2
 697         .word 0x0F0F0F0F