libavcodec/ppc/fft_altivec_s.S

   1 /*
   2  * FFT transform with Altivec optimizations
   3  * Copyright (c) 2009 Loren Merritt
   4  *
   5  * This algorithm (though not any of the implementation details) is
   6  * based on libdjbfft by D. J. Bernstein.
   7  *
   8  * This file is part of Libav.
   9  *
  10  * Libav is free software; you can redistribute it and/or
  11  * modify it under the terms of the GNU Lesser General Public
  12  * License as published by the Free Software Foundation; either
  13  * version 2.1 of the License, or (at your option) any later version.
  14  *
  15  * Libav is distributed in the hope that it will be useful,
  16  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  17  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  18  * Lesser General Public License for more details.
  19  *
  20  * You should have received a copy of the GNU Lesser General Public
  21  * License along with Libav; if not, write to the Free Software
  22  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  23  */
  24
  25 /*
  26  * These functions are not individually interchangeable with the C versions.
  27  * While C takes arrays of FFTComplex, Altivec leaves intermediate results
  28  * in blocks as convenient to the vector size.
  29  * i.e. {4x real, 4x imaginary, 4x real, ...}
  30  *
  31  * I ignore standard calling convention.
  32  * Instead, the following registers are treated as global constants:
  33  * v14: zero
  34  * v15..v18: cosines
  35  * v19..v29: permutations
  36  * r9: 16
  37  * r12: ff_cos_tabs
  38  * and the rest are free for local use.
  39  */
  40
  41 #include "config.h"
  42 #include "asm.S"
  43
  44 .text
  45
  46 .macro addi2 ra, imm // add 32-bit immediate
  47 .if \imm & 0xffff
  48     addi \ra, \ra, \imm@l
  49 .endif
  50 .if (\imm+0x8000)>>16
  51     addis \ra, \ra, \imm@ha
  52 .endif
  53 .endm
  54
  55 .macro FFT4 a0, a1, a2, a3 // in:0-1 out:2-3
  56     vperm   \a2,\a0,\a1,v20 // vcprm(0,1,s2,s1) // {r0,i0,r3,i2}
  57     vperm   \a3,\a0,\a1,v21 // vcprm(2,3,s0,s3) // {r1,i1,r2,i3}
  58     vaddfp  \a0,\a2,\a3                         // {t1,t2,t6,t5}
  59     vsubfp  \a1,\a2,\a3                         // {t3,t4,t8,t7}
  60     vmrghw  \a2,\a0,\a1     // vcprm(0,s0,1,s1) // {t1,t3,t2,t4}
  61     vperm   \a3,\a0,\a1,v22 // vcprm(2,s3,3,s2) // {t6,t7,t5,t8}
  62     vaddfp  \a0,\a2,\a3                         // {r0,r1,i0,i1}
  63     vsubfp  \a1,\a2,\a3                         // {r2,r3,i2,i3}
  64     vperm   \a2,\a0,\a1,v23 // vcprm(0,1,s0,s1) // {r0,r1,r2,r3}
  65     vperm   \a3,\a0,\a1,v24 // vcprm(2,3,s2,s3) // {i0,i1,i2,i3}
  66 .endm
  67
  68 .macro FFT4x2 a0, a1, b0, b1, a2, a3, b2, b3
  69     vperm   \a2,\a0,\a1,v20 // vcprm(0,1,s2,s1) // {r0,i0,r3,i2}
  70     vperm   \a3,\a0,\a1,v21 // vcprm(2,3,s0,s3) // {r1,i1,r2,i3}
  71     vperm   \b2,\b0,\b1,v20
  72     vperm   \b3,\b0,\b1,v21
  73     vaddfp  \a0,\a2,\a3                         // {t1,t2,t6,t5}
  74     vsubfp  \a1,\a2,\a3                         // {t3,t4,t8,t7}
  75     vaddfp  \b0,\b2,\b3
  76     vsubfp  \b1,\b2,\b3
  77     vmrghw  \a2,\a0,\a1     // vcprm(0,s0,1,s1) // {t1,t3,t2,t4}
  78     vperm   \a3,\a0,\a1,v22 // vcprm(2,s3,3,s2) // {t6,t7,t5,t8}
  79     vmrghw  \b2,\b0,\b1
  80     vperm   \b3,\b0,\b1,v22
  81     vaddfp  \a0,\a2,\a3                         // {r0,r1,i0,i1}
  82     vsubfp  \a1,\a2,\a3                         // {r2,r3,i2,i3}
  83     vaddfp  \b0,\b2,\b3
  84     vsubfp  \b1,\b2,\b3
  85     vperm   \a2,\a0,\a1,v23 // vcprm(0,1,s0,s1) // {r0,r1,r2,r3}
  86     vperm   \a3,\a0,\a1,v24 // vcprm(2,3,s2,s3) // {i0,i1,i2,i3}
  87     vperm   \b2,\b0,\b1,v23
  88     vperm   \b3,\b0,\b1,v24
  89 .endm
  90
  91 .macro FFT8 a0, a1, b0, b1, a2, a3, b2, b3, b4 // in,out:a0-b1
  92     vmrghw  \b2,\b0,\b1     // vcprm(0,s0,1,s1) // {r4,r6,i4,i6}
  93     vmrglw  \b3,\b0,\b1     // vcprm(2,s2,3,s3) // {r5,r7,i5,i7}
  94     vperm   \a2,\a0,\a1,v20         // FFT4 ...
  95     vperm   \a3,\a0,\a1,v21
  96     vaddfp  \b0,\b2,\b3                         // {t1,t3,t2,t4}
  97     vsubfp  \b1,\b2,\b3                         // {r5,r7,i5,i7}
  98     vperm   \b4,\b1,\b1,v25 // vcprm(2,3,0,1)   // {i5,i7,r5,r7}
  99     vaddfp  \a0,\a2,\a3
 100     vsubfp  \a1,\a2,\a3
 101     vmaddfp \b1,\b1,v17,v14 // * {-1,1,1,-1}/sqrt(2)
 102     vmaddfp \b1,\b4,v18,\b1 // * { 1,1,1,1 }/sqrt(2) // {t8,ta,t7,t9}
 103     vmrghw  \a2,\a0,\a1
 104     vperm   \a3,\a0,\a1,v22
 105     vperm   \b2,\b0,\b1,v26 // vcprm(1,2,s3,s0) // {t3,t2,t9,t8}
 106     vperm   \b3,\b0,\b1,v27 // vcprm(0,3,s2,s1) // {t1,t4,t7,ta}
 107     vaddfp  \a0,\a2,\a3
 108     vsubfp  \a1,\a2,\a3
 109     vaddfp  \b0,\b2,\b3                         // {t1,t2,t9,ta}
 110     vsubfp  \b1,\b2,\b3                         // {t6,t5,tc,tb}
 111     vperm   \a2,\a0,\a1,v23
 112     vperm   \a3,\a0,\a1,v24
 113     vperm   \b2,\b0,\b1,v28 // vcprm(0,2,s1,s3) // {t1,t9,t5,tb}
 114     vperm   \b3,\b0,\b1,v29 // vcprm(1,3,s0,s2) // {t2,ta,t6,tc}
 115     vsubfp  \b0,\a2,\b2                         // {r4,r5,r6,r7}
 116     vsubfp  \b1,\a3,\b3                         // {i4,i5,i6,i7}
 117     vaddfp  \a0,\a2,\b2                         // {r0,r1,r2,r3}
 118     vaddfp  \a1,\a3,\b3                         // {i0,i1,i2,i3}
 119 .endm
 120
 121 .macro BF d0,d1,s0,s1
 122     vsubfp  \d1,\s0,\s1
 123     vaddfp  \d0,\s0,\s1
 124 .endm
 125
 126 .macro zip d0,d1,s0,s1
 127     vmrghw  \d0,\s0,\s1
 128     vmrglw  \d1,\s0,\s1
 129 .endm
 130
 131 .macro def_fft4 interleave
 132 fft4\interleave\()_altivec:
 133     lvx    v0, 0,r3
 134     lvx    v1,r9,r3
 135     FFT4   v0,v1,v2,v3
 136 .ifnb \interleave
 137     zip    v0,v1,v2,v3
 138     stvx   v0, 0,r3
 139     stvx   v1,r9,r3
 140 .else
 141     stvx   v2, 0,r3
 142     stvx   v3,r9,r3
 143 .endif
 144     blr
 145 .endm
 146
 147 .macro def_fft8 interleave
 148 fft8\interleave\()_altivec:
 149     addi   r4,r3,32
 150     lvx    v0, 0,r3
 151     lvx    v1,r9,r3
 152     lvx    v2, 0,r4
 153     lvx    v3,r9,r4
 154     FFT8   v0,v1,v2,v3,v4,v5,v6,v7,v8
 155 .ifnb \interleave
 156     zip    v4,v5,v0,v1
 157     zip    v6,v7,v2,v3
 158     stvx   v4, 0,r3
 159     stvx   v5,r9,r3
 160     stvx   v6, 0,r4
 161     stvx   v7,r9,r4
 162 .else
 163     stvx   v0, 0,r3
 164     stvx   v1,r9,r3
 165     stvx   v2, 0,r4
 166     stvx   v3,r9,r4
 167 .endif
 168     blr
 169 .endm
 170
 171 .macro def_fft16 interleave
 172 fft16\interleave\()_altivec:
 173     addi   r5,r3,64
 174     addi   r6,r3,96
 175     addi   r4,r3,32
 176     lvx    v0, 0,r5
 177     lvx    v1,r9,r5
 178     lvx    v2, 0,r6
 179     lvx    v3,r9,r6
 180     FFT4x2 v0,v1,v2,v3,v4,v5,v6,v7
 181     lvx    v0, 0,r3
 182     lvx    v1,r9,r3
 183     lvx    v2, 0,r4
 184     lvx    v3,r9,r4
 185     FFT8   v0,v1,v2,v3,v8,v9,v10,v11,v12
 186     vmaddfp   v8,v4,v15,v14 // r2*wre
 187     vmaddfp   v9,v5,v15,v14 // i2*wre
 188     vmaddfp  v10,v6,v15,v14 // r3*wre
 189     vmaddfp  v11,v7,v15,v14 // i3*wre
 190     vmaddfp   v8,v5,v16,v8  // i2*wim
 191     vnmsubfp  v9,v4,v16,v9  // r2*wim
 192     vnmsubfp v10,v7,v16,v10 // i3*wim
 193     vmaddfp  v11,v6,v16,v11 // r3*wim
 194     BF     v10,v12,v10,v8
 195     BF     v11,v13,v9,v11
 196     BF     v0,v4,v0,v10
 197     BF     v3,v7,v3,v12
 198     BF     v1,v5,v1,v11
 199     BF     v2,v6,v2,v13
 200 .ifnb \interleave
 201     zip     v8, v9,v0,v1
 202     zip    v10,v11,v2,v3
 203     zip    v12,v13,v4,v5
 204     zip    v14,v15,v6,v7
 205     stvx    v8, 0,r3
 206     stvx    v9,r9,r3
 207     stvx   v10, 0,r4
 208     stvx   v11,r9,r4
 209     stvx   v12, 0,r5
 210     stvx   v13,r9,r5
 211     stvx   v14, 0,r6
 212     stvx   v15,r9,r6
 213 .else
 214     stvx   v0, 0,r3
 215     stvx   v4, 0,r5
 216     stvx   v3,r9,r4
 217     stvx   v7,r9,r6
 218     stvx   v1,r9,r3
 219     stvx   v5,r9,r5
 220     stvx   v2, 0,r4
 221     stvx   v6, 0,r6
 222 .endif
 223     blr
 224 .endm
 225
 226 // void pass(float *z, float *wre, int n)
 227 .macro PASS interleave, suffix
 228 fft_pass\suffix\()_altivec:
 229     mtctr  r5
 230     slwi   r0,r5,4
 231     slwi   r7,r5,6   // o2
 232     slwi   r5,r5,5   // o1
 233     add   r10,r5,r7  // o3
 234     add    r0,r4,r0  // wim
 235     addi   r6,r5,16  // o1+16
 236     addi   r8,r7,16  // o2+16
 237     addi  r11,r10,16 // o3+16
 238 1:
 239     lvx    v8, 0,r4  // wre
 240     lvx   v10, 0,r0  // wim
 241     sub    r0,r0,r9
 242     lvx    v9, 0,r0
 243     vperm  v9,v9,v10,v19   // vcprm(s0,3,2,1) => wim[0 .. -3]
 244     lvx    v4,r3,r7        // r2 = z[o2]
 245     lvx    v5,r3,r8        // i2 = z[o2+16]
 246     lvx    v6,r3,r10       // r3 = z[o3]
 247     lvx    v7,r3,r11       // i3 = z[o3+16]
 248     vmaddfp  v10,v4,v8,v14 // r2*wre
 249     vmaddfp  v11,v5,v8,v14 // i2*wre
 250     vmaddfp  v12,v6,v8,v14 // r3*wre
 251     vmaddfp  v13,v7,v8,v14 // i3*wre
 252     lvx    v0, 0,r3        // r0 = z[0]
 253     lvx    v3,r3,r6        // i1 = z[o1+16]
 254     vmaddfp  v10,v5,v9,v10 // i2*wim
 255     vnmsubfp v11,v4,v9,v11 // r2*wim
 256     vnmsubfp v12,v7,v9,v12 // i3*wim
 257     vmaddfp  v13,v6,v9,v13 // r3*wim
 258     lvx    v1,r3,r9        // i0 = z[16]
 259     lvx    v2,r3,r5        // r1 = z[o1]
 260     BF     v12,v8,v12,v10
 261     BF     v13,v9,v11,v13
 262     BF     v0,v4,v0,v12
 263     BF     v3,v7,v3,v8
 264 .if !\interleave
 265     stvx   v0, 0,r3
 266     stvx   v4,r3,r7
 267     stvx   v3,r3,r6
 268     stvx   v7,r3,r11
 269 .endif
 270     BF     v1,v5,v1,v13
 271     BF     v2,v6,v2,v9
 272 .if !\interleave
 273     stvx   v1,r3,r9
 274     stvx   v2,r3,r5
 275     stvx   v5,r3,r8
 276     stvx   v6,r3,r10
 277 .else
 278     vmrghw v8,v0,v1
 279     vmrglw v9,v0,v1
 280     stvx   v8, 0,r3
 281     stvx   v9,r3,r9
 282     vmrghw v8,v2,v3
 283     vmrglw v9,v2,v3
 284     stvx   v8,r3,r5
 285     stvx   v9,r3,r6
 286     vmrghw v8,v4,v5
 287     vmrglw v9,v4,v5
 288     stvx   v8,r3,r7
 289     stvx   v9,r3,r8
 290     vmrghw v8,v6,v7
 291     vmrglw v9,v6,v7
 292     stvx   v8,r3,r10
 293     stvx   v9,r3,r11
 294 .endif
 295     addi   r3,r3,32
 296     addi   r4,r4,16
 297     bdnz 1b
 298     sub    r3,r3,r5
 299     blr
 300 .endm
 301
 302 #define M_SQRT1_2      0.70710678118654752440  /* 1/sqrt(2) */
 303
 304 #define WORD_0  0x00,0x01,0x02,0x03
 305 #define WORD_1  0x04,0x05,0x06,0x07
 306 #define WORD_2  0x08,0x09,0x0a,0x0b
 307 #define WORD_3  0x0c,0x0d,0x0e,0x0f
 308 #define WORD_s0 0x10,0x11,0x12,0x13
 309 #define WORD_s1 0x14,0x15,0x16,0x17
 310 #define WORD_s2 0x18,0x19,0x1a,0x1b
 311 #define WORD_s3 0x1c,0x1d,0x1e,0x1f
 312
 313 #define vcprm(a, b, c, d) .byte WORD_##a, WORD_##b, WORD_##c, WORD_##d
 314
 315     .rodata
 316     .align 4
 317 fft_data:
 318     .float  0, 0, 0, 0
 319     .float  1, 0.92387953, M_SQRT1_2, 0.38268343
 320     .float  0, 0.38268343, M_SQRT1_2, 0.92387953
 321     .float  -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2,-M_SQRT1_2
 322     .float   M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, M_SQRT1_2
 323     vcprm(s0,3,2,1)
 324     vcprm(0,1,s2,s1)
 325     vcprm(2,3,s0,s3)
 326     vcprm(2,s3,3,s2)
 327     vcprm(0,1,s0,s1)
 328     vcprm(2,3,s2,s3)
 329     vcprm(2,3,0,1)
 330     vcprm(1,2,s3,s0)
 331     vcprm(0,3,s2,s1)
 332     vcprm(0,2,s1,s3)
 333     vcprm(1,3,s0,s2)
 334
 335 .macro lvm  b, r, regs:vararg
 336     lvx     \r, 0, \b
 337     addi    \b, \b, 16
 338   .ifnb \regs
 339     lvm     \b, \regs
 340   .endif
 341 .endm
 342
 343 .macro stvm b, r, regs:vararg
 344     stvx    \r, 0, \b
 345     addi    \b, \b, 16
 346   .ifnb \regs
 347     stvm    \b, \regs
 348   .endif
 349 .endm
 350
 351 .macro fft_calc interleave
 352 extfunc ff_fft_calc\interleave\()_altivec
 353     mflr    r0
 354     stp     r0, 2*PS(r1)
 355     stpu    r1, -(160+16*PS)(r1)
 356     get_got r11
 357     addi    r6, r1, 16*PS
 358     stvm    r6, v20, v21, v22, v23, v24, v25, v26, v27, v28, v29
 359     mfvrsave r0
 360     stw     r0, 15*PS(r1)
 361     li      r6, 0xfffffffc
 362     mtvrsave r6
 363
 364     movrel  r6, fft_data, r11
 365     lvm     r6, v14, v15, v16, v17, v18, v19, v20, v21
 366     lvm     r6, v22, v23, v24, v25, v26, v27, v28, v29
 367
 368     li      r9, 16
 369     movrel  r12, X(ff_cos_tabs), r11
 370
 371     movrel  r6, fft_dispatch_tab\interleave\()_altivec, r11
 372     lwz     r3, 0(r3)
 373     subi    r3, r3, 2
 374     slwi    r3, r3, 2+ARCH_PPC64
 375     lpx     r3, r3, r6
 376     mtctr   r3
 377     mr      r3, r4
 378     bctrl
 379
 380     addi    r6, r1, 16*PS
 381     lvm     r6, v20, v21, v22, v23, v24, v25, v26, v27, v28, v29
 382     lwz     r6, 15*PS(r1)
 383     mtvrsave r6
 384     lp      r1, 0(r1)
 385     lp      r0, 2*PS(r1)
 386     mtlr    r0
 387     blr
 388 .endm
 389
 390 .macro DECL_FFT suffix, bits, n, n2, n4
 391 fft\n\suffix\()_altivec:
 392     mflr  r0
 393     stp   r0,PS*(\bits-3)(r1)
 394     bl    fft\n2\()_altivec
 395     addi2 r3,\n*4
 396     bl    fft\n4\()_altivec
 397     addi2 r3,\n*2
 398     bl    fft\n4\()_altivec
 399     addi2 r3,\n*-6
 400     lp    r0,PS*(\bits-3)(r1)
 401     lp    r4,\bits*PS(r12)
 402     mtlr  r0
 403     li    r5,\n/16
 404     b     fft_pass\suffix\()_altivec
 405 .endm
 406
 407 .macro DECL_FFTS interleave, suffix
 408     .text
 409     def_fft4  \suffix
 410     def_fft8  \suffix
 411     def_fft16 \suffix
 412     PASS \interleave, \suffix
 413     DECL_FFT \suffix, 5,   32,   16,    8
 414     DECL_FFT \suffix, 6,   64,   32,   16
 415     DECL_FFT \suffix, 7,  128,   64,   32
 416     DECL_FFT \suffix, 8,  256,  128,   64
 417     DECL_FFT \suffix, 9,  512,  256,  128
 418     DECL_FFT \suffix,10, 1024,  512,  256
 419     DECL_FFT \suffix,11, 2048, 1024,  512
 420     DECL_FFT \suffix,12, 4096, 2048, 1024
 421     DECL_FFT \suffix,13, 8192, 4096, 2048
 422     DECL_FFT \suffix,14,16384, 8192, 4096
 423     DECL_FFT \suffix,15,32768,16384, 8192
 424     DECL_FFT \suffix,16,65536,32768,16384
 425
 426     fft_calc \suffix
 427
 428     .rodata
 429     .align 3
 430 fft_dispatch_tab\suffix\()_altivec:
 431     PTR fft4\suffix\()_altivec
 432     PTR fft8\suffix\()_altivec
 433     PTR fft16\suffix\()_altivec
 434     PTR fft32\suffix\()_altivec
 435     PTR fft64\suffix\()_altivec
 436     PTR fft128\suffix\()_altivec
 437     PTR fft256\suffix\()_altivec
 438     PTR fft512\suffix\()_altivec
 439     PTR fft1024\suffix\()_altivec
 440     PTR fft2048\suffix\()_altivec
 441     PTR fft4096\suffix\()_altivec
 442     PTR fft8192\suffix\()_altivec
 443     PTR fft16384\suffix\()_altivec
 444     PTR fft32768\suffix\()_altivec
 445     PTR fft65536\suffix\()_altivec
 446 .endm
 447
 448 DECL_FFTS 0
 449 DECL_FFTS 1, _interleave