libavcodec/x86/rv34dsp.asm

   1 ;******************************************************************************
   2 ;* MMX/SSE2-optimized functions for the RV30 and RV40 decoders
   3 ;* Copyright (C) 2012 Christophe Gisquet <christophe.gisquet@gmail.com>
   4 ;*
   5 ;* This file is part of Libav.
   6 ;*
   7 ;* Libav is free software; you can redistribute it and/or
   8 ;* modify it under the terms of the GNU Lesser General Public
   9 ;* License as published by the Free Software Foundation; either
  10 ;* version 2.1 of the License, or (at your option) any later version.
  11 ;*
  12 ;* Libav is distributed in the hope that it will be useful,
  13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15 ;* Lesser General Public License for more details.
  16 ;*
  17 ;* You should have received a copy of the GNU Lesser General Public
  18 ;* License along with Libav; if not, write to the Free Software
  19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20 ;******************************************************************************
  21
  22 %include "libavutil/x86/x86util.asm"
  23
  24 SECTION_RODATA
  25 pw_row_coeffs:  times 4 dw 13
  26                 times 4 dw 17
  27                 times 4 dw  7
  28 pd_512: times 2 dd 0x200
  29 pw_col_coeffs:  dw 13,  13,  13, -13
  30                 dw 17,   7,   7, -17
  31                 dw 13, -13,  13,  13
  32                 dw -7,  17, -17,  -7
  33
  34 SECTION .text
  35
  36 %macro IDCT_DC_NOROUND 1
  37     imul   %1, 13*13*3
  38     sar    %1, 11
  39 %endmacro
  40
  41 %macro IDCT_DC_ROUND 1
  42     imul   %1, 13*13
  43     add    %1, 0x200
  44     sar    %1, 10
  45 %endmacro
  46
  47 %macro rv34_idct 1
  48 cglobal rv34_idct_%1, 1, 2, 0
  49     movsx   r1, word [r0]
  50     IDCT_DC r1
  51     movd    m0, r1d
  52     pshufw  m0, m0, 0
  53     movq    [r0+ 0], m0
  54     movq    [r0+ 8], m0
  55     movq    [r0+16], m0
  56     movq    [r0+24], m0
  57     REP_RET
  58 %endmacro
  59
  60 INIT_MMX mmxext
  61 %define IDCT_DC IDCT_DC_ROUND
  62 rv34_idct dc
  63 %define IDCT_DC IDCT_DC_NOROUND
  64 rv34_idct dc_noround
  65
  66 ; ff_rv34_idct_dc_add_mmx(uint8_t *dst, int stride, int dc);
  67 INIT_MMX mmx
  68 cglobal rv34_idct_dc_add, 3, 3
  69     ; calculate DC
  70     IDCT_DC_ROUND r2
  71     pxor       m1, m1
  72     movd       m0, r2d
  73     psubw      m1, m0
  74     packuswb   m0, m0
  75     packuswb   m1, m1
  76     punpcklbw  m0, m0
  77     punpcklbw  m1, m1
  78     punpcklwd  m0, m0
  79     punpcklwd  m1, m1
  80
  81     ; add DC
  82     lea        r2, [r0+r1*2]
  83     movh       m2, [r0]
  84     movh       m3, [r0+r1]
  85     movh       m4, [r2]
  86     movh       m5, [r2+r1]
  87     paddusb    m2, m0
  88     paddusb    m3, m0
  89     paddusb    m4, m0
  90     paddusb    m5, m0
  91     psubusb    m2, m1
  92     psubusb    m3, m1
  93     psubusb    m4, m1
  94     psubusb    m5, m1
  95     movh       [r0], m2
  96     movh       [r0+r1], m3
  97     movh       [r2], m4
  98     movh       [r2+r1], m5
  99     RET
 100
 101 ; Load coeffs and perform row transform
 102 ; Output: coeffs in mm[0467], rounder in mm5
 103 %macro ROW_TRANSFORM  1
 104     pxor        mm7, mm7
 105     mova        mm0, [%1+ 0*8]
 106     mova        mm1, [%1+ 1*8]
 107     mova        mm2, [%1+ 2*8]
 108     mova        mm3, [%1+ 3*8]
 109     mova  [%1+ 0*8], mm7
 110     mova  [%1+ 1*8], mm7
 111     mova  [%1+ 2*8], mm7
 112     mova  [%1+ 3*8], mm7
 113     mova        mm4, mm0
 114     mova        mm6, [pw_row_coeffs+ 0]
 115     paddsw      mm0, mm2                ; b0 + b2
 116     psubsw      mm4, mm2                ; b0 - b2
 117     pmullw      mm0, mm6                ; *13 = z0
 118     pmullw      mm4, mm6                ; *13 = z1
 119     mova        mm5, mm1
 120     pmullw      mm1, [pw_row_coeffs+ 8] ; b1*17
 121     pmullw      mm5, [pw_row_coeffs+16] ; b1* 7
 122     mova        mm7, mm3
 123     pmullw      mm3, [pw_row_coeffs+ 8] ; b3*17
 124     pmullw      mm7, [pw_row_coeffs+16] ; b3* 7
 125     paddsw      mm1, mm7                ; z3 = b1*17 + b3* 7
 126     psubsw      mm5, mm3                ; z2 = b1* 7 - b3*17
 127     mova        mm7, mm0
 128     mova        mm6, mm4
 129     paddsw      mm0, mm1                ; z0 + z3
 130     psubsw      mm7, mm1                ; z0 - z3
 131     paddsw      mm4, mm5                ; z1 + z2
 132     psubsw      mm6, mm5                ; z1 - z2
 133     mova        mm5, [pd_512]           ; 0x200
 134 %endmacro
 135
 136 ; ff_rv34_idct_add_mmxext(uint8_t *dst, ptrdiff_t stride, int16_t *block);
 137 %macro COL_TRANSFORM  4
 138     pshufw      mm3, %2, 0xDD        ; col. 1,3,1,3
 139     pshufw       %2, %2, 0x88        ; col. 0,2,0,2
 140     pmaddwd      %2, %3              ; 13*c0+13*c2 | 13*c0-13*c2 = z0 | z1
 141     pmaddwd     mm3, %4              ; 17*c1+ 7*c3 |  7*c1-17*c3 = z3 | z2
 142     paddd        %2, mm5
 143     pshufw      mm1,  %2, 01001110b  ;    z1 | z0
 144     pshufw      mm2, mm3, 01001110b  ;    z2 | z3
 145     paddd        %2, mm3             ; z0+z3 | z1+z2
 146     psubd       mm1, mm2             ; z1-z2 | z0-z3
 147     movd        mm3, %1
 148     psrad        %2, 10
 149     pxor        mm2, mm2
 150     psrad       mm1, 10
 151     punpcklbw   mm3, mm2
 152     packssdw     %2, mm1
 153     paddw        %2, mm3
 154     packuswb     %2, %2
 155     movd         %1, %2
 156 %endmacro
 157 INIT_MMX mmxext
 158 cglobal rv34_idct_add, 3,3,0, d, s, b
 159     ROW_TRANSFORM       bq
 160     COL_TRANSFORM     [dq], mm0, [pw_col_coeffs+ 0], [pw_col_coeffs+ 8]
 161     mova               mm0, [pw_col_coeffs+ 0]
 162     COL_TRANSFORM  [dq+sq], mm4, mm0, [pw_col_coeffs+ 8]
 163     mova               mm4, [pw_col_coeffs+ 8]
 164     lea                 dq, [dq + 2*sq]
 165     COL_TRANSFORM     [dq], mm6, mm0, mm4
 166     COL_TRANSFORM  [dq+sq], mm7, mm0, mm4
 167     ret
 168
 169 ; ff_rv34_idct_dc_add_sse4(uint8_t *dst, int stride, int dc);
 170 INIT_XMM sse4
 171 cglobal rv34_idct_dc_add, 3, 3, 6
 172     ; load data
 173     IDCT_DC_ROUND r2
 174     pxor       m1, m1
 175
 176     ; calculate DC
 177     movd       m0, r2d
 178     lea        r2, [r0+r1*2]
 179     movd       m2, [r0]
 180     movd       m3, [r0+r1]
 181     pshuflw    m0, m0, 0
 182     movd       m4, [r2]
 183     movd       m5, [r2+r1]
 184     punpcklqdq m0, m0
 185     punpckldq  m2, m3
 186     punpckldq  m4, m5
 187     punpcklbw  m2, m1
 188     punpcklbw  m4, m1
 189     paddw      m2, m0
 190     paddw      m4, m0
 191     packuswb   m2, m4
 192     movd      [r0], m2
 193     pextrd [r0+r1], m2, 1
 194     pextrd    [r2], m2, 2
 195     pextrd [r2+r1], m2, 3
 196     RET