third_party/libwebp/dsp/enc_neon.c

   1 // Copyright 2012 Google Inc. All Rights Reserved.
   2 //
   3 // Use of this source code is governed by a BSD-style license
   4 // that can be found in the COPYING file in the root of the source
   5 // tree. An additional intellectual property rights grant can be found
   6 // in the file PATENTS. All contributing project authors may
   7 // be found in the AUTHORS file in the root of the source tree.
   8 // -----------------------------------------------------------------------------
   9 //
  10 // ARM NEON version of speed-critical encoding functions.
  11 //
  12 // adapted from libvpx (http://www.webmproject.org/code/)
  13
  14 #include "./dsp.h"
  15
  16 #if defined(WEBP_USE_NEON)
  17
  18 #include "../enc/vp8enci.h"
  19
  20 //------------------------------------------------------------------------------
  21 // Transforms (Paragraph 14.4)
  22
  23 // Inverse transform.
  24 // This code is pretty much the same as TransformOneNEON in the decoder, except
  25 // for subtraction to *ref. See the comments there for algorithmic explanations.
  26 static void ITransformOne(const uint8_t* ref,
  27                           const int16_t* in, uint8_t* dst) {
  28   const int kBPS = BPS;
  29   const int16_t kC1C2[] = { 20091, 17734, 0, 0 };  // kC1 / (kC2 >> 1) / 0 / 0
  30
  31   __asm__ volatile (
  32     "vld1.16         {q1, q2}, [%[in]]           \n"
  33     "vld1.16         {d0}, [%[kC1C2]]            \n"
  34
  35     // d2: in[0]
  36     // d3: in[8]
  37     // d4: in[4]
  38     // d5: in[12]
  39     "vswp            d3, d4                      \n"
  40
  41     // q8 = {in[4], in[12]} * kC1 * 2 >> 16
  42     // q9 = {in[4], in[12]} * kC2 >> 16
  43     "vqdmulh.s16     q8, q2, d0[0]               \n"
  44     "vqdmulh.s16     q9, q2, d0[1]               \n"
  45
  46     // d22 = a = in[0] + in[8]
  47     // d23 = b = in[0] - in[8]
  48     "vqadd.s16       d22, d2, d3                 \n"
  49     "vqsub.s16       d23, d2, d3                 \n"
  50
  51     //  q8 = in[4]/[12] * kC1 >> 16
  52     "vshr.s16        q8, q8, #1                  \n"
  53
  54     // Add {in[4], in[12]} back after the multiplication.
  55     "vqadd.s16       q8, q2, q8                  \n"
  56
  57     // d20 = c = in[4]*kC2 - in[12]*kC1
  58     // d21 = d = in[4]*kC1 + in[12]*kC2
  59     "vqsub.s16       d20, d18, d17               \n"
  60     "vqadd.s16       d21, d19, d16               \n"
  61
  62     // d2 = tmp[0] = a + d
  63     // d3 = tmp[1] = b + c
  64     // d4 = tmp[2] = b - c
  65     // d5 = tmp[3] = a - d
  66     "vqadd.s16       d2, d22, d21                \n"
  67     "vqadd.s16       d3, d23, d20                \n"
  68     "vqsub.s16       d4, d23, d20                \n"
  69     "vqsub.s16       d5, d22, d21                \n"
  70
  71     "vzip.16         q1, q2                      \n"
  72     "vzip.16         q1, q2                      \n"
  73
  74     "vswp            d3, d4                      \n"
  75
  76     // q8 = {tmp[4], tmp[12]} * kC1 * 2 >> 16
  77     // q9 = {tmp[4], tmp[12]} * kC2 >> 16
  78     "vqdmulh.s16     q8, q2, d0[0]               \n"
  79     "vqdmulh.s16     q9, q2, d0[1]               \n"
  80
  81     // d22 = a = tmp[0] + tmp[8]
  82     // d23 = b = tmp[0] - tmp[8]
  83     "vqadd.s16       d22, d2, d3                 \n"
  84     "vqsub.s16       d23, d2, d3                 \n"
  85
  86     "vshr.s16        q8, q8, #1                  \n"
  87     "vqadd.s16       q8, q2, q8                  \n"
  88
  89     // d20 = c = in[4]*kC2 - in[12]*kC1
  90     // d21 = d = in[4]*kC1 + in[12]*kC2
  91     "vqsub.s16       d20, d18, d17               \n"
  92     "vqadd.s16       d21, d19, d16               \n"
  93
  94     // d2 = tmp[0] = a + d
  95     // d3 = tmp[1] = b + c
  96     // d4 = tmp[2] = b - c
  97     // d5 = tmp[3] = a - d
  98     "vqadd.s16       d2, d22, d21                \n"
  99     "vqadd.s16       d3, d23, d20                \n"
 100     "vqsub.s16       d4, d23, d20                \n"
 101     "vqsub.s16       d5, d22, d21                \n"
 102
 103     "vld1.32         d6[0], [%[ref]], %[kBPS]    \n"
 104     "vld1.32         d6[1], [%[ref]], %[kBPS]    \n"
 105     "vld1.32         d7[0], [%[ref]], %[kBPS]    \n"
 106     "vld1.32         d7[1], [%[ref]], %[kBPS]    \n"
 107
 108     "sub         %[ref], %[ref], %[kBPS], lsl #2 \n"
 109
 110     // (val) + 4 >> 3
 111     "vrshr.s16       d2, d2, #3                  \n"
 112     "vrshr.s16       d3, d3, #3                  \n"
 113     "vrshr.s16       d4, d4, #3                  \n"
 114     "vrshr.s16       d5, d5, #3                  \n"
 115
 116     "vzip.16         q1, q2                      \n"
 117     "vzip.16         q1, q2                      \n"
 118
 119     // Must accumulate before saturating
 120     "vmovl.u8        q8, d6                      \n"
 121     "vmovl.u8        q9, d7                      \n"
 122
 123     "vqadd.s16       q1, q1, q8                  \n"
 124     "vqadd.s16       q2, q2, q9                  \n"
 125
 126     "vqmovun.s16     d0, q1                      \n"
 127     "vqmovun.s16     d1, q2                      \n"
 128
 129     "vst1.32         d0[0], [%[dst]], %[kBPS]    \n"
 130     "vst1.32         d0[1], [%[dst]], %[kBPS]    \n"
 131     "vst1.32         d1[0], [%[dst]], %[kBPS]    \n"
 132     "vst1.32         d1[1], [%[dst]]             \n"
 133
 134     : [in] "+r"(in), [dst] "+r"(dst)               // modified registers
 135     : [kBPS] "r"(kBPS), [kC1C2] "r"(kC1C2), [ref] "r"(ref)  // constants
 136     : "memory", "q0", "q1", "q2", "q8", "q9", "q10", "q11"  // clobbered
 137   );
 138 }
 139
 140 static void ITransform(const uint8_t* ref,
 141                        const int16_t* in, uint8_t* dst, int do_two) {
 142   ITransformOne(ref, in, dst);
 143   if (do_two) {
 144     ITransformOne(ref + 4, in + 16, dst + 4);
 145   }
 146 }
 147
 148 // Same code as dec_neon.c
 149 static void ITransformWHT(const int16_t* in, int16_t* out) {
 150   const int kStep = 32;  // The store is only incrementing the pointer as if we
 151                          // had stored a single byte.
 152   __asm__ volatile (
 153     // part 1
 154     // load data into q0, q1
 155     "vld1.16         {q0, q1}, [%[in]]           \n"
 156
 157     "vaddl.s16       q2, d0, d3                  \n" // a0 = in[0] + in[12]
 158     "vaddl.s16       q3, d1, d2                  \n" // a1 = in[4] + in[8]
 159     "vsubl.s16       q4, d1, d2                  \n" // a2 = in[4] - in[8]
 160     "vsubl.s16       q5, d0, d3                  \n" // a3 = in[0] - in[12]
 161
 162     "vadd.s32        q0, q2, q3                  \n" // tmp[0] = a0 + a1
 163     "vsub.s32        q2, q2, q3                  \n" // tmp[8] = a0 - a1
 164     "vadd.s32        q1, q5, q4                  \n" // tmp[4] = a3 + a2
 165     "vsub.s32        q3, q5, q4                  \n" // tmp[12] = a3 - a2
 166
 167     // Transpose
 168     // q0 = tmp[0, 4, 8, 12], q1 = tmp[2, 6, 10, 14]
 169     // q2 = tmp[1, 5, 9, 13], q3 = tmp[3, 7, 11, 15]
 170     "vswp            d1, d4                      \n" // vtrn.64 q0, q2
 171     "vswp            d3, d6                      \n" // vtrn.64 q1, q3
 172     "vtrn.32         q0, q1                      \n"
 173     "vtrn.32         q2, q3                      \n"
 174
 175     "vmov.s32        q4, #3                      \n" // dc = 3
 176     "vadd.s32        q0, q0, q4                  \n" // dc = tmp[0] + 3
 177     "vadd.s32        q6, q0, q3                  \n" // a0 = dc + tmp[3]
 178     "vadd.s32        q7, q1, q2                  \n" // a1 = tmp[1] + tmp[2]
 179     "vsub.s32        q8, q1, q2                  \n" // a2 = tmp[1] - tmp[2]
 180     "vsub.s32        q9, q0, q3                  \n" // a3 = dc - tmp[3]
 181
 182     "vadd.s32        q0, q6, q7                  \n"
 183     "vshrn.s32       d0, q0, #3                  \n" // (a0 + a1) >> 3
 184     "vadd.s32        q1, q9, q8                  \n"
 185     "vshrn.s32       d1, q1, #3                  \n" // (a3 + a2) >> 3
 186     "vsub.s32        q2, q6, q7                  \n"
 187     "vshrn.s32       d2, q2, #3                  \n" // (a0 - a1) >> 3
 188     "vsub.s32        q3, q9, q8                  \n"
 189     "vshrn.s32       d3, q3, #3                  \n" // (a3 - a2) >> 3
 190
 191     // set the results to output
 192     "vst1.16         d0[0], [%[out]], %[kStep]      \n"
 193     "vst1.16         d1[0], [%[out]], %[kStep]      \n"
 194     "vst1.16         d2[0], [%[out]], %[kStep]      \n"
 195     "vst1.16         d3[0], [%[out]], %[kStep]      \n"
 196     "vst1.16         d0[1], [%[out]], %[kStep]      \n"
 197     "vst1.16         d1[1], [%[out]], %[kStep]      \n"
 198     "vst1.16         d2[1], [%[out]], %[kStep]      \n"
 199     "vst1.16         d3[1], [%[out]], %[kStep]      \n"
 200     "vst1.16         d0[2], [%[out]], %[kStep]      \n"
 201     "vst1.16         d1[2], [%[out]], %[kStep]      \n"
 202     "vst1.16         d2[2], [%[out]], %[kStep]      \n"
 203     "vst1.16         d3[2], [%[out]], %[kStep]      \n"
 204     "vst1.16         d0[3], [%[out]], %[kStep]      \n"
 205     "vst1.16         d1[3], [%[out]], %[kStep]      \n"
 206     "vst1.16         d2[3], [%[out]], %[kStep]      \n"
 207     "vst1.16         d3[3], [%[out]], %[kStep]      \n"
 208
 209     : [out] "+r"(out)  // modified registers
 210     : [in] "r"(in), [kStep] "r"(kStep)  // constants
 211     : "memory", "q0", "q1", "q2", "q3", "q4",
 212       "q5", "q6", "q7", "q8", "q9" // clobbered
 213   );
 214 }
 215
 216 // Forward transform.
 217
 218 // adapted from vp8/encoder/arm/neon/shortfdct_neon.asm
 219 static const int16_t kCoeff16[] = {
 220   5352,  5352,  5352, 5352, 2217,  2217,  2217, 2217
 221 };
 222 static const int32_t kCoeff32[] = {
 223    1812,  1812,  1812,  1812,
 224     937,   937,   937,   937,
 225   12000, 12000, 12000, 12000,
 226   51000, 51000, 51000, 51000
 227 };
 228
 229 static void FTransform(const uint8_t* src, const uint8_t* ref,
 230                        int16_t* out) {
 231   const int kBPS = BPS;
 232   const uint8_t* src_ptr = src;
 233   const uint8_t* ref_ptr = ref;
 234   const int16_t* coeff16 = kCoeff16;
 235   const int32_t* coeff32 = kCoeff32;
 236
 237   __asm__ volatile (
 238     // load src into q4, q5 in high half
 239     "vld1.8 {d8},  [%[src_ptr]], %[kBPS]      \n"
 240     "vld1.8 {d10}, [%[src_ptr]], %[kBPS]      \n"
 241     "vld1.8 {d9},  [%[src_ptr]], %[kBPS]      \n"
 242     "vld1.8 {d11}, [%[src_ptr]]               \n"
 243
 244     // load ref into q6, q7 in high half
 245     "vld1.8 {d12}, [%[ref_ptr]], %[kBPS]      \n"
 246     "vld1.8 {d14}, [%[ref_ptr]], %[kBPS]      \n"
 247     "vld1.8 {d13}, [%[ref_ptr]], %[kBPS]      \n"
 248     "vld1.8 {d15}, [%[ref_ptr]]               \n"
 249
 250     // Pack the high values in to q4 and q6
 251     "vtrn.32     q4, q5                       \n"
 252     "vtrn.32     q6, q7                       \n"
 253
 254     // d[0-3] = src - ref
 255     "vsubl.u8    q0, d8, d12                  \n"
 256     "vsubl.u8    q1, d9, d13                  \n"
 257
 258     // load coeff16 into q8(d16=5352, d17=2217)
 259     "vld1.16     {q8}, [%[coeff16]]           \n"
 260
 261     // load coeff32 high half into q9 = 1812, q10 = 937
 262     "vld1.32     {q9, q10}, [%[coeff32]]!     \n"
 263
 264     // load coeff32 low half into q11=12000, q12=51000
 265     "vld1.32     {q11,q12}, [%[coeff32]]      \n"
 266
 267     // part 1
 268     // Transpose. Register dN is the same as dN in C
 269     "vtrn.32         d0, d2                   \n"
 270     "vtrn.32         d1, d3                   \n"
 271     "vtrn.16         d0, d1                   \n"
 272     "vtrn.16         d2, d3                   \n"
 273
 274     "vadd.s16        d4, d0, d3               \n" // a0 = d0 + d3
 275     "vadd.s16        d5, d1, d2               \n" // a1 = d1 + d2
 276     "vsub.s16        d6, d1, d2               \n" // a2 = d1 - d2
 277     "vsub.s16        d7, d0, d3               \n" // a3 = d0 - d3
 278
 279     "vadd.s16        d0, d4, d5               \n" // a0 + a1
 280     "vshl.s16        d0, d0, #3               \n" // temp[0+i*4] = (a0+a1) << 3
 281     "vsub.s16        d2, d4, d5               \n" // a0 - a1
 282     "vshl.s16        d2, d2, #3               \n" // (temp[2+i*4] = (a0-a1) << 3
 283
 284     "vmlal.s16       q9, d7, d16              \n" // a3*5352 + 1812
 285     "vmlal.s16       q10, d7, d17             \n" // a3*2217 + 937
 286     "vmlal.s16       q9, d6, d17              \n" // a2*2217 + a3*5352 + 1812
 287     "vmlsl.s16       q10, d6, d16             \n" // a3*2217 + 937 - a2*5352
 288
 289     // temp[1+i*4] = (d2*2217 + d3*5352 + 1812) >> 9
 290     // temp[3+i*4] = (d3*2217 + 937 - d2*5352) >> 9
 291     "vshrn.s32       d1, q9, #9               \n"
 292     "vshrn.s32       d3, q10, #9              \n"
 293
 294     // part 2
 295     // transpose d0=ip[0], d1=ip[4], d2=ip[8], d3=ip[12]
 296     "vtrn.32         d0, d2                   \n"
 297     "vtrn.32         d1, d3                   \n"
 298     "vtrn.16         d0, d1                   \n"
 299     "vtrn.16         d2, d3                   \n"
 300
 301     "vmov.s16        d26, #7                  \n"
 302
 303     "vadd.s16        d4, d0, d3               \n" // a1 = ip[0] + ip[12]
 304     "vadd.s16        d5, d1, d2               \n" // b1 = ip[4] + ip[8]
 305     "vsub.s16        d6, d1, d2               \n" // c1 = ip[4] - ip[8]
 306     "vadd.s16        d4, d4, d26              \n" // a1 + 7
 307     "vsub.s16        d7, d0, d3               \n" // d1 = ip[0] - ip[12]
 308
 309     "vadd.s16        d0, d4, d5               \n" // op[0] = a1 + b1 + 7
 310     "vsub.s16        d2, d4, d5               \n" // op[8] = a1 - b1 + 7
 311
 312     "vmlal.s16       q11, d7, d16             \n" // d1*5352 + 12000
 313     "vmlal.s16       q12, d7, d17             \n" // d1*2217 + 51000
 314
 315     "vceq.s16        d4, d7, #0               \n"
 316
 317     "vshr.s16        d0, d0, #4               \n"
 318     "vshr.s16        d2, d2, #4               \n"
 319
 320     "vmlal.s16       q11, d6, d17             \n" // c1*2217 + d1*5352 + 12000
 321     "vmlsl.s16       q12, d6, d16             \n" // d1*2217 - c1*5352 + 51000
 322
 323     "vmvn            d4, d4                   \n" // !(d1 == 0)
 324     // op[4] = (c1*2217 + d1*5352 + 12000)>>16
 325     "vshrn.s32       d1, q11, #16             \n"
 326     // op[4] += (d1!=0)
 327     "vsub.s16        d1, d1, d4               \n"
 328     // op[12]= (d1*2217 - c1*5352 + 51000)>>16
 329     "vshrn.s32       d3, q12, #16             \n"
 330
 331     // set result to out array
 332     "vst1.16         {q0, q1}, [%[out]]   \n"
 333     : [src_ptr] "+r"(src_ptr), [ref_ptr] "+r"(ref_ptr),
 334       [coeff32] "+r"(coeff32)          // modified registers
 335     : [kBPS] "r"(kBPS), [coeff16] "r"(coeff16),
 336       [out] "r"(out)                   // constants
 337     : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8", "q9",
 338       "q10", "q11", "q12", "q13"       // clobbered
 339   );
 340 }
 341
 342 static void FTransformWHT(const int16_t* in, int16_t* out) {
 343   const int kStep = 32;
 344   __asm__ volatile (
 345     // d0 = in[0 * 16] , d1 = in[1 * 16]
 346     // d2 = in[2 * 16] , d3 = in[3 * 16]
 347     "vld1.16         d0[0], [%[in]], %[kStep]   \n"
 348     "vld1.16         d1[0], [%[in]], %[kStep]   \n"
 349     "vld1.16         d2[0], [%[in]], %[kStep]   \n"
 350     "vld1.16         d3[0], [%[in]], %[kStep]   \n"
 351     "vld1.16         d0[1], [%[in]], %[kStep]   \n"
 352     "vld1.16         d1[1], [%[in]], %[kStep]   \n"
 353     "vld1.16         d2[1], [%[in]], %[kStep]   \n"
 354     "vld1.16         d3[1], [%[in]], %[kStep]   \n"
 355     "vld1.16         d0[2], [%[in]], %[kStep]   \n"
 356     "vld1.16         d1[2], [%[in]], %[kStep]   \n"
 357     "vld1.16         d2[2], [%[in]], %[kStep]   \n"
 358     "vld1.16         d3[2], [%[in]], %[kStep]   \n"
 359     "vld1.16         d0[3], [%[in]], %[kStep]   \n"
 360     "vld1.16         d1[3], [%[in]], %[kStep]   \n"
 361     "vld1.16         d2[3], [%[in]], %[kStep]   \n"
 362     "vld1.16         d3[3], [%[in]], %[kStep]   \n"
 363
 364     "vaddl.s16       q2, d0, d2                 \n" // a0=(in[0*16]+in[2*16])
 365     "vaddl.s16       q3, d1, d3                 \n" // a1=(in[1*16]+in[3*16])
 366     "vsubl.s16       q4, d1, d3                 \n" // a2=(in[1*16]-in[3*16])
 367     "vsubl.s16       q5, d0, d2                 \n" // a3=(in[0*16]-in[2*16])
 368
 369     "vqadd.s32       q6, q2, q3                 \n" // a0 + a1
 370     "vqadd.s32       q7, q5, q4                 \n" // a3 + a2
 371     "vqsub.s32       q8, q5, q4                 \n" // a3 - a2
 372     "vqsub.s32       q9, q2, q3                 \n" // a0 - a1
 373
 374     // Transpose
 375     // q6 = tmp[0, 1,  2,  3] ; q7 = tmp[ 4,  5,  6,  7]
 376     // q8 = tmp[8, 9, 10, 11] ; q9 = tmp[12, 13, 14, 15]
 377     "vswp            d13, d16                   \n" // vtrn.64 q0, q2
 378     "vswp            d15, d18                   \n" // vtrn.64 q1, q3
 379     "vtrn.32         q6, q7                     \n"
 380     "vtrn.32         q8, q9                     \n"
 381
 382     "vqadd.s32       q0, q6, q8                 \n" // a0 = tmp[0] + tmp[8]
 383     "vqadd.s32       q1, q7, q9                 \n" // a1 = tmp[4] + tmp[12]
 384     "vqsub.s32       q2, q7, q9                 \n" // a2 = tmp[4] - tmp[12]
 385     "vqsub.s32       q3, q6, q8                 \n" // a3 = tmp[0] - tmp[8]
 386
 387     "vqadd.s32       q4, q0, q1                 \n" // b0 = a0 + a1
 388     "vqadd.s32       q5, q3, q2                 \n" // b1 = a3 + a2
 389     "vqsub.s32       q6, q3, q2                 \n" // b2 = a3 - a2
 390     "vqsub.s32       q7, q0, q1                 \n" // b3 = a0 - a1
 391
 392     "vshrn.s32       d18, q4, #1                \n" // b0 >> 1
 393     "vshrn.s32       d19, q5, #1                \n" // b1 >> 1
 394     "vshrn.s32       d20, q6, #1                \n" // b2 >> 1
 395     "vshrn.s32       d21, q7, #1                \n" // b3 >> 1
 396
 397     "vst1.16         {q9, q10}, [%[out]]        \n"
 398
 399     : [in] "+r"(in)
 400     : [kStep] "r"(kStep), [out] "r"(out)
 401     : "memory", "q0", "q1", "q2", "q3", "q4", "q5",
 402       "q6", "q7", "q8", "q9", "q10"       // clobbered
 403   ) ;
 404 }
 405
 406 //------------------------------------------------------------------------------
 407 // Texture distortion
 408 //
 409 // We try to match the spectral content (weighted) between source and
 410 // reconstructed samples.
 411
 412 // Hadamard transform
 413 // Returns the weighted sum of the absolute value of transformed coefficients.
 414 // This uses a TTransform helper function in C
 415 static int Disto4x4(const uint8_t* const a, const uint8_t* const b,
 416                     const uint16_t* const w) {
 417   const int kBPS = BPS;
 418   const uint8_t* A = a;
 419   const uint8_t* B = b;
 420   const uint16_t* W = w;
 421   int sum;
 422   __asm__ volatile (
 423     "vld1.32         d0[0], [%[a]], %[kBPS]   \n"
 424     "vld1.32         d0[1], [%[a]], %[kBPS]   \n"
 425     "vld1.32         d2[0], [%[a]], %[kBPS]   \n"
 426     "vld1.32         d2[1], [%[a]]            \n"
 427
 428     "vld1.32         d1[0], [%[b]], %[kBPS]   \n"
 429     "vld1.32         d1[1], [%[b]], %[kBPS]   \n"
 430     "vld1.32         d3[0], [%[b]], %[kBPS]   \n"
 431     "vld1.32         d3[1], [%[b]]            \n"
 432
 433     // a d0/d2, b d1/d3
 434     // d0/d1: 01 01 01 01
 435     // d2/d3: 23 23 23 23
 436     // But: it goes 01 45 23 67
 437     // Notice the middle values are transposed
 438     "vtrn.16         q0, q1                   \n"
 439
 440     // {a0, a1} = {in[0] + in[2], in[1] + in[3]}
 441     "vaddl.u8        q2, d0, d2               \n"
 442     "vaddl.u8        q10, d1, d3              \n"
 443     // {a3, a2} = {in[0] - in[2], in[1] - in[3]}
 444     "vsubl.u8        q3, d0, d2               \n"
 445     "vsubl.u8        q11, d1, d3              \n"
 446
 447     // tmp[0] = a0 + a1
 448     "vpaddl.s16      q0, q2                   \n"
 449     "vpaddl.s16      q8, q10                  \n"
 450
 451     // tmp[1] = a3 + a2
 452     "vpaddl.s16      q1, q3                   \n"
 453     "vpaddl.s16      q9, q11                  \n"
 454
 455     // No pair subtract
 456     // q2 = {a0, a3}
 457     // q3 = {a1, a2}
 458     "vtrn.16         q2, q3                   \n"
 459     "vtrn.16         q10, q11                 \n"
 460
 461     // {tmp[3], tmp[2]} = {a0 - a1, a3 - a2}
 462     "vsubl.s16       q12, d4, d6              \n"
 463     "vsubl.s16       q13, d5, d7              \n"
 464     "vsubl.s16       q14, d20, d22            \n"
 465     "vsubl.s16       q15, d21, d23            \n"
 466
 467     // separate tmp[3] and tmp[2]
 468     // q12 = tmp[3]
 469     // q13 = tmp[2]
 470     "vtrn.32         q12, q13                 \n"
 471     "vtrn.32         q14, q15                 \n"
 472
 473     // Transpose tmp for a
 474     "vswp            d1, d26                  \n" // vtrn.64
 475     "vswp            d3, d24                  \n" // vtrn.64
 476     "vtrn.32         q0, q1                   \n"
 477     "vtrn.32         q13, q12                 \n"
 478
 479     // Transpose tmp for b
 480     "vswp            d17, d30                 \n" // vtrn.64
 481     "vswp            d19, d28                 \n" // vtrn.64
 482     "vtrn.32         q8, q9                   \n"
 483     "vtrn.32         q15, q14                 \n"
 484
 485     // The first Q register is a, the second b.
 486     // q0/8 tmp[0-3]
 487     // q13/15 tmp[4-7]
 488     // q1/9 tmp[8-11]
 489     // q12/14 tmp[12-15]
 490
 491     // These are still in 01 45 23 67 order. We fix it easily in the addition
 492     // case but the subtraction propagates them.
 493     "vswp            d3, d27                  \n"
 494     "vswp            d19, d31                 \n"
 495
 496     // a0 = tmp[0] + tmp[8]
 497     "vadd.s32        q2, q0, q1               \n"
 498     "vadd.s32        q3, q8, q9               \n"
 499
 500     // a1 = tmp[4] + tmp[12]
 501     "vadd.s32        q10, q13, q12            \n"
 502     "vadd.s32        q11, q15, q14            \n"
 503
 504     // a2 = tmp[4] - tmp[12]
 505     "vsub.s32        q13, q13, q12            \n"
 506     "vsub.s32        q15, q15, q14            \n"
 507
 508     // a3 = tmp[0] - tmp[8]
 509     "vsub.s32        q0, q0, q1               \n"
 510     "vsub.s32        q8, q8, q9               \n"
 511
 512     // b0 = a0 + a1
 513     "vadd.s32        q1, q2, q10              \n"
 514     "vadd.s32        q9, q3, q11              \n"
 515
 516     // b1 = a3 + a2
 517     "vadd.s32        q12, q0, q13             \n"
 518     "vadd.s32        q14, q8, q15             \n"
 519
 520     // b2 = a3 - a2
 521     "vsub.s32        q0, q0, q13              \n"
 522     "vsub.s32        q8, q8, q15              \n"
 523
 524     // b3 = a0 - a1
 525     "vsub.s32        q2, q2, q10              \n"
 526     "vsub.s32        q3, q3, q11              \n"
 527
 528     "vld1.64         {q10, q11}, [%[w]]       \n"
 529
 530     // abs(b0)
 531     "vabs.s32        q1, q1                   \n"
 532     "vabs.s32        q9, q9                   \n"
 533     // abs(b1)
 534     "vabs.s32        q12, q12                 \n"
 535     "vabs.s32        q14, q14                 \n"
 536     // abs(b2)
 537     "vabs.s32        q0, q0                   \n"
 538     "vabs.s32        q8, q8                   \n"
 539     // abs(b3)
 540     "vabs.s32        q2, q2                   \n"
 541     "vabs.s32        q3, q3                   \n"
 542
 543     // expand w before using.
 544     "vmovl.u16       q13, d20                 \n"
 545     "vmovl.u16       q15, d21                 \n"
 546
 547     // w[0] * abs(b0)
 548     "vmul.u32        q1, q1, q13              \n"
 549     "vmul.u32        q9, q9, q13              \n"
 550
 551     // w[4] * abs(b1)
 552     "vmla.u32        q1, q12, q15             \n"
 553     "vmla.u32        q9, q14, q15             \n"
 554
 555     // expand w before using.
 556     "vmovl.u16       q13, d22                 \n"
 557     "vmovl.u16       q15, d23                 \n"
 558
 559     // w[8] * abs(b1)
 560     "vmla.u32        q1, q0, q13              \n"
 561     "vmla.u32        q9, q8, q13              \n"
 562
 563     // w[12] * abs(b1)
 564     "vmla.u32        q1, q2, q15              \n"
 565     "vmla.u32        q9, q3, q15              \n"
 566
 567     // Sum the arrays
 568     "vpaddl.u32      q1, q1                   \n"
 569     "vpaddl.u32      q9, q9                   \n"
 570     "vadd.u64        d2, d3                   \n"
 571     "vadd.u64        d18, d19                 \n"
 572
 573     // Hadamard transform needs 4 bits of extra precision (2 bits in each
 574     // direction) for dynamic raw. Weights w[] are 16bits at max, so the maximum
 575     // precision for coeff is 8bit of input + 4bits of Hadamard transform +
 576     // 16bits for w[] + 2 bits of abs() summation.
 577     //
 578     // This uses a maximum of 31 bits (signed). Discarding the top 32 bits is
 579     // A-OK.
 580
 581     // sum2 - sum1
 582     "vsub.u32        d0, d2, d18              \n"
 583     // abs(sum2 - sum1)
 584     "vabs.s32        d0, d0                   \n"
 585     // abs(sum2 - sum1) >> 5
 586     "vshr.u32        d0, #5                   \n"
 587
 588     // It would be better to move the value straight into r0 but I'm not
 589     // entirely sure how this works with inline assembly.
 590     "vmov.32         %[sum], d0[0]            \n"
 591
 592     : [sum] "=r"(sum), [a] "+r"(A), [b] "+r"(B), [w] "+r"(W)
 593     : [kBPS] "r"(kBPS)
 594     : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8", "q9",
 595       "q10", "q11", "q12", "q13", "q14", "q15"  // clobbered
 596   ) ;
 597
 598   return sum;
 599 }
 600
 601 static int Disto16x16(const uint8_t* const a, const uint8_t* const b,
 602                       const uint16_t* const w) {
 603   int D = 0;
 604   int x, y;
 605   for (y = 0; y < 16 * BPS; y += 4 * BPS) {
 606     for (x = 0; x < 16; x += 4) {
 607       D += Disto4x4(a + x + y, b + x + y, w);
 608     }
 609   }
 610   return D;
 611 }
 612
 613 #endif   // WEBP_USE_NEON
 614
 615 //------------------------------------------------------------------------------
 616 // Entry point
 617
 618 extern void VP8EncDspInitNEON(void);
 619
 620 void VP8EncDspInitNEON(void) {
 621 #if defined(WEBP_USE_NEON)
 622   VP8ITransform = ITransform;
 623   VP8FTransform = FTransform;
 624
 625   VP8ITransformWHT = ITransformWHT;
 626   VP8FTransformWHT = FTransformWHT;
 627
 628   VP8TDisto4x4 = Disto4x4;
 629   VP8TDisto16x16 = Disto16x16;
 630 #endif   // WEBP_USE_NEON
 631 }
 632