1 // Copyright 2012 Google Inc. All Rights Reserved.
3 // Use of this source code is governed by a BSD-style license
4 // that can be found in the COPYING file in the root of the source
5 // tree. An additional intellectual property rights grant can be found
6 // in the file PATENTS. All contributing project authors may
7 // be found in the AUTHORS file in the root of the source tree.
8 // -----------------------------------------------------------------------------
10 // ARM NEON version of speed-critical encoding functions.
12 // adapted from libvpx (http://www.webmproject.org/code/)
16 #if defined(__cplusplus) || defined(c_plusplus)
20 #if defined(WEBP_USE_NEON)
22 #include "../enc/vp8enci.h"
24 //------------------------------------------------------------------------------
25 // Transforms (Paragraph 14.4)
28 // This code is pretty much the same as TransformOneNEON in the decoder, except
29 // for subtraction to *ref. See the comments there for algorithmic explanations.
30 static void ITransformOne(const uint8_t* ref
,
31 const int16_t* in
, uint8_t* dst
) {
33 const int16_t kC1C2
[] = { 20091, 17734, 0, 0 }; // kC1 / (kC2 >> 1) / 0 / 0
36 "vld1.16 {q1, q2}, [%[in]] \n"
37 "vld1.16 {d0}, [%[kC1C2]] \n"
45 // q8 = {in[4], in[12]} * kC1 * 2 >> 16
46 // q9 = {in[4], in[12]} * kC2 >> 16
47 "vqdmulh.s16 q8, q2, d0[0] \n"
48 "vqdmulh.s16 q9, q2, d0[1] \n"
50 // d22 = a = in[0] + in[8]
51 // d23 = b = in[0] - in[8]
52 "vqadd.s16 d22, d2, d3 \n"
53 "vqsub.s16 d23, d2, d3 \n"
55 // q8 = in[4]/[12] * kC1 >> 16
56 "vshr.s16 q8, q8, #1 \n"
58 // Add {in[4], in[12]} back after the multiplication.
59 "vqadd.s16 q8, q2, q8 \n"
61 // d20 = c = in[4]*kC2 - in[12]*kC1
62 // d21 = d = in[4]*kC1 + in[12]*kC2
63 "vqsub.s16 d20, d18, d17 \n"
64 "vqadd.s16 d21, d19, d16 \n"
66 // d2 = tmp[0] = a + d
67 // d3 = tmp[1] = b + c
68 // d4 = tmp[2] = b - c
69 // d5 = tmp[3] = a - d
70 "vqadd.s16 d2, d22, d21 \n"
71 "vqadd.s16 d3, d23, d20 \n"
72 "vqsub.s16 d4, d23, d20 \n"
73 "vqsub.s16 d5, d22, d21 \n"
80 // q8 = {tmp[4], tmp[12]} * kC1 * 2 >> 16
81 // q9 = {tmp[4], tmp[12]} * kC2 >> 16
82 "vqdmulh.s16 q8, q2, d0[0] \n"
83 "vqdmulh.s16 q9, q2, d0[1] \n"
85 // d22 = a = tmp[0] + tmp[8]
86 // d23 = b = tmp[0] - tmp[8]
87 "vqadd.s16 d22, d2, d3 \n"
88 "vqsub.s16 d23, d2, d3 \n"
90 "vshr.s16 q8, q8, #1 \n"
91 "vqadd.s16 q8, q2, q8 \n"
93 // d20 = c = in[4]*kC2 - in[12]*kC1
94 // d21 = d = in[4]*kC1 + in[12]*kC2
95 "vqsub.s16 d20, d18, d17 \n"
96 "vqadd.s16 d21, d19, d16 \n"
98 // d2 = tmp[0] = a + d
99 // d3 = tmp[1] = b + c
100 // d4 = tmp[2] = b - c
101 // d5 = tmp[3] = a - d
102 "vqadd.s16 d2, d22, d21 \n"
103 "vqadd.s16 d3, d23, d20 \n"
104 "vqsub.s16 d4, d23, d20 \n"
105 "vqsub.s16 d5, d22, d21 \n"
107 "vld1.32 d6[0], [%[ref]], %[kBPS] \n"
108 "vld1.32 d6[1], [%[ref]], %[kBPS] \n"
109 "vld1.32 d7[0], [%[ref]], %[kBPS] \n"
110 "vld1.32 d7[1], [%[ref]], %[kBPS] \n"
112 "sub %[ref], %[ref], %[kBPS], lsl #2 \n"
115 "vrshr.s16 d2, d2, #3 \n"
116 "vrshr.s16 d3, d3, #3 \n"
117 "vrshr.s16 d4, d4, #3 \n"
118 "vrshr.s16 d5, d5, #3 \n"
123 // Must accumulate before saturating
127 "vqadd.s16 q1, q1, q8 \n"
128 "vqadd.s16 q2, q2, q9 \n"
130 "vqmovun.s16 d0, q1 \n"
131 "vqmovun.s16 d1, q2 \n"
133 "vst1.32 d0[0], [%[dst]], %[kBPS] \n"
134 "vst1.32 d0[1], [%[dst]], %[kBPS] \n"
135 "vst1.32 d1[0], [%[dst]], %[kBPS] \n"
136 "vst1.32 d1[1], [%[dst]] \n"
138 : [in
] "+r"(in
), [dst
] "+r"(dst
) // modified registers
139 : [kBPS
] "r"(kBPS
), [kC1C2
] "r"(kC1C2
), [ref
] "r"(ref
) // constants
140 : "memory", "q0", "q1", "q2", "q8", "q9", "q10", "q11" // clobbered
144 static void ITransform(const uint8_t* ref
,
145 const int16_t* in
, uint8_t* dst
, int do_two
) {
146 ITransformOne(ref
, in
, dst
);
148 ITransformOne(ref
+ 4, in
+ 16, dst
+ 4);
152 // Same code as dec_neon.c
153 static void ITransformWHT(const int16_t* in
, int16_t* out
) {
154 const int kStep
= 32; // The store is only incrementing the pointer as if we
155 // had stored a single byte.
158 // load data into q0, q1
159 "vld1.16 {q0, q1}, [%[in]] \n"
161 "vaddl.s16 q2, d0, d3 \n" // a0 = in[0] + in[12]
162 "vaddl.s16 q3, d1, d2 \n" // a1 = in[4] + in[8]
163 "vsubl.s16 q4, d1, d2 \n" // a2 = in[4] - in[8]
164 "vsubl.s16 q5, d0, d3 \n" // a3 = in[0] - in[12]
166 "vadd.s32 q0, q2, q3 \n" // tmp[0] = a0 + a1
167 "vsub.s32 q2, q2, q3 \n" // tmp[8] = a0 - a1
168 "vadd.s32 q1, q5, q4 \n" // tmp[4] = a3 + a2
169 "vsub.s32 q3, q5, q4 \n" // tmp[12] = a3 - a2
172 // q0 = tmp[0, 4, 8, 12], q1 = tmp[2, 6, 10, 14]
173 // q2 = tmp[1, 5, 9, 13], q3 = tmp[3, 7, 11, 15]
174 "vswp d1, d4 \n" // vtrn.64 q0, q2
175 "vswp d3, d6 \n" // vtrn.64 q1, q3
179 "vmov.s32 q4, #3 \n" // dc = 3
180 "vadd.s32 q0, q0, q4 \n" // dc = tmp[0] + 3
181 "vadd.s32 q6, q0, q3 \n" // a0 = dc + tmp[3]
182 "vadd.s32 q7, q1, q2 \n" // a1 = tmp[1] + tmp[2]
183 "vsub.s32 q8, q1, q2 \n" // a2 = tmp[1] - tmp[2]
184 "vsub.s32 q9, q0, q3 \n" // a3 = dc - tmp[3]
186 "vadd.s32 q0, q6, q7 \n"
187 "vshrn.s32 d0, q0, #3 \n" // (a0 + a1) >> 3
188 "vadd.s32 q1, q9, q8 \n"
189 "vshrn.s32 d1, q1, #3 \n" // (a3 + a2) >> 3
190 "vsub.s32 q2, q6, q7 \n"
191 "vshrn.s32 d2, q2, #3 \n" // (a0 - a1) >> 3
192 "vsub.s32 q3, q9, q8 \n"
193 "vshrn.s32 d3, q3, #3 \n" // (a3 - a2) >> 3
195 // set the results to output
196 "vst1.16 d0[0], [%[out]], %[kStep] \n"
197 "vst1.16 d1[0], [%[out]], %[kStep] \n"
198 "vst1.16 d2[0], [%[out]], %[kStep] \n"
199 "vst1.16 d3[0], [%[out]], %[kStep] \n"
200 "vst1.16 d0[1], [%[out]], %[kStep] \n"
201 "vst1.16 d1[1], [%[out]], %[kStep] \n"
202 "vst1.16 d2[1], [%[out]], %[kStep] \n"
203 "vst1.16 d3[1], [%[out]], %[kStep] \n"
204 "vst1.16 d0[2], [%[out]], %[kStep] \n"
205 "vst1.16 d1[2], [%[out]], %[kStep] \n"
206 "vst1.16 d2[2], [%[out]], %[kStep] \n"
207 "vst1.16 d3[2], [%[out]], %[kStep] \n"
208 "vst1.16 d0[3], [%[out]], %[kStep] \n"
209 "vst1.16 d1[3], [%[out]], %[kStep] \n"
210 "vst1.16 d2[3], [%[out]], %[kStep] \n"
211 "vst1.16 d3[3], [%[out]], %[kStep] \n"
213 : [out
] "+r"(out
) // modified registers
214 : [in
] "r"(in
), [kStep
] "r"(kStep
) // constants
215 : "memory", "q0", "q1", "q2", "q3", "q4",
216 "q5", "q6", "q7", "q8", "q9" // clobbered
220 // Forward transform.
222 // adapted from vp8/encoder/arm/neon/shortfdct_neon.asm
223 static const int16_t kCoeff16
[] = {
224 5352, 5352, 5352, 5352, 2217, 2217, 2217, 2217
226 static const int32_t kCoeff32
[] = {
227 1812, 1812, 1812, 1812,
229 12000, 12000, 12000, 12000,
230 51000, 51000, 51000, 51000
233 static void FTransform(const uint8_t* src
, const uint8_t* ref
,
235 const int kBPS
= BPS
;
236 const uint8_t* src_ptr
= src
;
237 const uint8_t* ref_ptr
= ref
;
238 const int16_t* coeff16
= kCoeff16
;
239 const int32_t* coeff32
= kCoeff32
;
242 // load src into q4, q5 in high half
243 "vld1.8 {d8}, [%[src_ptr]], %[kBPS] \n"
244 "vld1.8 {d10}, [%[src_ptr]], %[kBPS] \n"
245 "vld1.8 {d9}, [%[src_ptr]], %[kBPS] \n"
246 "vld1.8 {d11}, [%[src_ptr]] \n"
248 // load ref into q6, q7 in high half
249 "vld1.8 {d12}, [%[ref_ptr]], %[kBPS] \n"
250 "vld1.8 {d14}, [%[ref_ptr]], %[kBPS] \n"
251 "vld1.8 {d13}, [%[ref_ptr]], %[kBPS] \n"
252 "vld1.8 {d15}, [%[ref_ptr]] \n"
254 // Pack the high values in to q4 and q6
258 // d[0-3] = src - ref
259 "vsubl.u8 q0, d8, d12 \n"
260 "vsubl.u8 q1, d9, d13 \n"
262 // load coeff16 into q8(d16=5352, d17=2217)
263 "vld1.16 {q8}, [%[coeff16]] \n"
265 // load coeff32 high half into q9 = 1812, q10 = 937
266 "vld1.32 {q9, q10}, [%[coeff32]]! \n"
268 // load coeff32 low half into q11=12000, q12=51000
269 "vld1.32 {q11,q12}, [%[coeff32]] \n"
272 // Transpose. Register dN is the same as dN in C
278 "vadd.s16 d4, d0, d3 \n" // a0 = d0 + d3
279 "vadd.s16 d5, d1, d2 \n" // a1 = d1 + d2
280 "vsub.s16 d6, d1, d2 \n" // a2 = d1 - d2
281 "vsub.s16 d7, d0, d3 \n" // a3 = d0 - d3
283 "vadd.s16 d0, d4, d5 \n" // a0 + a1
284 "vshl.s16 d0, d0, #3 \n" // temp[0+i*4] = (a0+a1) << 3
285 "vsub.s16 d2, d4, d5 \n" // a0 - a1
286 "vshl.s16 d2, d2, #3 \n" // (temp[2+i*4] = (a0-a1) << 3
288 "vmlal.s16 q9, d7, d16 \n" // a3*5352 + 1812
289 "vmlal.s16 q10, d7, d17 \n" // a3*2217 + 937
290 "vmlal.s16 q9, d6, d17 \n" // a2*2217 + a3*5352 + 1812
291 "vmlsl.s16 q10, d6, d16 \n" // a3*2217 + 937 - a2*5352
293 // temp[1+i*4] = (d2*2217 + d3*5352 + 1812) >> 9
294 // temp[3+i*4] = (d3*2217 + 937 - d2*5352) >> 9
295 "vshrn.s32 d1, q9, #9 \n"
296 "vshrn.s32 d3, q10, #9 \n"
299 // transpose d0=ip[0], d1=ip[4], d2=ip[8], d3=ip[12]
305 "vmov.s16 d26, #7 \n"
307 "vadd.s16 d4, d0, d3 \n" // a1 = ip[0] + ip[12]
308 "vadd.s16 d5, d1, d2 \n" // b1 = ip[4] + ip[8]
309 "vsub.s16 d6, d1, d2 \n" // c1 = ip[4] - ip[8]
310 "vadd.s16 d4, d4, d26 \n" // a1 + 7
311 "vsub.s16 d7, d0, d3 \n" // d1 = ip[0] - ip[12]
313 "vadd.s16 d0, d4, d5 \n" // op[0] = a1 + b1 + 7
314 "vsub.s16 d2, d4, d5 \n" // op[8] = a1 - b1 + 7
316 "vmlal.s16 q11, d7, d16 \n" // d1*5352 + 12000
317 "vmlal.s16 q12, d7, d17 \n" // d1*2217 + 51000
319 "vceq.s16 d4, d7, #0 \n"
321 "vshr.s16 d0, d0, #4 \n"
322 "vshr.s16 d2, d2, #4 \n"
324 "vmlal.s16 q11, d6, d17 \n" // c1*2217 + d1*5352 + 12000
325 "vmlsl.s16 q12, d6, d16 \n" // d1*2217 - c1*5352 + 51000
327 "vmvn d4, d4 \n" // !(d1 == 0)
328 // op[4] = (c1*2217 + d1*5352 + 12000)>>16
329 "vshrn.s32 d1, q11, #16 \n"
331 "vsub.s16 d1, d1, d4 \n"
332 // op[12]= (d1*2217 - c1*5352 + 51000)>>16
333 "vshrn.s32 d3, q12, #16 \n"
335 // set result to out array
336 "vst1.16 {q0, q1}, [%[out]] \n"
337 : [src_ptr
] "+r"(src_ptr
), [ref_ptr
] "+r"(ref_ptr
),
338 [coeff32
] "+r"(coeff32
) // modified registers
339 : [kBPS
] "r"(kBPS
), [coeff16
] "r"(coeff16
),
340 [out
] "r"(out
) // constants
341 : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8", "q9",
342 "q10", "q11", "q12", "q13" // clobbered
346 static void FTransformWHT(const int16_t* in
, int16_t* out
) {
347 const int kStep
= 32;
349 // d0 = in[0 * 16] , d1 = in[1 * 16]
350 // d2 = in[2 * 16] , d3 = in[3 * 16]
351 "vld1.16 d0[0], [%[in]], %[kStep] \n"
352 "vld1.16 d1[0], [%[in]], %[kStep] \n"
353 "vld1.16 d2[0], [%[in]], %[kStep] \n"
354 "vld1.16 d3[0], [%[in]], %[kStep] \n"
355 "vld1.16 d0[1], [%[in]], %[kStep] \n"
356 "vld1.16 d1[1], [%[in]], %[kStep] \n"
357 "vld1.16 d2[1], [%[in]], %[kStep] \n"
358 "vld1.16 d3[1], [%[in]], %[kStep] \n"
359 "vld1.16 d0[2], [%[in]], %[kStep] \n"
360 "vld1.16 d1[2], [%[in]], %[kStep] \n"
361 "vld1.16 d2[2], [%[in]], %[kStep] \n"
362 "vld1.16 d3[2], [%[in]], %[kStep] \n"
363 "vld1.16 d0[3], [%[in]], %[kStep] \n"
364 "vld1.16 d1[3], [%[in]], %[kStep] \n"
365 "vld1.16 d2[3], [%[in]], %[kStep] \n"
366 "vld1.16 d3[3], [%[in]], %[kStep] \n"
368 "vaddl.s16 q2, d0, d2 \n" // a0=(in[0*16]+in[2*16])
369 "vaddl.s16 q3, d1, d3 \n" // a1=(in[1*16]+in[3*16])
370 "vsubl.s16 q4, d1, d3 \n" // a2=(in[1*16]-in[3*16])
371 "vsubl.s16 q5, d0, d2 \n" // a3=(in[0*16]-in[2*16])
373 "vqadd.s32 q6, q2, q3 \n" // a0 + a1
374 "vqadd.s32 q7, q5, q4 \n" // a3 + a2
375 "vqsub.s32 q8, q5, q4 \n" // a3 - a2
376 "vqsub.s32 q9, q2, q3 \n" // a0 - a1
379 // q6 = tmp[0, 1, 2, 3] ; q7 = tmp[ 4, 5, 6, 7]
380 // q8 = tmp[8, 9, 10, 11] ; q9 = tmp[12, 13, 14, 15]
381 "vswp d13, d16 \n" // vtrn.64 q0, q2
382 "vswp d15, d18 \n" // vtrn.64 q1, q3
386 "vqadd.s32 q0, q6, q8 \n" // a0 = tmp[0] + tmp[8]
387 "vqadd.s32 q1, q7, q9 \n" // a1 = tmp[4] + tmp[12]
388 "vqsub.s32 q2, q7, q9 \n" // a2 = tmp[4] - tmp[12]
389 "vqsub.s32 q3, q6, q8 \n" // a3 = tmp[0] - tmp[8]
391 "vqadd.s32 q4, q0, q1 \n" // b0 = a0 + a1
392 "vqadd.s32 q5, q3, q2 \n" // b1 = a3 + a2
393 "vqsub.s32 q6, q3, q2 \n" // b2 = a3 - a2
394 "vqsub.s32 q7, q0, q1 \n" // b3 = a0 - a1
396 "vshrn.s32 d18, q4, #1 \n" // b0 >> 1
397 "vshrn.s32 d19, q5, #1 \n" // b1 >> 1
398 "vshrn.s32 d20, q6, #1 \n" // b2 >> 1
399 "vshrn.s32 d21, q7, #1 \n" // b3 >> 1
401 "vst1.16 {q9, q10}, [%[out]] \n"
404 : [kStep
] "r"(kStep
), [out
] "r"(out
)
405 : "memory", "q0", "q1", "q2", "q3", "q4", "q5",
406 "q6", "q7", "q8", "q9", "q10" // clobbered
410 //------------------------------------------------------------------------------
411 // Texture distortion
413 // We try to match the spectral content (weighted) between source and
414 // reconstructed samples.
416 // Hadamard transform
417 // Returns the weighted sum of the absolute value of transformed coefficients.
418 // This uses a TTransform helper function in C
419 static int Disto4x4(const uint8_t* const a
, const uint8_t* const b
,
420 const uint16_t* const w
) {
421 const int kBPS
= BPS
;
422 const uint8_t* A
= a
;
423 const uint8_t* B
= b
;
424 const uint16_t* W
= w
;
427 "vld1.32 d0[0], [%[a]], %[kBPS] \n"
428 "vld1.32 d0[1], [%[a]], %[kBPS] \n"
429 "vld1.32 d2[0], [%[a]], %[kBPS] \n"
430 "vld1.32 d2[1], [%[a]] \n"
432 "vld1.32 d1[0], [%[b]], %[kBPS] \n"
433 "vld1.32 d1[1], [%[b]], %[kBPS] \n"
434 "vld1.32 d3[0], [%[b]], %[kBPS] \n"
435 "vld1.32 d3[1], [%[b]] \n"
438 // d0/d1: 01 01 01 01
439 // d2/d3: 23 23 23 23
440 // But: it goes 01 45 23 67
441 // Notice the middle values are transposed
444 // {a0, a1} = {in[0] + in[2], in[1] + in[3]}
445 "vaddl.u8 q2, d0, d2 \n"
446 "vaddl.u8 q10, d1, d3 \n"
447 // {a3, a2} = {in[0] - in[2], in[1] - in[3]}
448 "vsubl.u8 q3, d0, d2 \n"
449 "vsubl.u8 q11, d1, d3 \n"
452 "vpaddl.s16 q0, q2 \n"
453 "vpaddl.s16 q8, q10 \n"
456 "vpaddl.s16 q1, q3 \n"
457 "vpaddl.s16 q9, q11 \n"
463 "vtrn.16 q10, q11 \n"
465 // {tmp[3], tmp[2]} = {a0 - a1, a3 - a2}
466 "vsubl.s16 q12, d4, d6 \n"
467 "vsubl.s16 q13, d5, d7 \n"
468 "vsubl.s16 q14, d20, d22 \n"
469 "vsubl.s16 q15, d21, d23 \n"
471 // separate tmp[3] and tmp[2]
474 "vtrn.32 q12, q13 \n"
475 "vtrn.32 q14, q15 \n"
477 // Transpose tmp for a
478 "vswp d1, d26 \n" // vtrn.64
479 "vswp d3, d24 \n" // vtrn.64
481 "vtrn.32 q13, q12 \n"
483 // Transpose tmp for b
484 "vswp d17, d30 \n" // vtrn.64
485 "vswp d19, d28 \n" // vtrn.64
487 "vtrn.32 q15, q14 \n"
489 // The first Q register is a, the second b.
495 // These are still in 01 45 23 67 order. We fix it easily in the addition
496 // case but the subtraction propegates them.
500 // a0 = tmp[0] + tmp[8]
501 "vadd.s32 q2, q0, q1 \n"
502 "vadd.s32 q3, q8, q9 \n"
504 // a1 = tmp[4] + tmp[12]
505 "vadd.s32 q10, q13, q12 \n"
506 "vadd.s32 q11, q15, q14 \n"
508 // a2 = tmp[4] - tmp[12]
509 "vsub.s32 q13, q13, q12 \n"
510 "vsub.s32 q15, q15, q14 \n"
512 // a3 = tmp[0] - tmp[8]
513 "vsub.s32 q0, q0, q1 \n"
514 "vsub.s32 q8, q8, q9 \n"
517 "vadd.s32 q1, q2, q10 \n"
518 "vadd.s32 q9, q3, q11 \n"
521 "vadd.s32 q12, q0, q13 \n"
522 "vadd.s32 q14, q8, q15 \n"
525 "vsub.s32 q0, q0, q13 \n"
526 "vsub.s32 q8, q8, q15 \n"
529 "vsub.s32 q2, q2, q10 \n"
530 "vsub.s32 q3, q3, q11 \n"
532 "vld1.64 {q10, q11}, [%[w]] \n"
538 "vabs.s32 q12, q12 \n"
539 "vabs.s32 q14, q14 \n"
547 // expand w before using.
548 "vmovl.u16 q13, d20 \n"
549 "vmovl.u16 q15, d21 \n"
552 "vmul.u32 q1, q1, q13 \n"
553 "vmul.u32 q9, q9, q13 \n"
556 "vmla.u32 q1, q12, q15 \n"
557 "vmla.u32 q9, q14, q15 \n"
559 // expand w before using.
560 "vmovl.u16 q13, d22 \n"
561 "vmovl.u16 q15, d23 \n"
564 "vmla.u32 q1, q0, q13 \n"
565 "vmla.u32 q9, q8, q13 \n"
568 "vmla.u32 q1, q2, q15 \n"
569 "vmla.u32 q9, q3, q15 \n"
572 "vpaddl.u32 q1, q1 \n"
573 "vpaddl.u32 q9, q9 \n"
575 "vadd.u64 d18, d19 \n"
577 // Hadamard transform needs 4 bits of extra precision (2 bits in each
578 // direction) for dynamic raw. Weights w[] are 16bits at max, so the maximum
579 // precision for coeff is 8bit of input + 4bits of Hadamard transform +
580 // 16bits for w[] + 2 bits of abs() summation.
582 // This uses a maximum of 31 bits (signed). Discarding the top 32 bits is
586 "vsub.u32 d0, d2, d18 \n"
589 // abs(sum2 - sum1) >> 5
592 // It would be better to move the value straight into r0 but I'm not
593 // entirely sure how this works with inline assembly.
594 "vmov.32 %[sum], d0[0] \n"
596 : [sum
] "=r"(sum
), [a
] "+r"(A
), [b
] "+r"(B
), [w
] "+r"(W
)
598 : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8", "q9",
599 "q10", "q11", "q12", "q13", "q14", "q15" // clobbered
605 static int Disto16x16(const uint8_t* const a
, const uint8_t* const b
,
606 const uint16_t* const w
) {
609 for (y
= 0; y
< 16 * BPS
; y
+= 4 * BPS
) {
610 for (x
= 0; x
< 16; x
+= 4) {
611 D
+= Disto4x4(a
+ x
+ y
, b
+ x
+ y
, w
);
617 #endif // WEBP_USE_NEON
619 //------------------------------------------------------------------------------
622 extern void VP8EncDspInitNEON(void);
624 void VP8EncDspInitNEON(void) {
625 #if defined(WEBP_USE_NEON)
626 VP8ITransform
= ITransform
;
627 VP8FTransform
= FTransform
;
629 VP8ITransformWHT
= ITransformWHT
;
630 VP8FTransformWHT
= FTransformWHT
;
632 VP8TDisto4x4
= Disto4x4
;
633 VP8TDisto16x16
= Disto16x16
;
634 #endif // WEBP_USE_NEON
637 #if defined(__cplusplus) || defined(c_plusplus)