3 * Copyright (C) 2003 David S. Miller <davem@redhat.com>
5 * This file is part of FFmpeg.
7 * FFmpeg is free software; you can redistribute it and/or
8 * modify it under the terms of the GNU Lesser General Public
9 * License as published by the Free Software Foundation; either
10 * version 2.1 of the License, or (at your option) any later version.
12 * FFmpeg is distributed in the hope that it will be useful,
13 * but WITHOUT ANY WARRANTY; without even the implied warranty of
14 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
15 * Lesser General Public License for more details.
17 * You should have received a copy of the GNU Lesser General Public
18 * License along with FFmpeg; if not, write to the Free Software
19 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
22 /* The *no_round* functions have been added by James A. Morrison, 2003,2004.
23 The vis code from libmpeg2 was adapted for ffmpeg by James A. Morrison.
30 #include "libavcodec/dsputil.h"
34 extern void ff_simple_idct_put_vis(uint8_t *dest
, int line_size
, DCTELEM
*data
);
35 extern void ff_simple_idct_add_vis(uint8_t *dest
, int line_size
, DCTELEM
*data
);
36 extern void ff_simple_idct_vis(DCTELEM
*data
);
38 /* The trick used in some of this file is the formula from the MMX
39 * motion comp code, which is:
41 * (x+y+1)>>1 == (x|y)-((x^y)>>1)
43 * This allows us to average 8 bytes at a time in a 64-bit FPU reg.
44 * We avoid overflows by masking before we do the shift, and we
45 * implement the shift by multiplying by 1/2 using mul8x16. So in
46 * VIS this is (assume 'x' is in f0, 'y' is in f2, a repeating mask
47 * of '0xfe' is in f4, a repeating mask of '0x7f' is in f6, and
48 * the value 0x80808080 is in f8):
52 * fmul8x16 f8, f10, f10
55 * fpsub16 f12, f10, f10
58 #define ATTR_ALIGN(alignd) __attribute__ ((aligned(alignd)))
60 #define DUP4(x) {x, x, x, x}
61 #define DUP8(x) {x, x, x, x, x, x, x, x}
62 static const int16_t constants1
[] ATTR_ALIGN(8) = DUP4 (1);
63 static const int16_t constants2
[] ATTR_ALIGN(8) = DUP4 (2);
64 static const int16_t constants3
[] ATTR_ALIGN(8) = DUP4 (3);
65 static const int16_t constants6
[] ATTR_ALIGN(8) = DUP4 (6);
66 static const int8_t constants_fe
[] ATTR_ALIGN(8) = DUP8 (0xfe);
67 static const int8_t constants_7f
[] ATTR_ALIGN(8) = DUP8 (0x7f);
68 static const int8_t constants128
[] ATTR_ALIGN(8) = DUP8 (128);
69 static const int16_t constants256_512
[] ATTR_ALIGN(8) =
71 static const int16_t constants256_1024
[] ATTR_ALIGN(8) =
72 {256, 1024, 256, 1024};
102 #define CONST_1024 22
127 static void MC_put_o_16_vis (uint8_t * dest
, const uint8_t * _ref
,
128 const int stride
, int height
)
130 uint8_t *ref
= (uint8_t *) _ref
;
132 ref
= vis_alignaddr(ref
);
134 vis_ld64(ref
[0], TMP0
);
136 vis_ld64_2(ref
, 8, TMP2
);
138 vis_ld64_2(ref
, 16, TMP4
);
141 vis_faligndata(TMP0
, TMP2
, REF_0
);
142 vis_st64(REF_0
, dest
[0]);
144 vis_faligndata(TMP2
, TMP4
, REF_2
);
145 vis_st64_2(REF_2
, dest
, 8);
150 static void MC_put_o_8_vis (uint8_t * dest
, const uint8_t * _ref
,
151 const int stride
, int height
)
153 uint8_t *ref
= (uint8_t *) _ref
;
155 ref
= vis_alignaddr(ref
);
157 vis_ld64(ref
[0], TMP0
);
159 vis_ld64(ref
[8], TMP2
);
164 vis_faligndata(TMP0
, TMP2
, REF_0
);
165 vis_st64(REF_0
, dest
[0]);
171 static void MC_avg_o_16_vis (uint8_t * dest
, const uint8_t * _ref
,
172 const int stride
, int height
)
174 uint8_t *ref
= (uint8_t *) _ref
;
175 int stride_8
= stride
+ 8;
177 ref
= vis_alignaddr(ref
);
179 vis_ld64(ref
[0], TMP0
);
181 vis_ld64(ref
[8], TMP2
);
183 vis_ld64(ref
[16], TMP4
);
185 vis_ld64(dest
[0], DST_0
);
187 vis_ld64(dest
[8], DST_2
);
189 vis_ld64(constants_fe
[0], MASK_fe
);
190 vis_faligndata(TMP0
, TMP2
, REF_0
);
192 vis_ld64(constants_7f
[0], MASK_7f
);
193 vis_faligndata(TMP2
, TMP4
, REF_2
);
195 vis_ld64(constants128
[0], CONST_128
);
198 height
= (height
>> 1) - 1;
201 vis_ld64(ref
[0], TMP0
);
202 vis_xor(DST_0
, REF_0
, TMP6
);
204 vis_ld64_2(ref
, 8, TMP2
);
205 vis_and(TMP6
, MASK_fe
, TMP6
);
207 vis_ld64_2(ref
, 16, TMP4
);
209 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
210 vis_xor(DST_2
, REF_2
, TMP8
);
212 vis_and(TMP8
, MASK_fe
, TMP8
);
214 vis_or(DST_0
, REF_0
, TMP10
);
215 vis_ld64_2(dest
, stride
, DST_0
);
216 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
218 vis_or(DST_2
, REF_2
, TMP12
);
219 vis_ld64_2(dest
, stride_8
, DST_2
);
221 vis_ld64(ref
[0], TMP14
);
222 vis_and(TMP6
, MASK_7f
, TMP6
);
224 vis_and(TMP8
, MASK_7f
, TMP8
);
226 vis_psub16(TMP10
, TMP6
, TMP6
);
227 vis_st64(TMP6
, dest
[0]);
229 vis_psub16(TMP12
, TMP8
, TMP8
);
230 vis_st64_2(TMP8
, dest
, 8);
233 vis_ld64_2(ref
, 8, TMP16
);
234 vis_faligndata(TMP0
, TMP2
, REF_0
);
236 vis_ld64_2(ref
, 16, TMP18
);
237 vis_faligndata(TMP2
, TMP4
, REF_2
);
240 vis_xor(DST_0
, REF_0
, TMP20
);
242 vis_and(TMP20
, MASK_fe
, TMP20
);
244 vis_xor(DST_2
, REF_2
, TMP22
);
245 vis_mul8x16(CONST_128
, TMP20
, TMP20
);
247 vis_and(TMP22
, MASK_fe
, TMP22
);
249 vis_or(DST_0
, REF_0
, TMP24
);
250 vis_mul8x16(CONST_128
, TMP22
, TMP22
);
252 vis_or(DST_2
, REF_2
, TMP26
);
254 vis_ld64_2(dest
, stride
, DST_0
);
255 vis_faligndata(TMP14
, TMP16
, REF_0
);
257 vis_ld64_2(dest
, stride_8
, DST_2
);
258 vis_faligndata(TMP16
, TMP18
, REF_2
);
260 vis_and(TMP20
, MASK_7f
, TMP20
);
262 vis_and(TMP22
, MASK_7f
, TMP22
);
264 vis_psub16(TMP24
, TMP20
, TMP20
);
265 vis_st64(TMP20
, dest
[0]);
267 vis_psub16(TMP26
, TMP22
, TMP22
);
268 vis_st64_2(TMP22
, dest
, 8);
272 vis_ld64(ref
[0], TMP0
);
273 vis_xor(DST_0
, REF_0
, TMP6
);
275 vis_ld64_2(ref
, 8, TMP2
);
276 vis_and(TMP6
, MASK_fe
, TMP6
);
278 vis_ld64_2(ref
, 16, TMP4
);
279 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
280 vis_xor(DST_2
, REF_2
, TMP8
);
282 vis_and(TMP8
, MASK_fe
, TMP8
);
284 vis_or(DST_0
, REF_0
, TMP10
);
285 vis_ld64_2(dest
, stride
, DST_0
);
286 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
288 vis_or(DST_2
, REF_2
, TMP12
);
289 vis_ld64_2(dest
, stride_8
, DST_2
);
291 vis_ld64(ref
[0], TMP14
);
292 vis_and(TMP6
, MASK_7f
, TMP6
);
294 vis_and(TMP8
, MASK_7f
, TMP8
);
296 vis_psub16(TMP10
, TMP6
, TMP6
);
297 vis_st64(TMP6
, dest
[0]);
299 vis_psub16(TMP12
, TMP8
, TMP8
);
300 vis_st64_2(TMP8
, dest
, 8);
303 vis_faligndata(TMP0
, TMP2
, REF_0
);
305 vis_faligndata(TMP2
, TMP4
, REF_2
);
307 vis_xor(DST_0
, REF_0
, TMP20
);
309 vis_and(TMP20
, MASK_fe
, TMP20
);
311 vis_xor(DST_2
, REF_2
, TMP22
);
312 vis_mul8x16(CONST_128
, TMP20
, TMP20
);
314 vis_and(TMP22
, MASK_fe
, TMP22
);
316 vis_or(DST_0
, REF_0
, TMP24
);
317 vis_mul8x16(CONST_128
, TMP22
, TMP22
);
319 vis_or(DST_2
, REF_2
, TMP26
);
321 vis_and(TMP20
, MASK_7f
, TMP20
);
323 vis_and(TMP22
, MASK_7f
, TMP22
);
325 vis_psub16(TMP24
, TMP20
, TMP20
);
326 vis_st64(TMP20
, dest
[0]);
328 vis_psub16(TMP26
, TMP22
, TMP22
);
329 vis_st64_2(TMP22
, dest
, 8);
332 static void MC_avg_o_8_vis (uint8_t * dest
, const uint8_t * _ref
,
333 const int stride
, int height
)
335 uint8_t *ref
= (uint8_t *) _ref
;
337 ref
= vis_alignaddr(ref
);
339 vis_ld64(ref
[0], TMP0
);
341 vis_ld64(ref
[8], TMP2
);
343 vis_ld64(dest
[0], DST_0
);
345 vis_ld64(constants_fe
[0], MASK_fe
);
347 vis_ld64(constants_7f
[0], MASK_7f
);
348 vis_faligndata(TMP0
, TMP2
, REF_0
);
350 vis_ld64(constants128
[0], CONST_128
);
353 height
= (height
>> 1) - 1;
356 vis_ld64(ref
[0], TMP0
);
357 vis_xor(DST_0
, REF_0
, TMP4
);
359 vis_ld64(ref
[8], TMP2
);
360 vis_and(TMP4
, MASK_fe
, TMP4
);
362 vis_or(DST_0
, REF_0
, TMP6
);
363 vis_ld64_2(dest
, stride
, DST_0
);
365 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
367 vis_ld64(ref
[0], TMP12
);
368 vis_faligndata(TMP0
, TMP2
, REF_0
);
370 vis_ld64(ref
[8], TMP2
);
371 vis_xor(DST_0
, REF_0
, TMP0
);
374 vis_and(TMP0
, MASK_fe
, TMP0
);
376 vis_and(TMP4
, MASK_7f
, TMP4
);
378 vis_psub16(TMP6
, TMP4
, TMP4
);
379 vis_st64(TMP4
, dest
[0]);
381 vis_mul8x16(CONST_128
, TMP0
, TMP0
);
383 vis_or(DST_0
, REF_0
, TMP6
);
384 vis_ld64_2(dest
, stride
, DST_0
);
386 vis_faligndata(TMP12
, TMP2
, REF_0
);
388 vis_and(TMP0
, MASK_7f
, TMP0
);
390 vis_psub16(TMP6
, TMP0
, TMP4
);
391 vis_st64(TMP4
, dest
[0]);
395 vis_ld64(ref
[0], TMP0
);
396 vis_xor(DST_0
, REF_0
, TMP4
);
398 vis_ld64(ref
[8], TMP2
);
399 vis_and(TMP4
, MASK_fe
, TMP4
);
401 vis_or(DST_0
, REF_0
, TMP6
);
402 vis_ld64_2(dest
, stride
, DST_0
);
403 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
405 vis_faligndata(TMP0
, TMP2
, REF_0
);
407 vis_xor(DST_0
, REF_0
, TMP0
);
409 vis_and(TMP0
, MASK_fe
, TMP0
);
411 vis_and(TMP4
, MASK_7f
, TMP4
);
413 vis_psub16(TMP6
, TMP4
, TMP4
);
414 vis_st64(TMP4
, dest
[0]);
416 vis_mul8x16(CONST_128
, TMP0
, TMP0
);
418 vis_or(DST_0
, REF_0
, TMP6
);
420 vis_and(TMP0
, MASK_7f
, TMP0
);
422 vis_psub16(TMP6
, TMP0
, TMP4
);
423 vis_st64(TMP4
, dest
[0]);
426 static void MC_put_x_16_vis (uint8_t * dest
, const uint8_t * _ref
,
427 const int stride
, int height
)
429 uint8_t *ref
= (uint8_t *) _ref
;
430 unsigned long off
= (unsigned long) ref
& 0x7;
431 unsigned long off_plus_1
= off
+ 1;
433 ref
= vis_alignaddr(ref
);
435 vis_ld64(ref
[0], TMP0
);
437 vis_ld64_2(ref
, 8, TMP2
);
439 vis_ld64_2(ref
, 16, TMP4
);
441 vis_ld64(constants_fe
[0], MASK_fe
);
443 vis_ld64(constants_7f
[0], MASK_7f
);
444 vis_faligndata(TMP0
, TMP2
, REF_0
);
446 vis_ld64(constants128
[0], CONST_128
);
447 vis_faligndata(TMP2
, TMP4
, REF_4
);
450 vis_alignaddr_g0((void *)off_plus_1
);
451 vis_faligndata(TMP0
, TMP2
, REF_2
);
452 vis_faligndata(TMP2
, TMP4
, REF_6
);
454 vis_src1(TMP2
, REF_2
);
455 vis_src1(TMP4
, REF_6
);
459 height
= (height
>> 1) - 1;
462 vis_ld64(ref
[0], TMP0
);
463 vis_xor(REF_0
, REF_2
, TMP6
);
465 vis_ld64_2(ref
, 8, TMP2
);
466 vis_xor(REF_4
, REF_6
, TMP8
);
468 vis_ld64_2(ref
, 16, TMP4
);
469 vis_and(TMP6
, MASK_fe
, TMP6
);
472 vis_ld64(ref
[0], TMP14
);
473 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
474 vis_and(TMP8
, MASK_fe
, TMP8
);
476 vis_ld64_2(ref
, 8, TMP16
);
477 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
478 vis_or(REF_0
, REF_2
, TMP10
);
480 vis_ld64_2(ref
, 16, TMP18
);
482 vis_or(REF_4
, REF_6
, TMP12
);
484 vis_alignaddr_g0((void *)off
);
486 vis_faligndata(TMP0
, TMP2
, REF_0
);
488 vis_faligndata(TMP2
, TMP4
, REF_4
);
491 vis_alignaddr_g0((void *)off_plus_1
);
492 vis_faligndata(TMP0
, TMP2
, REF_2
);
493 vis_faligndata(TMP2
, TMP4
, REF_6
);
495 vis_src1(TMP2
, REF_2
);
496 vis_src1(TMP4
, REF_6
);
499 vis_and(TMP6
, MASK_7f
, TMP6
);
501 vis_and(TMP8
, MASK_7f
, TMP8
);
503 vis_psub16(TMP10
, TMP6
, TMP6
);
504 vis_st64(TMP6
, dest
[0]);
506 vis_psub16(TMP12
, TMP8
, TMP8
);
507 vis_st64_2(TMP8
, dest
, 8);
510 vis_xor(REF_0
, REF_2
, TMP6
);
512 vis_xor(REF_4
, REF_6
, TMP8
);
514 vis_and(TMP6
, MASK_fe
, TMP6
);
516 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
517 vis_and(TMP8
, MASK_fe
, TMP8
);
519 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
520 vis_or(REF_0
, REF_2
, TMP10
);
522 vis_or(REF_4
, REF_6
, TMP12
);
524 vis_alignaddr_g0((void *)off
);
526 vis_faligndata(TMP14
, TMP16
, REF_0
);
528 vis_faligndata(TMP16
, TMP18
, REF_4
);
531 vis_alignaddr_g0((void *)off_plus_1
);
532 vis_faligndata(TMP14
, TMP16
, REF_2
);
533 vis_faligndata(TMP16
, TMP18
, REF_6
);
535 vis_src1(TMP16
, REF_2
);
536 vis_src1(TMP18
, REF_6
);
539 vis_and(TMP6
, MASK_7f
, TMP6
);
541 vis_and(TMP8
, MASK_7f
, TMP8
);
543 vis_psub16(TMP10
, TMP6
, TMP6
);
544 vis_st64(TMP6
, dest
[0]);
546 vis_psub16(TMP12
, TMP8
, TMP8
);
547 vis_st64_2(TMP8
, dest
, 8);
551 vis_ld64(ref
[0], TMP0
);
552 vis_xor(REF_0
, REF_2
, TMP6
);
554 vis_ld64_2(ref
, 8, TMP2
);
555 vis_xor(REF_4
, REF_6
, TMP8
);
557 vis_ld64_2(ref
, 16, TMP4
);
558 vis_and(TMP6
, MASK_fe
, TMP6
);
560 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
561 vis_and(TMP8
, MASK_fe
, TMP8
);
563 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
564 vis_or(REF_0
, REF_2
, TMP10
);
566 vis_or(REF_4
, REF_6
, TMP12
);
568 vis_alignaddr_g0((void *)off
);
570 vis_faligndata(TMP0
, TMP2
, REF_0
);
572 vis_faligndata(TMP2
, TMP4
, REF_4
);
575 vis_alignaddr_g0((void *)off_plus_1
);
576 vis_faligndata(TMP0
, TMP2
, REF_2
);
577 vis_faligndata(TMP2
, TMP4
, REF_6
);
579 vis_src1(TMP2
, REF_2
);
580 vis_src1(TMP4
, REF_6
);
583 vis_and(TMP6
, MASK_7f
, TMP6
);
585 vis_and(TMP8
, MASK_7f
, TMP8
);
587 vis_psub16(TMP10
, TMP6
, TMP6
);
588 vis_st64(TMP6
, dest
[0]);
590 vis_psub16(TMP12
, TMP8
, TMP8
);
591 vis_st64_2(TMP8
, dest
, 8);
594 vis_xor(REF_0
, REF_2
, TMP6
);
596 vis_xor(REF_4
, REF_6
, TMP8
);
598 vis_and(TMP6
, MASK_fe
, TMP6
);
600 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
601 vis_and(TMP8
, MASK_fe
, TMP8
);
603 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
604 vis_or(REF_0
, REF_2
, TMP10
);
606 vis_or(REF_4
, REF_6
, TMP12
);
608 vis_and(TMP6
, MASK_7f
, TMP6
);
610 vis_and(TMP8
, MASK_7f
, TMP8
);
612 vis_psub16(TMP10
, TMP6
, TMP6
);
613 vis_st64(TMP6
, dest
[0]);
615 vis_psub16(TMP12
, TMP8
, TMP8
);
616 vis_st64_2(TMP8
, dest
, 8);
619 static void MC_put_x_8_vis (uint8_t * dest
, const uint8_t * _ref
,
620 const int stride
, int height
)
622 uint8_t *ref
= (uint8_t *) _ref
;
623 unsigned long off
= (unsigned long) ref
& 0x7;
624 unsigned long off_plus_1
= off
+ 1;
626 ref
= vis_alignaddr(ref
);
628 vis_ld64(ref
[0], TMP0
);
630 vis_ld64(ref
[8], TMP2
);
632 vis_ld64(constants_fe
[0], MASK_fe
);
634 vis_ld64(constants_7f
[0], MASK_7f
);
636 vis_ld64(constants128
[0], CONST_128
);
637 vis_faligndata(TMP0
, TMP2
, REF_0
);
640 vis_alignaddr_g0((void *)off_plus_1
);
641 vis_faligndata(TMP0
, TMP2
, REF_2
);
643 vis_src1(TMP2
, REF_2
);
647 height
= (height
>> 1) - 1;
650 vis_ld64(ref
[0], TMP0
);
651 vis_xor(REF_0
, REF_2
, TMP4
);
653 vis_ld64_2(ref
, 8, TMP2
);
654 vis_and(TMP4
, MASK_fe
, TMP4
);
657 vis_ld64(ref
[0], TMP8
);
658 vis_or(REF_0
, REF_2
, TMP6
);
659 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
661 vis_alignaddr_g0((void *)off
);
663 vis_ld64_2(ref
, 8, TMP10
);
665 vis_faligndata(TMP0
, TMP2
, REF_0
);
668 vis_alignaddr_g0((void *)off_plus_1
);
669 vis_faligndata(TMP0
, TMP2
, REF_2
);
671 vis_src1(TMP2
, REF_2
);
674 vis_and(TMP4
, MASK_7f
, TMP4
);
676 vis_psub16(TMP6
, TMP4
, DST_0
);
677 vis_st64(DST_0
, dest
[0]);
680 vis_xor(REF_0
, REF_2
, TMP12
);
682 vis_and(TMP12
, MASK_fe
, TMP12
);
684 vis_or(REF_0
, REF_2
, TMP14
);
685 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
687 vis_alignaddr_g0((void *)off
);
688 vis_faligndata(TMP8
, TMP10
, REF_0
);
690 vis_alignaddr_g0((void *)off_plus_1
);
691 vis_faligndata(TMP8
, TMP10
, REF_2
);
693 vis_src1(TMP10
, REF_2
);
696 vis_and(TMP12
, MASK_7f
, TMP12
);
698 vis_psub16(TMP14
, TMP12
, DST_0
);
699 vis_st64(DST_0
, dest
[0]);
703 vis_ld64(ref
[0], TMP0
);
704 vis_xor(REF_0
, REF_2
, TMP4
);
706 vis_ld64_2(ref
, 8, TMP2
);
707 vis_and(TMP4
, MASK_fe
, TMP4
);
709 vis_or(REF_0
, REF_2
, TMP6
);
710 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
712 vis_alignaddr_g0((void *)off
);
714 vis_faligndata(TMP0
, TMP2
, REF_0
);
717 vis_alignaddr_g0((void *)off_plus_1
);
718 vis_faligndata(TMP0
, TMP2
, REF_2
);
720 vis_src1(TMP2
, REF_2
);
723 vis_and(TMP4
, MASK_7f
, TMP4
);
725 vis_psub16(TMP6
, TMP4
, DST_0
);
726 vis_st64(DST_0
, dest
[0]);
729 vis_xor(REF_0
, REF_2
, TMP12
);
731 vis_and(TMP12
, MASK_fe
, TMP12
);
733 vis_or(REF_0
, REF_2
, TMP14
);
734 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
736 vis_and(TMP12
, MASK_7f
, TMP12
);
738 vis_psub16(TMP14
, TMP12
, DST_0
);
739 vis_st64(DST_0
, dest
[0]);
743 static void MC_avg_x_16_vis (uint8_t * dest
, const uint8_t * _ref
,
744 const int stride
, int height
)
746 uint8_t *ref
= (uint8_t *) _ref
;
747 unsigned long off
= (unsigned long) ref
& 0x7;
748 unsigned long off_plus_1
= off
+ 1;
750 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
752 vis_ld64(constants3
[0], CONST_3
);
754 vis_ld64(constants256_512
[0], CONST_256
);
756 ref
= vis_alignaddr(ref
);
758 vis_ld64(ref
[0], TMP0
);
760 vis_ld64(ref
[8], TMP2
);
762 vis_alignaddr_g0((void *)off
);
764 vis_ld64(ref
[16], TMP4
);
766 vis_ld64(dest
[0], DST_0
);
767 vis_faligndata(TMP0
, TMP2
, REF_0
);
769 vis_ld64(dest
[8], DST_2
);
770 vis_faligndata(TMP2
, TMP4
, REF_4
);
773 vis_alignaddr_g0((void *)off_plus_1
);
774 vis_faligndata(TMP0
, TMP2
, REF_2
);
775 vis_faligndata(TMP2
, TMP4
, REF_6
);
777 vis_src1(TMP2
, REF_2
);
778 vis_src1(TMP4
, REF_6
);
781 vis_mul8x16au(REF_0
, CONST_256
, TMP0
);
783 vis_pmerge(ZERO
, REF_2
, TMP4
);
784 vis_mul8x16au(REF_0_1
, CONST_256
, TMP2
);
786 vis_pmerge(ZERO
, REF_2_1
, TMP6
);
788 vis_padd16(TMP0
, TMP4
, TMP0
);
790 vis_mul8x16al(DST_0
, CONST_512
, TMP4
);
791 vis_padd16(TMP2
, TMP6
, TMP2
);
793 vis_mul8x16al(DST_1
, CONST_512
, TMP6
);
795 vis_mul8x16au(REF_6
, CONST_256
, TMP12
);
797 vis_padd16(TMP0
, TMP4
, TMP0
);
798 vis_mul8x16au(REF_6_1
, CONST_256
, TMP14
);
800 vis_padd16(TMP2
, TMP6
, TMP2
);
801 vis_mul8x16au(REF_4
, CONST_256
, TMP16
);
803 vis_padd16(TMP0
, CONST_3
, TMP8
);
804 vis_mul8x16au(REF_4_1
, CONST_256
, TMP18
);
806 vis_padd16(TMP2
, CONST_3
, TMP10
);
807 vis_pack16(TMP8
, DST_0
);
809 vis_pack16(TMP10
, DST_1
);
810 vis_padd16(TMP16
, TMP12
, TMP0
);
812 vis_st64(DST_0
, dest
[0]);
813 vis_mul8x16al(DST_2
, CONST_512
, TMP4
);
814 vis_padd16(TMP18
, TMP14
, TMP2
);
816 vis_mul8x16al(DST_3
, CONST_512
, TMP6
);
817 vis_padd16(TMP0
, CONST_3
, TMP0
);
819 vis_padd16(TMP2
, CONST_3
, TMP2
);
821 vis_padd16(TMP0
, TMP4
, TMP0
);
823 vis_padd16(TMP2
, TMP6
, TMP2
);
824 vis_pack16(TMP0
, DST_2
);
826 vis_pack16(TMP2
, DST_3
);
827 vis_st64(DST_2
, dest
[8]);
834 static void MC_avg_x_8_vis (uint8_t * dest
, const uint8_t * _ref
,
835 const int stride
, int height
)
837 uint8_t *ref
= (uint8_t *) _ref
;
838 unsigned long off
= (unsigned long) ref
& 0x7;
839 unsigned long off_plus_1
= off
+ 1;
840 int stride_times_2
= stride
<< 1;
842 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
844 vis_ld64(constants3
[0], CONST_3
);
846 vis_ld64(constants256_512
[0], CONST_256
);
848 ref
= vis_alignaddr(ref
);
851 vis_ld64(ref
[0], TMP0
);
853 vis_ld64_2(ref
, 8, TMP2
);
856 vis_alignaddr_g0((void *)off
);
858 vis_ld64(ref
[0], TMP4
);
859 vis_faligndata(TMP0
, TMP2
, REF_0
);
861 vis_ld64_2(ref
, 8, TMP6
);
864 vis_ld64(ref
[0], TMP8
);
866 vis_ld64_2(ref
, 8, TMP10
);
868 vis_faligndata(TMP4
, TMP6
, REF_4
);
870 vis_ld64(ref
[0], TMP12
);
872 vis_ld64_2(ref
, 8, TMP14
);
874 vis_faligndata(TMP8
, TMP10
, REF_S0
);
876 vis_faligndata(TMP12
, TMP14
, REF_S4
);
879 vis_alignaddr_g0((void *)off_plus_1
);
881 vis_ld64(dest
[0], DST_0
);
882 vis_faligndata(TMP0
, TMP2
, REF_2
);
884 vis_ld64_2(dest
, stride
, DST_2
);
885 vis_faligndata(TMP4
, TMP6
, REF_6
);
887 vis_faligndata(TMP8
, TMP10
, REF_S2
);
889 vis_faligndata(TMP12
, TMP14
, REF_S6
);
891 vis_ld64(dest
[0], DST_0
);
892 vis_src1(TMP2
, REF_2
);
894 vis_ld64_2(dest
, stride
, DST_2
);
895 vis_src1(TMP6
, REF_6
);
897 vis_src1(TMP10
, REF_S2
);
899 vis_src1(TMP14
, REF_S6
);
902 vis_pmerge(ZERO
, REF_0
, TMP0
);
903 vis_mul8x16au(REF_0_1
, CONST_256
, TMP2
);
905 vis_pmerge(ZERO
, REF_2
, TMP4
);
906 vis_mul8x16au(REF_2_1
, CONST_256
, TMP6
);
908 vis_padd16(TMP0
, CONST_3
, TMP0
);
909 vis_mul8x16al(DST_0
, CONST_512
, TMP16
);
911 vis_padd16(TMP2
, CONST_3
, TMP2
);
912 vis_mul8x16al(DST_1
, CONST_512
, TMP18
);
914 vis_padd16(TMP0
, TMP4
, TMP0
);
915 vis_mul8x16au(REF_4
, CONST_256
, TMP8
);
917 vis_padd16(TMP2
, TMP6
, TMP2
);
918 vis_mul8x16au(REF_4_1
, CONST_256
, TMP10
);
920 vis_padd16(TMP0
, TMP16
, TMP0
);
921 vis_mul8x16au(REF_6
, CONST_256
, TMP12
);
923 vis_padd16(TMP2
, TMP18
, TMP2
);
924 vis_mul8x16au(REF_6_1
, CONST_256
, TMP14
);
926 vis_padd16(TMP8
, CONST_3
, TMP8
);
927 vis_mul8x16al(DST_2
, CONST_512
, TMP16
);
929 vis_padd16(TMP8
, TMP12
, TMP8
);
930 vis_mul8x16al(DST_3
, CONST_512
, TMP18
);
932 vis_padd16(TMP10
, TMP14
, TMP10
);
933 vis_pack16(TMP0
, DST_0
);
935 vis_pack16(TMP2
, DST_1
);
936 vis_st64(DST_0
, dest
[0]);
938 vis_padd16(TMP10
, CONST_3
, TMP10
);
940 vis_ld64_2(dest
, stride
, DST_0
);
941 vis_padd16(TMP8
, TMP16
, TMP8
);
943 vis_ld64_2(dest
, stride_times_2
, TMP4
/*DST_2*/);
944 vis_padd16(TMP10
, TMP18
, TMP10
);
945 vis_pack16(TMP8
, DST_2
);
947 vis_pack16(TMP10
, DST_3
);
948 vis_st64(DST_2
, dest
[0]);
951 vis_mul8x16au(REF_S0_1
, CONST_256
, TMP2
);
952 vis_pmerge(ZERO
, REF_S0
, TMP0
);
954 vis_pmerge(ZERO
, REF_S2
, TMP24
);
955 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP6
);
957 vis_padd16(TMP0
, CONST_3
, TMP0
);
958 vis_mul8x16au(REF_S4
, CONST_256
, TMP8
);
960 vis_padd16(TMP2
, CONST_3
, TMP2
);
961 vis_mul8x16au(REF_S4_1
, CONST_256
, TMP10
);
963 vis_padd16(TMP0
, TMP24
, TMP0
);
964 vis_mul8x16au(REF_S6
, CONST_256
, TMP12
);
966 vis_padd16(TMP2
, TMP6
, TMP2
);
967 vis_mul8x16au(REF_S6_1
, CONST_256
, TMP14
);
969 vis_padd16(TMP8
, CONST_3
, TMP8
);
970 vis_mul8x16al(DST_0
, CONST_512
, TMP16
);
972 vis_padd16(TMP10
, CONST_3
, TMP10
);
973 vis_mul8x16al(DST_1
, CONST_512
, TMP18
);
975 vis_padd16(TMP8
, TMP12
, TMP8
);
976 vis_mul8x16al(TMP4
/*DST_2*/, CONST_512
, TMP20
);
978 vis_mul8x16al(TMP5
/*DST_3*/, CONST_512
, TMP22
);
979 vis_padd16(TMP0
, TMP16
, TMP0
);
981 vis_padd16(TMP2
, TMP18
, TMP2
);
982 vis_pack16(TMP0
, DST_0
);
984 vis_padd16(TMP10
, TMP14
, TMP10
);
985 vis_pack16(TMP2
, DST_1
);
986 vis_st64(DST_0
, dest
[0]);
989 vis_padd16(TMP8
, TMP20
, TMP8
);
991 vis_padd16(TMP10
, TMP22
, TMP10
);
992 vis_pack16(TMP8
, DST_2
);
994 vis_pack16(TMP10
, DST_3
);
995 vis_st64(DST_2
, dest
[0]);
1000 static void MC_put_y_16_vis (uint8_t * dest
, const uint8_t * _ref
,
1001 const int stride
, int height
)
1003 uint8_t *ref
= (uint8_t *) _ref
;
1005 ref
= vis_alignaddr(ref
);
1006 vis_ld64(ref
[0], TMP0
);
1008 vis_ld64_2(ref
, 8, TMP2
);
1010 vis_ld64_2(ref
, 16, TMP4
);
1013 vis_ld64(ref
[0], TMP6
);
1014 vis_faligndata(TMP0
, TMP2
, REF_0
);
1016 vis_ld64_2(ref
, 8, TMP8
);
1017 vis_faligndata(TMP2
, TMP4
, REF_4
);
1019 vis_ld64_2(ref
, 16, TMP10
);
1022 vis_ld64(constants_fe
[0], MASK_fe
);
1023 vis_faligndata(TMP6
, TMP8
, REF_2
);
1025 vis_ld64(constants_7f
[0], MASK_7f
);
1026 vis_faligndata(TMP8
, TMP10
, REF_6
);
1028 vis_ld64(constants128
[0], CONST_128
);
1029 height
= (height
>> 1) - 1;
1030 do { /* 24 cycles */
1031 vis_ld64(ref
[0], TMP0
);
1032 vis_xor(REF_0
, REF_2
, TMP12
);
1034 vis_ld64_2(ref
, 8, TMP2
);
1035 vis_xor(REF_4
, REF_6
, TMP16
);
1037 vis_ld64_2(ref
, 16, TMP4
);
1039 vis_or(REF_0
, REF_2
, TMP14
);
1041 vis_ld64(ref
[0], TMP6
);
1042 vis_or(REF_4
, REF_6
, TMP18
);
1044 vis_ld64_2(ref
, 8, TMP8
);
1045 vis_faligndata(TMP0
, TMP2
, REF_0
);
1047 vis_ld64_2(ref
, 16, TMP10
);
1049 vis_faligndata(TMP2
, TMP4
, REF_4
);
1051 vis_and(TMP12
, MASK_fe
, TMP12
);
1053 vis_and(TMP16
, MASK_fe
, TMP16
);
1054 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
1056 vis_mul8x16(CONST_128
, TMP16
, TMP16
);
1057 vis_xor(REF_0
, REF_2
, TMP0
);
1059 vis_xor(REF_4
, REF_6
, TMP2
);
1061 vis_or(REF_0
, REF_2
, TMP20
);
1063 vis_and(TMP12
, MASK_7f
, TMP12
);
1065 vis_and(TMP16
, MASK_7f
, TMP16
);
1067 vis_psub16(TMP14
, TMP12
, TMP12
);
1068 vis_st64(TMP12
, dest
[0]);
1070 vis_psub16(TMP18
, TMP16
, TMP16
);
1071 vis_st64_2(TMP16
, dest
, 8);
1074 vis_or(REF_4
, REF_6
, TMP18
);
1076 vis_and(TMP0
, MASK_fe
, TMP0
);
1078 vis_and(TMP2
, MASK_fe
, TMP2
);
1079 vis_mul8x16(CONST_128
, TMP0
, TMP0
);
1081 vis_faligndata(TMP6
, TMP8
, REF_2
);
1082 vis_mul8x16(CONST_128
, TMP2
, TMP2
);
1084 vis_faligndata(TMP8
, TMP10
, REF_6
);
1086 vis_and(TMP0
, MASK_7f
, TMP0
);
1088 vis_and(TMP2
, MASK_7f
, TMP2
);
1090 vis_psub16(TMP20
, TMP0
, TMP0
);
1091 vis_st64(TMP0
, dest
[0]);
1093 vis_psub16(TMP18
, TMP2
, TMP2
);
1094 vis_st64_2(TMP2
, dest
, 8);
1098 vis_ld64(ref
[0], TMP0
);
1099 vis_xor(REF_0
, REF_2
, TMP12
);
1101 vis_ld64_2(ref
, 8, TMP2
);
1102 vis_xor(REF_4
, REF_6
, TMP16
);
1104 vis_ld64_2(ref
, 16, TMP4
);
1105 vis_or(REF_0
, REF_2
, TMP14
);
1107 vis_or(REF_4
, REF_6
, TMP18
);
1109 vis_faligndata(TMP0
, TMP2
, REF_0
);
1111 vis_faligndata(TMP2
, TMP4
, REF_4
);
1113 vis_and(TMP12
, MASK_fe
, TMP12
);
1115 vis_and(TMP16
, MASK_fe
, TMP16
);
1116 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
1118 vis_mul8x16(CONST_128
, TMP16
, TMP16
);
1119 vis_xor(REF_0
, REF_2
, TMP0
);
1121 vis_xor(REF_4
, REF_6
, TMP2
);
1123 vis_or(REF_0
, REF_2
, TMP20
);
1125 vis_and(TMP12
, MASK_7f
, TMP12
);
1127 vis_and(TMP16
, MASK_7f
, TMP16
);
1129 vis_psub16(TMP14
, TMP12
, TMP12
);
1130 vis_st64(TMP12
, dest
[0]);
1132 vis_psub16(TMP18
, TMP16
, TMP16
);
1133 vis_st64_2(TMP16
, dest
, 8);
1136 vis_or(REF_4
, REF_6
, TMP18
);
1138 vis_and(TMP0
, MASK_fe
, TMP0
);
1140 vis_and(TMP2
, MASK_fe
, TMP2
);
1141 vis_mul8x16(CONST_128
, TMP0
, TMP0
);
1143 vis_mul8x16(CONST_128
, TMP2
, TMP2
);
1145 vis_and(TMP0
, MASK_7f
, TMP0
);
1147 vis_and(TMP2
, MASK_7f
, TMP2
);
1149 vis_psub16(TMP20
, TMP0
, TMP0
);
1150 vis_st64(TMP0
, dest
[0]);
1152 vis_psub16(TMP18
, TMP2
, TMP2
);
1153 vis_st64_2(TMP2
, dest
, 8);
1156 static void MC_put_y_8_vis (uint8_t * dest
, const uint8_t * _ref
,
1157 const int stride
, int height
)
1159 uint8_t *ref
= (uint8_t *) _ref
;
1161 ref
= vis_alignaddr(ref
);
1162 vis_ld64(ref
[0], TMP0
);
1164 vis_ld64_2(ref
, 8, TMP2
);
1167 vis_ld64(ref
[0], TMP4
);
1169 vis_ld64_2(ref
, 8, TMP6
);
1172 vis_ld64(constants_fe
[0], MASK_fe
);
1173 vis_faligndata(TMP0
, TMP2
, REF_0
);
1175 vis_ld64(constants_7f
[0], MASK_7f
);
1176 vis_faligndata(TMP4
, TMP6
, REF_2
);
1178 vis_ld64(constants128
[0], CONST_128
);
1179 height
= (height
>> 1) - 1;
1180 do { /* 12 cycles */
1181 vis_ld64(ref
[0], TMP0
);
1182 vis_xor(REF_0
, REF_2
, TMP4
);
1184 vis_ld64_2(ref
, 8, TMP2
);
1186 vis_and(TMP4
, MASK_fe
, TMP4
);
1188 vis_or(REF_0
, REF_2
, TMP6
);
1189 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
1191 vis_faligndata(TMP0
, TMP2
, REF_0
);
1192 vis_ld64(ref
[0], TMP0
);
1194 vis_ld64_2(ref
, 8, TMP2
);
1196 vis_xor(REF_0
, REF_2
, TMP12
);
1198 vis_and(TMP4
, MASK_7f
, TMP4
);
1200 vis_and(TMP12
, MASK_fe
, TMP12
);
1202 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
1203 vis_or(REF_0
, REF_2
, TMP14
);
1205 vis_psub16(TMP6
, TMP4
, DST_0
);
1206 vis_st64(DST_0
, dest
[0]);
1209 vis_faligndata(TMP0
, TMP2
, REF_2
);
1211 vis_and(TMP12
, MASK_7f
, TMP12
);
1213 vis_psub16(TMP14
, TMP12
, DST_0
);
1214 vis_st64(DST_0
, dest
[0]);
1218 vis_ld64(ref
[0], TMP0
);
1219 vis_xor(REF_0
, REF_2
, TMP4
);
1221 vis_ld64_2(ref
, 8, TMP2
);
1222 vis_and(TMP4
, MASK_fe
, TMP4
);
1224 vis_or(REF_0
, REF_2
, TMP6
);
1225 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
1227 vis_faligndata(TMP0
, TMP2
, REF_0
);
1229 vis_xor(REF_0
, REF_2
, TMP12
);
1231 vis_and(TMP4
, MASK_7f
, TMP4
);
1233 vis_and(TMP12
, MASK_fe
, TMP12
);
1235 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
1236 vis_or(REF_0
, REF_2
, TMP14
);
1238 vis_psub16(TMP6
, TMP4
, DST_0
);
1239 vis_st64(DST_0
, dest
[0]);
1242 vis_and(TMP12
, MASK_7f
, TMP12
);
1244 vis_psub16(TMP14
, TMP12
, DST_0
);
1245 vis_st64(DST_0
, dest
[0]);
1248 static void MC_avg_y_16_vis (uint8_t * dest
, const uint8_t * _ref
,
1249 const int stride
, int height
)
1251 uint8_t *ref
= (uint8_t *) _ref
;
1252 int stride_8
= stride
+ 8;
1253 int stride_16
= stride
+ 16;
1255 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
1257 ref
= vis_alignaddr(ref
);
1259 vis_ld64(ref
[ 0], TMP0
);
1262 vis_ld64(ref
[ 8], TMP2
);
1264 vis_ld64(ref
[16], TMP4
);
1266 vis_ld64(constants3
[0], CONST_3
);
1267 vis_faligndata(TMP0
, TMP2
, REF_2
);
1269 vis_ld64(constants256_512
[0], CONST_256
);
1270 vis_faligndata(TMP2
, TMP4
, REF_6
);
1273 do { /* 31 cycles */
1274 vis_ld64_2(ref
, stride
, TMP0
);
1275 vis_pmerge(ZERO
, REF_2
, TMP12
);
1276 vis_mul8x16au(REF_2_1
, CONST_256
, TMP14
);
1278 vis_ld64_2(ref
, stride_8
, TMP2
);
1279 vis_pmerge(ZERO
, REF_6
, TMP16
);
1280 vis_mul8x16au(REF_6_1
, CONST_256
, TMP18
);
1282 vis_ld64_2(ref
, stride_16
, TMP4
);
1285 vis_ld64(dest
[0], DST_0
);
1286 vis_faligndata(TMP0
, TMP2
, REF_0
);
1288 vis_ld64_2(dest
, 8, DST_2
);
1289 vis_faligndata(TMP2
, TMP4
, REF_4
);
1291 vis_ld64_2(ref
, stride
, TMP6
);
1292 vis_pmerge(ZERO
, REF_0
, TMP0
);
1293 vis_mul8x16au(REF_0_1
, CONST_256
, TMP2
);
1295 vis_ld64_2(ref
, stride_8
, TMP8
);
1296 vis_pmerge(ZERO
, REF_4
, TMP4
);
1298 vis_ld64_2(ref
, stride_16
, TMP10
);
1301 vis_ld64_2(dest
, stride
, REF_S0
/*DST_4*/);
1302 vis_faligndata(TMP6
, TMP8
, REF_2
);
1303 vis_mul8x16au(REF_4_1
, CONST_256
, TMP6
);
1305 vis_ld64_2(dest
, stride_8
, REF_S2
/*DST_6*/);
1306 vis_faligndata(TMP8
, TMP10
, REF_6
);
1307 vis_mul8x16al(DST_0
, CONST_512
, TMP20
);
1309 vis_padd16(TMP0
, CONST_3
, TMP0
);
1310 vis_mul8x16al(DST_1
, CONST_512
, TMP22
);
1312 vis_padd16(TMP2
, CONST_3
, TMP2
);
1313 vis_mul8x16al(DST_2
, CONST_512
, TMP24
);
1315 vis_padd16(TMP4
, CONST_3
, TMP4
);
1316 vis_mul8x16al(DST_3
, CONST_512
, TMP26
);
1318 vis_padd16(TMP6
, CONST_3
, TMP6
);
1320 vis_padd16(TMP12
, TMP20
, TMP12
);
1321 vis_mul8x16al(REF_S0
, CONST_512
, TMP20
);
1323 vis_padd16(TMP14
, TMP22
, TMP14
);
1324 vis_mul8x16al(REF_S0_1
, CONST_512
, TMP22
);
1326 vis_padd16(TMP16
, TMP24
, TMP16
);
1327 vis_mul8x16al(REF_S2
, CONST_512
, TMP24
);
1329 vis_padd16(TMP18
, TMP26
, TMP18
);
1330 vis_mul8x16al(REF_S2_1
, CONST_512
, TMP26
);
1332 vis_padd16(TMP12
, TMP0
, TMP12
);
1333 vis_mul8x16au(REF_2
, CONST_256
, TMP28
);
1335 vis_padd16(TMP14
, TMP2
, TMP14
);
1336 vis_mul8x16au(REF_2_1
, CONST_256
, TMP30
);
1338 vis_padd16(TMP16
, TMP4
, TMP16
);
1339 vis_mul8x16au(REF_6
, CONST_256
, REF_S4
);
1341 vis_padd16(TMP18
, TMP6
, TMP18
);
1342 vis_mul8x16au(REF_6_1
, CONST_256
, REF_S6
);
1344 vis_pack16(TMP12
, DST_0
);
1345 vis_padd16(TMP28
, TMP0
, TMP12
);
1347 vis_pack16(TMP14
, DST_1
);
1348 vis_st64(DST_0
, dest
[0]);
1349 vis_padd16(TMP30
, TMP2
, TMP14
);
1351 vis_pack16(TMP16
, DST_2
);
1352 vis_padd16(REF_S4
, TMP4
, TMP16
);
1354 vis_pack16(TMP18
, DST_3
);
1355 vis_st64_2(DST_2
, dest
, 8);
1357 vis_padd16(REF_S6
, TMP6
, TMP18
);
1359 vis_padd16(TMP12
, TMP20
, TMP12
);
1361 vis_padd16(TMP14
, TMP22
, TMP14
);
1362 vis_pack16(TMP12
, DST_0
);
1364 vis_padd16(TMP16
, TMP24
, TMP16
);
1365 vis_pack16(TMP14
, DST_1
);
1366 vis_st64(DST_0
, dest
[0]);
1368 vis_padd16(TMP18
, TMP26
, TMP18
);
1369 vis_pack16(TMP16
, DST_2
);
1371 vis_pack16(TMP18
, DST_3
);
1372 vis_st64_2(DST_2
, dest
, 8);
1377 static void MC_avg_y_8_vis (uint8_t * dest
, const uint8_t * _ref
,
1378 const int stride
, int height
)
1380 uint8_t *ref
= (uint8_t *) _ref
;
1381 int stride_8
= stride
+ 8;
1383 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
1385 ref
= vis_alignaddr(ref
);
1387 vis_ld64(ref
[ 0], TMP0
);
1390 vis_ld64(ref
[ 8], TMP2
);
1392 vis_ld64(constants3
[0], CONST_3
);
1393 vis_faligndata(TMP0
, TMP2
, REF_2
);
1395 vis_ld64(constants256_512
[0], CONST_256
);
1398 do { /* 20 cycles */
1399 vis_ld64_2(ref
, stride
, TMP0
);
1400 vis_pmerge(ZERO
, REF_2
, TMP8
);
1401 vis_mul8x16au(REF_2_1
, CONST_256
, TMP10
);
1403 vis_ld64_2(ref
, stride_8
, TMP2
);
1406 vis_ld64(dest
[0], DST_0
);
1408 vis_ld64_2(dest
, stride
, DST_2
);
1409 vis_faligndata(TMP0
, TMP2
, REF_0
);
1411 vis_ld64_2(ref
, stride
, TMP4
);
1412 vis_mul8x16al(DST_0
, CONST_512
, TMP16
);
1413 vis_pmerge(ZERO
, REF_0
, TMP12
);
1415 vis_ld64_2(ref
, stride_8
, TMP6
);
1417 vis_mul8x16al(DST_1
, CONST_512
, TMP18
);
1418 vis_pmerge(ZERO
, REF_0_1
, TMP14
);
1420 vis_padd16(TMP12
, CONST_3
, TMP12
);
1421 vis_mul8x16al(DST_2
, CONST_512
, TMP24
);
1423 vis_padd16(TMP14
, CONST_3
, TMP14
);
1424 vis_mul8x16al(DST_3
, CONST_512
, TMP26
);
1426 vis_faligndata(TMP4
, TMP6
, REF_2
);
1428 vis_padd16(TMP8
, TMP12
, TMP8
);
1430 vis_padd16(TMP10
, TMP14
, TMP10
);
1431 vis_mul8x16au(REF_2
, CONST_256
, TMP20
);
1433 vis_padd16(TMP8
, TMP16
, TMP0
);
1434 vis_mul8x16au(REF_2_1
, CONST_256
, TMP22
);
1436 vis_padd16(TMP10
, TMP18
, TMP2
);
1437 vis_pack16(TMP0
, DST_0
);
1439 vis_pack16(TMP2
, DST_1
);
1440 vis_st64(DST_0
, dest
[0]);
1442 vis_padd16(TMP12
, TMP20
, TMP12
);
1444 vis_padd16(TMP14
, TMP22
, TMP14
);
1446 vis_padd16(TMP12
, TMP24
, TMP0
);
1448 vis_padd16(TMP14
, TMP26
, TMP2
);
1449 vis_pack16(TMP0
, DST_2
);
1451 vis_pack16(TMP2
, DST_3
);
1452 vis_st64(DST_2
, dest
[0]);
1457 static void MC_put_xy_16_vis (uint8_t * dest
, const uint8_t * _ref
,
1458 const int stride
, int height
)
1460 uint8_t *ref
= (uint8_t *) _ref
;
1461 unsigned long off
= (unsigned long) ref
& 0x7;
1462 unsigned long off_plus_1
= off
+ 1;
1463 int stride_8
= stride
+ 8;
1464 int stride_16
= stride
+ 16;
1466 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
1468 ref
= vis_alignaddr(ref
);
1470 vis_ld64(ref
[ 0], TMP0
);
1473 vis_ld64(ref
[ 8], TMP2
);
1475 vis_ld64(ref
[16], TMP4
);
1477 vis_ld64(constants2
[0], CONST_2
);
1478 vis_faligndata(TMP0
, TMP2
, REF_S0
);
1480 vis_ld64(constants256_512
[0], CONST_256
);
1481 vis_faligndata(TMP2
, TMP4
, REF_S4
);
1484 vis_alignaddr_g0((void *)off_plus_1
);
1485 vis_faligndata(TMP0
, TMP2
, REF_S2
);
1486 vis_faligndata(TMP2
, TMP4
, REF_S6
);
1488 vis_src1(TMP2
, REF_S2
);
1489 vis_src1(TMP4
, REF_S6
);
1494 vis_ld64_2(ref
, stride
, TMP0
);
1495 vis_mul8x16au(REF_S0
, CONST_256
, TMP12
);
1496 vis_pmerge(ZERO
, REF_S0_1
, TMP14
);
1498 vis_alignaddr_g0((void *)off
);
1500 vis_ld64_2(ref
, stride_8
, TMP2
);
1501 vis_mul8x16au(REF_S2
, CONST_256
, TMP16
);
1502 vis_pmerge(ZERO
, REF_S2_1
, TMP18
);
1504 vis_ld64_2(ref
, stride_16
, TMP4
);
1506 vis_mul8x16au(REF_S4
, CONST_256
, TMP20
);
1507 vis_pmerge(ZERO
, REF_S4_1
, TMP22
);
1509 vis_ld64_2(ref
, stride
, TMP6
);
1510 vis_mul8x16au(REF_S6
, CONST_256
, TMP24
);
1511 vis_pmerge(ZERO
, REF_S6_1
, TMP26
);
1513 vis_ld64_2(ref
, stride_8
, TMP8
);
1514 vis_faligndata(TMP0
, TMP2
, REF_0
);
1516 vis_ld64_2(ref
, stride_16
, TMP10
);
1518 vis_faligndata(TMP2
, TMP4
, REF_4
);
1520 vis_faligndata(TMP6
, TMP8
, REF_S0
);
1522 vis_faligndata(TMP8
, TMP10
, REF_S4
);
1525 vis_alignaddr_g0((void *)off_plus_1
);
1526 vis_faligndata(TMP0
, TMP2
, REF_2
);
1527 vis_faligndata(TMP2
, TMP4
, REF_6
);
1528 vis_faligndata(TMP6
, TMP8
, REF_S2
);
1529 vis_faligndata(TMP8
, TMP10
, REF_S6
);
1531 vis_src1(TMP2
, REF_2
);
1532 vis_src1(TMP4
, REF_6
);
1533 vis_src1(TMP8
, REF_S2
);
1534 vis_src1(TMP10
, REF_S6
);
1537 vis_mul8x16au(REF_0
, CONST_256
, TMP0
);
1538 vis_pmerge(ZERO
, REF_0_1
, TMP2
);
1540 vis_mul8x16au(REF_2
, CONST_256
, TMP4
);
1541 vis_pmerge(ZERO
, REF_2_1
, TMP6
);
1543 vis_padd16(TMP0
, CONST_2
, TMP8
);
1544 vis_mul8x16au(REF_4
, CONST_256
, TMP0
);
1546 vis_padd16(TMP2
, CONST_2
, TMP10
);
1547 vis_mul8x16au(REF_4_1
, CONST_256
, TMP2
);
1549 vis_padd16(TMP8
, TMP4
, TMP8
);
1550 vis_mul8x16au(REF_6
, CONST_256
, TMP4
);
1552 vis_padd16(TMP10
, TMP6
, TMP10
);
1553 vis_mul8x16au(REF_6_1
, CONST_256
, TMP6
);
1555 vis_padd16(TMP12
, TMP8
, TMP12
);
1557 vis_padd16(TMP14
, TMP10
, TMP14
);
1559 vis_padd16(TMP12
, TMP16
, TMP12
);
1561 vis_padd16(TMP14
, TMP18
, TMP14
);
1562 vis_pack16(TMP12
, DST_0
);
1564 vis_pack16(TMP14
, DST_1
);
1565 vis_st64(DST_0
, dest
[0]);
1566 vis_padd16(TMP0
, CONST_2
, TMP12
);
1568 vis_mul8x16au(REF_S0
, CONST_256
, TMP0
);
1569 vis_padd16(TMP2
, CONST_2
, TMP14
);
1571 vis_mul8x16au(REF_S0_1
, CONST_256
, TMP2
);
1572 vis_padd16(TMP12
, TMP4
, TMP12
);
1574 vis_mul8x16au(REF_S2
, CONST_256
, TMP4
);
1575 vis_padd16(TMP14
, TMP6
, TMP14
);
1577 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP6
);
1578 vis_padd16(TMP20
, TMP12
, TMP20
);
1580 vis_padd16(TMP22
, TMP14
, TMP22
);
1582 vis_padd16(TMP20
, TMP24
, TMP20
);
1584 vis_padd16(TMP22
, TMP26
, TMP22
);
1585 vis_pack16(TMP20
, DST_2
);
1587 vis_pack16(TMP22
, DST_3
);
1588 vis_st64_2(DST_2
, dest
, 8);
1590 vis_padd16(TMP0
, TMP4
, TMP24
);
1592 vis_mul8x16au(REF_S4
, CONST_256
, TMP0
);
1593 vis_padd16(TMP2
, TMP6
, TMP26
);
1595 vis_mul8x16au(REF_S4_1
, CONST_256
, TMP2
);
1596 vis_padd16(TMP24
, TMP8
, TMP24
);
1598 vis_padd16(TMP26
, TMP10
, TMP26
);
1599 vis_pack16(TMP24
, DST_0
);
1601 vis_pack16(TMP26
, DST_1
);
1602 vis_st64(DST_0
, dest
[0]);
1603 vis_pmerge(ZERO
, REF_S6
, TMP4
);
1605 vis_pmerge(ZERO
, REF_S6_1
, TMP6
);
1607 vis_padd16(TMP0
, TMP4
, TMP0
);
1609 vis_padd16(TMP2
, TMP6
, TMP2
);
1611 vis_padd16(TMP0
, TMP12
, TMP0
);
1613 vis_padd16(TMP2
, TMP14
, TMP2
);
1614 vis_pack16(TMP0
, DST_2
);
1616 vis_pack16(TMP2
, DST_3
);
1617 vis_st64_2(DST_2
, dest
, 8);
1622 static void MC_put_xy_8_vis (uint8_t * dest
, const uint8_t * _ref
,
1623 const int stride
, int height
)
1625 uint8_t *ref
= (uint8_t *) _ref
;
1626 unsigned long off
= (unsigned long) ref
& 0x7;
1627 unsigned long off_plus_1
= off
+ 1;
1628 int stride_8
= stride
+ 8;
1630 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
1632 ref
= vis_alignaddr(ref
);
1634 vis_ld64(ref
[ 0], TMP0
);
1637 vis_ld64(ref
[ 8], TMP2
);
1639 vis_ld64(constants2
[0], CONST_2
);
1641 vis_ld64(constants256_512
[0], CONST_256
);
1642 vis_faligndata(TMP0
, TMP2
, REF_S0
);
1645 vis_alignaddr_g0((void *)off_plus_1
);
1646 vis_faligndata(TMP0
, TMP2
, REF_S2
);
1648 vis_src1(TMP2
, REF_S2
);
1652 do { /* 26 cycles */
1653 vis_ld64_2(ref
, stride
, TMP0
);
1654 vis_mul8x16au(REF_S0
, CONST_256
, TMP8
);
1655 vis_pmerge(ZERO
, REF_S2
, TMP12
);
1657 vis_alignaddr_g0((void *)off
);
1659 vis_ld64_2(ref
, stride_8
, TMP2
);
1661 vis_mul8x16au(REF_S0_1
, CONST_256
, TMP10
);
1662 vis_pmerge(ZERO
, REF_S2_1
, TMP14
);
1664 vis_ld64_2(ref
, stride
, TMP4
);
1666 vis_ld64_2(ref
, stride_8
, TMP6
);
1668 vis_faligndata(TMP0
, TMP2
, REF_S4
);
1670 vis_pmerge(ZERO
, REF_S4
, TMP18
);
1672 vis_pmerge(ZERO
, REF_S4_1
, TMP20
);
1674 vis_faligndata(TMP4
, TMP6
, REF_S0
);
1677 vis_alignaddr_g0((void *)off_plus_1
);
1678 vis_faligndata(TMP0
, TMP2
, REF_S6
);
1679 vis_faligndata(TMP4
, TMP6
, REF_S2
);
1681 vis_src1(TMP2
, REF_S6
);
1682 vis_src1(TMP6
, REF_S2
);
1685 vis_padd16(TMP18
, CONST_2
, TMP18
);
1686 vis_mul8x16au(REF_S6
, CONST_256
, TMP22
);
1688 vis_padd16(TMP20
, CONST_2
, TMP20
);
1689 vis_mul8x16au(REF_S6_1
, CONST_256
, TMP24
);
1691 vis_mul8x16au(REF_S0
, CONST_256
, TMP26
);
1692 vis_pmerge(ZERO
, REF_S0_1
, TMP28
);
1694 vis_mul8x16au(REF_S2
, CONST_256
, TMP30
);
1695 vis_padd16(TMP18
, TMP22
, TMP18
);
1697 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP32
);
1698 vis_padd16(TMP20
, TMP24
, TMP20
);
1700 vis_padd16(TMP8
, TMP18
, TMP8
);
1702 vis_padd16(TMP10
, TMP20
, TMP10
);
1704 vis_padd16(TMP8
, TMP12
, TMP8
);
1706 vis_padd16(TMP10
, TMP14
, TMP10
);
1707 vis_pack16(TMP8
, DST_0
);
1709 vis_pack16(TMP10
, DST_1
);
1710 vis_st64(DST_0
, dest
[0]);
1712 vis_padd16(TMP18
, TMP26
, TMP18
);
1714 vis_padd16(TMP20
, TMP28
, TMP20
);
1716 vis_padd16(TMP18
, TMP30
, TMP18
);
1718 vis_padd16(TMP20
, TMP32
, TMP20
);
1719 vis_pack16(TMP18
, DST_2
);
1721 vis_pack16(TMP20
, DST_3
);
1722 vis_st64(DST_2
, dest
[0]);
1727 static void MC_avg_xy_16_vis (uint8_t * dest
, const uint8_t * _ref
,
1728 const int stride
, int height
)
1730 uint8_t *ref
= (uint8_t *) _ref
;
1731 unsigned long off
= (unsigned long) ref
& 0x7;
1732 unsigned long off_plus_1
= off
+ 1;
1733 int stride_8
= stride
+ 8;
1734 int stride_16
= stride
+ 16;
1736 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT
);
1738 ref
= vis_alignaddr(ref
);
1740 vis_ld64(ref
[ 0], TMP0
);
1743 vis_ld64(ref
[ 8], TMP2
);
1745 vis_ld64(ref
[16], TMP4
);
1747 vis_ld64(constants6
[0], CONST_6
);
1748 vis_faligndata(TMP0
, TMP2
, REF_S0
);
1750 vis_ld64(constants256_1024
[0], CONST_256
);
1751 vis_faligndata(TMP2
, TMP4
, REF_S4
);
1754 vis_alignaddr_g0((void *)off_plus_1
);
1755 vis_faligndata(TMP0
, TMP2
, REF_S2
);
1756 vis_faligndata(TMP2
, TMP4
, REF_S6
);
1758 vis_src1(TMP2
, REF_S2
);
1759 vis_src1(TMP4
, REF_S6
);
1763 do { /* 55 cycles */
1764 vis_ld64_2(ref
, stride
, TMP0
);
1765 vis_mul8x16au(REF_S0
, CONST_256
, TMP12
);
1766 vis_pmerge(ZERO
, REF_S0_1
, TMP14
);
1768 vis_alignaddr_g0((void *)off
);
1770 vis_ld64_2(ref
, stride_8
, TMP2
);
1771 vis_mul8x16au(REF_S2
, CONST_256
, TMP16
);
1772 vis_pmerge(ZERO
, REF_S2_1
, TMP18
);
1774 vis_ld64_2(ref
, stride_16
, TMP4
);
1776 vis_mul8x16au(REF_S4
, CONST_256
, TMP20
);
1777 vis_pmerge(ZERO
, REF_S4_1
, TMP22
);
1779 vis_ld64_2(ref
, stride
, TMP6
);
1780 vis_mul8x16au(REF_S6
, CONST_256
, TMP24
);
1781 vis_pmerge(ZERO
, REF_S6_1
, TMP26
);
1783 vis_ld64_2(ref
, stride_8
, TMP8
);
1784 vis_faligndata(TMP0
, TMP2
, REF_0
);
1786 vis_ld64_2(ref
, stride_16
, TMP10
);
1788 vis_faligndata(TMP2
, TMP4
, REF_4
);
1790 vis_ld64(dest
[0], DST_0
);
1791 vis_faligndata(TMP6
, TMP8
, REF_S0
);
1793 vis_ld64_2(dest
, 8, DST_2
);
1794 vis_faligndata(TMP8
, TMP10
, REF_S4
);
1797 vis_alignaddr_g0((void *)off_plus_1
);
1798 vis_faligndata(TMP0
, TMP2
, REF_2
);
1799 vis_faligndata(TMP2
, TMP4
, REF_6
);
1800 vis_faligndata(TMP6
, TMP8
, REF_S2
);
1801 vis_faligndata(TMP8
, TMP10
, REF_S6
);
1803 vis_src1(TMP2
, REF_2
);
1804 vis_src1(TMP4
, REF_6
);
1805 vis_src1(TMP8
, REF_S2
);
1806 vis_src1(TMP10
, REF_S6
);
1809 vis_mul8x16al(DST_0
, CONST_1024
, TMP30
);
1810 vis_pmerge(ZERO
, REF_0
, TMP0
);
1812 vis_mul8x16al(DST_1
, CONST_1024
, TMP32
);
1813 vis_pmerge(ZERO
, REF_0_1
, TMP2
);
1815 vis_mul8x16au(REF_2
, CONST_256
, TMP4
);
1816 vis_pmerge(ZERO
, REF_2_1
, TMP6
);
1818 vis_mul8x16al(DST_2
, CONST_1024
, REF_0
);
1819 vis_padd16(TMP0
, CONST_6
, TMP0
);
1821 vis_mul8x16al(DST_3
, CONST_1024
, REF_2
);
1822 vis_padd16(TMP2
, CONST_6
, TMP2
);
1824 vis_padd16(TMP0
, TMP4
, TMP0
);
1825 vis_mul8x16au(REF_4
, CONST_256
, TMP4
);
1827 vis_padd16(TMP2
, TMP6
, TMP2
);
1828 vis_mul8x16au(REF_4_1
, CONST_256
, TMP6
);
1830 vis_padd16(TMP12
, TMP0
, TMP12
);
1831 vis_mul8x16au(REF_6
, CONST_256
, TMP8
);
1833 vis_padd16(TMP14
, TMP2
, TMP14
);
1834 vis_mul8x16au(REF_6_1
, CONST_256
, TMP10
);
1836 vis_padd16(TMP12
, TMP16
, TMP12
);
1837 vis_mul8x16au(REF_S0
, CONST_256
, REF_4
);
1839 vis_padd16(TMP14
, TMP18
, TMP14
);
1840 vis_mul8x16au(REF_S0_1
, CONST_256
, REF_6
);
1842 vis_padd16(TMP12
, TMP30
, TMP12
);
1844 vis_padd16(TMP14
, TMP32
, TMP14
);
1845 vis_pack16(TMP12
, DST_0
);
1847 vis_pack16(TMP14
, DST_1
);
1848 vis_st64(DST_0
, dest
[0]);
1849 vis_padd16(TMP4
, CONST_6
, TMP4
);
1851 vis_ld64_2(dest
, stride
, DST_0
);
1852 vis_padd16(TMP6
, CONST_6
, TMP6
);
1853 vis_mul8x16au(REF_S2
, CONST_256
, TMP12
);
1855 vis_padd16(TMP4
, TMP8
, TMP4
);
1856 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP14
);
1858 vis_padd16(TMP6
, TMP10
, TMP6
);
1860 vis_padd16(TMP20
, TMP4
, TMP20
);
1862 vis_padd16(TMP22
, TMP6
, TMP22
);
1864 vis_padd16(TMP20
, TMP24
, TMP20
);
1866 vis_padd16(TMP22
, TMP26
, TMP22
);
1868 vis_padd16(TMP20
, REF_0
, TMP20
);
1869 vis_mul8x16au(REF_S4
, CONST_256
, REF_0
);
1871 vis_padd16(TMP22
, REF_2
, TMP22
);
1872 vis_pack16(TMP20
, DST_2
);
1874 vis_pack16(TMP22
, DST_3
);
1875 vis_st64_2(DST_2
, dest
, 8);
1878 vis_ld64_2(dest
, 8, DST_2
);
1879 vis_mul8x16al(DST_0
, CONST_1024
, TMP30
);
1880 vis_pmerge(ZERO
, REF_S4_1
, REF_2
);
1882 vis_mul8x16al(DST_1
, CONST_1024
, TMP32
);
1883 vis_padd16(REF_4
, TMP0
, TMP8
);
1885 vis_mul8x16au(REF_S6
, CONST_256
, REF_4
);
1886 vis_padd16(REF_6
, TMP2
, TMP10
);
1888 vis_mul8x16au(REF_S6_1
, CONST_256
, REF_6
);
1889 vis_padd16(TMP8
, TMP12
, TMP8
);
1891 vis_padd16(TMP10
, TMP14
, TMP10
);
1893 vis_padd16(TMP8
, TMP30
, TMP8
);
1895 vis_padd16(TMP10
, TMP32
, TMP10
);
1896 vis_pack16(TMP8
, DST_0
);
1898 vis_pack16(TMP10
, DST_1
);
1899 vis_st64(DST_0
, dest
[0]);
1901 vis_padd16(REF_0
, TMP4
, REF_0
);
1903 vis_mul8x16al(DST_2
, CONST_1024
, TMP30
);
1904 vis_padd16(REF_2
, TMP6
, REF_2
);
1906 vis_mul8x16al(DST_3
, CONST_1024
, TMP32
);
1907 vis_padd16(REF_0
, REF_4
, REF_0
);
1909 vis_padd16(REF_2
, REF_6
, REF_2
);
1911 vis_padd16(REF_0
, TMP30
, REF_0
);
1915 vis_padd16(REF_2
, TMP32
, REF_2
);
1916 vis_pack16(REF_0
, DST_2
);
1918 vis_pack16(REF_2
, DST_3
);
1919 vis_st64_2(DST_2
, dest
, 8);
1924 static void MC_avg_xy_8_vis (uint8_t * dest
, const uint8_t * _ref
,
1925 const int stride
, int height
)
1927 uint8_t *ref
= (uint8_t *) _ref
;
1928 unsigned long off
= (unsigned long) ref
& 0x7;
1929 unsigned long off_plus_1
= off
+ 1;
1930 int stride_8
= stride
+ 8;
1932 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT
);
1934 ref
= vis_alignaddr(ref
);
1936 vis_ld64(ref
[0], TMP0
);
1939 vis_ld64_2(ref
, 8, TMP2
);
1941 vis_ld64(constants6
[0], CONST_6
);
1943 vis_ld64(constants256_1024
[0], CONST_256
);
1944 vis_faligndata(TMP0
, TMP2
, REF_S0
);
1947 vis_alignaddr_g0((void *)off_plus_1
);
1948 vis_faligndata(TMP0
, TMP2
, REF_S2
);
1950 vis_src1(TMP2
, REF_S2
);
1954 do { /* 31 cycles */
1955 vis_ld64_2(ref
, stride
, TMP0
);
1956 vis_mul8x16au(REF_S0
, CONST_256
, TMP8
);
1957 vis_pmerge(ZERO
, REF_S0_1
, TMP10
);
1959 vis_ld64_2(ref
, stride_8
, TMP2
);
1961 vis_mul8x16au(REF_S2
, CONST_256
, TMP12
);
1962 vis_pmerge(ZERO
, REF_S2_1
, TMP14
);
1964 vis_alignaddr_g0((void *)off
);
1966 vis_ld64_2(ref
, stride
, TMP4
);
1967 vis_faligndata(TMP0
, TMP2
, REF_S4
);
1969 vis_ld64_2(ref
, stride_8
, TMP6
);
1972 vis_ld64(dest
[0], DST_0
);
1973 vis_faligndata(TMP4
, TMP6
, REF_S0
);
1975 vis_ld64_2(dest
, stride
, DST_2
);
1978 vis_alignaddr_g0((void *)off_plus_1
);
1979 vis_faligndata(TMP0
, TMP2
, REF_S6
);
1980 vis_faligndata(TMP4
, TMP6
, REF_S2
);
1982 vis_src1(TMP2
, REF_S6
);
1983 vis_src1(TMP6
, REF_S2
);
1986 vis_mul8x16al(DST_0
, CONST_1024
, TMP30
);
1987 vis_pmerge(ZERO
, REF_S4
, TMP22
);
1989 vis_mul8x16al(DST_1
, CONST_1024
, TMP32
);
1990 vis_pmerge(ZERO
, REF_S4_1
, TMP24
);
1992 vis_mul8x16au(REF_S6
, CONST_256
, TMP26
);
1993 vis_pmerge(ZERO
, REF_S6_1
, TMP28
);
1995 vis_mul8x16au(REF_S0
, CONST_256
, REF_S4
);
1996 vis_padd16(TMP22
, CONST_6
, TMP22
);
1998 vis_mul8x16au(REF_S0_1
, CONST_256
, REF_S6
);
1999 vis_padd16(TMP24
, CONST_6
, TMP24
);
2001 vis_mul8x16al(DST_2
, CONST_1024
, REF_0
);
2002 vis_padd16(TMP22
, TMP26
, TMP22
);
2004 vis_mul8x16al(DST_3
, CONST_1024
, REF_2
);
2005 vis_padd16(TMP24
, TMP28
, TMP24
);
2007 vis_mul8x16au(REF_S2
, CONST_256
, TMP26
);
2008 vis_padd16(TMP8
, TMP22
, TMP8
);
2010 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP28
);
2011 vis_padd16(TMP10
, TMP24
, TMP10
);
2013 vis_padd16(TMP8
, TMP12
, TMP8
);
2015 vis_padd16(TMP10
, TMP14
, TMP10
);
2017 vis_padd16(TMP8
, TMP30
, TMP8
);
2019 vis_padd16(TMP10
, TMP32
, TMP10
);
2020 vis_pack16(TMP8
, DST_0
);
2022 vis_pack16(TMP10
, DST_1
);
2023 vis_st64(DST_0
, dest
[0]);
2026 vis_padd16(REF_S4
, TMP22
, TMP12
);
2028 vis_padd16(REF_S6
, TMP24
, TMP14
);
2030 vis_padd16(TMP12
, TMP26
, TMP12
);
2032 vis_padd16(TMP14
, TMP28
, TMP14
);
2034 vis_padd16(TMP12
, REF_0
, TMP12
);
2036 vis_padd16(TMP14
, REF_2
, TMP14
);
2037 vis_pack16(TMP12
, DST_2
);
2039 vis_pack16(TMP14
, DST_3
);
2040 vis_st64(DST_2
, dest
[0]);
2045 /* End of rounding code */
2047 /* Start of no rounding code */
2048 /* The trick used in some of this file is the formula from the MMX
2049 * motion comp code, which is:
2051 * (x+y)>>1 == (x&y)+((x^y)>>1)
2053 * This allows us to average 8 bytes at a time in a 64-bit FPU reg.
2054 * We avoid overflows by masking before we do the shift, and we
2055 * implement the shift by multiplying by 1/2 using mul8x16. So in
2056 * VIS this is (assume 'x' is in f0, 'y' is in f2, a repeating mask
2057 * of '0xfe' is in f4, a repeating mask of '0x7f' is in f6, and
2058 * the value 0x80808080 is in f8):
2062 * fmul8x16 f8, f10, f10
2065 * fpadd16 f12, f10, f10
2068 static void MC_put_no_round_o_16_vis (uint8_t * dest
, const uint8_t * _ref
,
2069 const int stride
, int height
)
2071 uint8_t *ref
= (uint8_t *) _ref
;
2073 ref
= vis_alignaddr(ref
);
2075 vis_ld64(ref
[0], TMP0
);
2077 vis_ld64_2(ref
, 8, TMP2
);
2079 vis_ld64_2(ref
, 16, TMP4
);
2082 vis_faligndata(TMP0
, TMP2
, REF_0
);
2083 vis_st64(REF_0
, dest
[0]);
2085 vis_faligndata(TMP2
, TMP4
, REF_2
);
2086 vis_st64_2(REF_2
, dest
, 8);
2091 static void MC_put_no_round_o_8_vis (uint8_t * dest
, const uint8_t * _ref
,
2092 const int stride
, int height
)
2094 uint8_t *ref
= (uint8_t *) _ref
;
2096 ref
= vis_alignaddr(ref
);
2098 vis_ld64(ref
[0], TMP0
);
2100 vis_ld64(ref
[8], TMP2
);
2105 vis_faligndata(TMP0
, TMP2
, REF_0
);
2106 vis_st64(REF_0
, dest
[0]);
2112 static void MC_avg_no_round_o_16_vis (uint8_t * dest
, const uint8_t * _ref
,
2113 const int stride
, int height
)
2115 uint8_t *ref
= (uint8_t *) _ref
;
2116 int stride_8
= stride
+ 8;
2118 ref
= vis_alignaddr(ref
);
2120 vis_ld64(ref
[0], TMP0
);
2122 vis_ld64(ref
[8], TMP2
);
2124 vis_ld64(ref
[16], TMP4
);
2126 vis_ld64(dest
[0], DST_0
);
2128 vis_ld64(dest
[8], DST_2
);
2130 vis_ld64(constants_fe
[0], MASK_fe
);
2131 vis_faligndata(TMP0
, TMP2
, REF_0
);
2133 vis_ld64(constants_7f
[0], MASK_7f
);
2134 vis_faligndata(TMP2
, TMP4
, REF_2
);
2136 vis_ld64(constants128
[0], CONST_128
);
2139 height
= (height
>> 1) - 1;
2141 do { /* 24 cycles */
2142 vis_ld64(ref
[0], TMP0
);
2143 vis_xor(DST_0
, REF_0
, TMP6
);
2145 vis_ld64_2(ref
, 8, TMP2
);
2146 vis_and(TMP6
, MASK_fe
, TMP6
);
2148 vis_ld64_2(ref
, 16, TMP4
);
2150 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
2151 vis_xor(DST_2
, REF_2
, TMP8
);
2153 vis_and(TMP8
, MASK_fe
, TMP8
);
2155 vis_and(DST_0
, REF_0
, TMP10
);
2156 vis_ld64_2(dest
, stride
, DST_0
);
2157 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
2159 vis_and(DST_2
, REF_2
, TMP12
);
2160 vis_ld64_2(dest
, stride_8
, DST_2
);
2162 vis_ld64(ref
[0], TMP14
);
2163 vis_and(TMP6
, MASK_7f
, TMP6
);
2165 vis_and(TMP8
, MASK_7f
, TMP8
);
2167 vis_padd16(TMP10
, TMP6
, TMP6
);
2168 vis_st64(TMP6
, dest
[0]);
2170 vis_padd16(TMP12
, TMP8
, TMP8
);
2171 vis_st64_2(TMP8
, dest
, 8);
2174 vis_ld64_2(ref
, 8, TMP16
);
2175 vis_faligndata(TMP0
, TMP2
, REF_0
);
2177 vis_ld64_2(ref
, 16, TMP18
);
2178 vis_faligndata(TMP2
, TMP4
, REF_2
);
2181 vis_xor(DST_0
, REF_0
, TMP20
);
2183 vis_and(TMP20
, MASK_fe
, TMP20
);
2185 vis_xor(DST_2
, REF_2
, TMP22
);
2186 vis_mul8x16(CONST_128
, TMP20
, TMP20
);
2188 vis_and(TMP22
, MASK_fe
, TMP22
);
2190 vis_and(DST_0
, REF_0
, TMP24
);
2191 vis_mul8x16(CONST_128
, TMP22
, TMP22
);
2193 vis_and(DST_2
, REF_2
, TMP26
);
2195 vis_ld64_2(dest
, stride
, DST_0
);
2196 vis_faligndata(TMP14
, TMP16
, REF_0
);
2198 vis_ld64_2(dest
, stride_8
, DST_2
);
2199 vis_faligndata(TMP16
, TMP18
, REF_2
);
2201 vis_and(TMP20
, MASK_7f
, TMP20
);
2203 vis_and(TMP22
, MASK_7f
, TMP22
);
2205 vis_padd16(TMP24
, TMP20
, TMP20
);
2206 vis_st64(TMP20
, dest
[0]);
2208 vis_padd16(TMP26
, TMP22
, TMP22
);
2209 vis_st64_2(TMP22
, dest
, 8);
2213 vis_ld64(ref
[0], TMP0
);
2214 vis_xor(DST_0
, REF_0
, TMP6
);
2216 vis_ld64_2(ref
, 8, TMP2
);
2217 vis_and(TMP6
, MASK_fe
, TMP6
);
2219 vis_ld64_2(ref
, 16, TMP4
);
2220 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
2221 vis_xor(DST_2
, REF_2
, TMP8
);
2223 vis_and(TMP8
, MASK_fe
, TMP8
);
2225 vis_and(DST_0
, REF_0
, TMP10
);
2226 vis_ld64_2(dest
, stride
, DST_0
);
2227 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
2229 vis_and(DST_2
, REF_2
, TMP12
);
2230 vis_ld64_2(dest
, stride_8
, DST_2
);
2232 vis_ld64(ref
[0], TMP14
);
2233 vis_and(TMP6
, MASK_7f
, TMP6
);
2235 vis_and(TMP8
, MASK_7f
, TMP8
);
2237 vis_padd16(TMP10
, TMP6
, TMP6
);
2238 vis_st64(TMP6
, dest
[0]);
2240 vis_padd16(TMP12
, TMP8
, TMP8
);
2241 vis_st64_2(TMP8
, dest
, 8);
2244 vis_faligndata(TMP0
, TMP2
, REF_0
);
2246 vis_faligndata(TMP2
, TMP4
, REF_2
);
2248 vis_xor(DST_0
, REF_0
, TMP20
);
2250 vis_and(TMP20
, MASK_fe
, TMP20
);
2252 vis_xor(DST_2
, REF_2
, TMP22
);
2253 vis_mul8x16(CONST_128
, TMP20
, TMP20
);
2255 vis_and(TMP22
, MASK_fe
, TMP22
);
2257 vis_and(DST_0
, REF_0
, TMP24
);
2258 vis_mul8x16(CONST_128
, TMP22
, TMP22
);
2260 vis_and(DST_2
, REF_2
, TMP26
);
2262 vis_and(TMP20
, MASK_7f
, TMP20
);
2264 vis_and(TMP22
, MASK_7f
, TMP22
);
2266 vis_padd16(TMP24
, TMP20
, TMP20
);
2267 vis_st64(TMP20
, dest
[0]);
2269 vis_padd16(TMP26
, TMP22
, TMP22
);
2270 vis_st64_2(TMP22
, dest
, 8);
2273 static void MC_avg_no_round_o_8_vis (uint8_t * dest
, const uint8_t * _ref
,
2274 const int stride
, int height
)
2276 uint8_t *ref
= (uint8_t *) _ref
;
2278 ref
= vis_alignaddr(ref
);
2280 vis_ld64(ref
[0], TMP0
);
2282 vis_ld64(ref
[8], TMP2
);
2284 vis_ld64(dest
[0], DST_0
);
2286 vis_ld64(constants_fe
[0], MASK_fe
);
2288 vis_ld64(constants_7f
[0], MASK_7f
);
2289 vis_faligndata(TMP0
, TMP2
, REF_0
);
2291 vis_ld64(constants128
[0], CONST_128
);
2294 height
= (height
>> 1) - 1;
2296 do { /* 12 cycles */
2297 vis_ld64(ref
[0], TMP0
);
2298 vis_xor(DST_0
, REF_0
, TMP4
);
2300 vis_ld64(ref
[8], TMP2
);
2301 vis_and(TMP4
, MASK_fe
, TMP4
);
2303 vis_and(DST_0
, REF_0
, TMP6
);
2304 vis_ld64_2(dest
, stride
, DST_0
);
2306 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
2308 vis_ld64(ref
[0], TMP12
);
2309 vis_faligndata(TMP0
, TMP2
, REF_0
);
2311 vis_ld64(ref
[8], TMP2
);
2312 vis_xor(DST_0
, REF_0
, TMP0
);
2315 vis_and(TMP0
, MASK_fe
, TMP0
);
2317 vis_and(TMP4
, MASK_7f
, TMP4
);
2319 vis_padd16(TMP6
, TMP4
, TMP4
);
2320 vis_st64(TMP4
, dest
[0]);
2322 vis_mul8x16(CONST_128
, TMP0
, TMP0
);
2324 vis_and(DST_0
, REF_0
, TMP6
);
2325 vis_ld64_2(dest
, stride
, DST_0
);
2327 vis_faligndata(TMP12
, TMP2
, REF_0
);
2329 vis_and(TMP0
, MASK_7f
, TMP0
);
2331 vis_padd16(TMP6
, TMP0
, TMP4
);
2332 vis_st64(TMP4
, dest
[0]);
2336 vis_ld64(ref
[0], TMP0
);
2337 vis_xor(DST_0
, REF_0
, TMP4
);
2339 vis_ld64(ref
[8], TMP2
);
2340 vis_and(TMP4
, MASK_fe
, TMP4
);
2342 vis_and(DST_0
, REF_0
, TMP6
);
2343 vis_ld64_2(dest
, stride
, DST_0
);
2344 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
2346 vis_faligndata(TMP0
, TMP2
, REF_0
);
2348 vis_xor(DST_0
, REF_0
, TMP0
);
2350 vis_and(TMP0
, MASK_fe
, TMP0
);
2352 vis_and(TMP4
, MASK_7f
, TMP4
);
2354 vis_padd16(TMP6
, TMP4
, TMP4
);
2355 vis_st64(TMP4
, dest
[0]);
2357 vis_mul8x16(CONST_128
, TMP0
, TMP0
);
2359 vis_and(DST_0
, REF_0
, TMP6
);
2361 vis_and(TMP0
, MASK_7f
, TMP0
);
2363 vis_padd16(TMP6
, TMP0
, TMP4
);
2364 vis_st64(TMP4
, dest
[0]);
2367 static void MC_put_no_round_x_16_vis (uint8_t * dest
, const uint8_t * _ref
,
2368 const int stride
, int height
)
2370 uint8_t *ref
= (uint8_t *) _ref
;
2371 unsigned long off
= (unsigned long) ref
& 0x7;
2372 unsigned long off_plus_1
= off
+ 1;
2374 ref
= vis_alignaddr(ref
);
2376 vis_ld64(ref
[0], TMP0
);
2378 vis_ld64_2(ref
, 8, TMP2
);
2380 vis_ld64_2(ref
, 16, TMP4
);
2382 vis_ld64(constants_fe
[0], MASK_fe
);
2384 vis_ld64(constants_7f
[0], MASK_7f
);
2385 vis_faligndata(TMP0
, TMP2
, REF_0
);
2387 vis_ld64(constants128
[0], CONST_128
);
2388 vis_faligndata(TMP2
, TMP4
, REF_4
);
2391 vis_alignaddr_g0((void *)off_plus_1
);
2392 vis_faligndata(TMP0
, TMP2
, REF_2
);
2393 vis_faligndata(TMP2
, TMP4
, REF_6
);
2395 vis_src1(TMP2
, REF_2
);
2396 vis_src1(TMP4
, REF_6
);
2400 height
= (height
>> 1) - 1;
2402 do { /* 34 cycles */
2403 vis_ld64(ref
[0], TMP0
);
2404 vis_xor(REF_0
, REF_2
, TMP6
);
2406 vis_ld64_2(ref
, 8, TMP2
);
2407 vis_xor(REF_4
, REF_6
, TMP8
);
2409 vis_ld64_2(ref
, 16, TMP4
);
2410 vis_and(TMP6
, MASK_fe
, TMP6
);
2413 vis_ld64(ref
[0], TMP14
);
2414 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
2415 vis_and(TMP8
, MASK_fe
, TMP8
);
2417 vis_ld64_2(ref
, 8, TMP16
);
2418 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
2419 vis_and(REF_0
, REF_2
, TMP10
);
2421 vis_ld64_2(ref
, 16, TMP18
);
2423 vis_and(REF_4
, REF_6
, TMP12
);
2425 vis_alignaddr_g0((void *)off
);
2427 vis_faligndata(TMP0
, TMP2
, REF_0
);
2429 vis_faligndata(TMP2
, TMP4
, REF_4
);
2432 vis_alignaddr_g0((void *)off_plus_1
);
2433 vis_faligndata(TMP0
, TMP2
, REF_2
);
2434 vis_faligndata(TMP2
, TMP4
, REF_6
);
2436 vis_src1(TMP2
, REF_2
);
2437 vis_src1(TMP4
, REF_6
);
2440 vis_and(TMP6
, MASK_7f
, TMP6
);
2442 vis_and(TMP8
, MASK_7f
, TMP8
);
2444 vis_padd16(TMP10
, TMP6
, TMP6
);
2445 vis_st64(TMP6
, dest
[0]);
2447 vis_padd16(TMP12
, TMP8
, TMP8
);
2448 vis_st64_2(TMP8
, dest
, 8);
2451 vis_xor(REF_0
, REF_2
, TMP6
);
2453 vis_xor(REF_4
, REF_6
, TMP8
);
2455 vis_and(TMP6
, MASK_fe
, TMP6
);
2457 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
2458 vis_and(TMP8
, MASK_fe
, TMP8
);
2460 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
2461 vis_and(REF_0
, REF_2
, TMP10
);
2463 vis_and(REF_4
, REF_6
, TMP12
);
2465 vis_alignaddr_g0((void *)off
);
2467 vis_faligndata(TMP14
, TMP16
, REF_0
);
2469 vis_faligndata(TMP16
, TMP18
, REF_4
);
2472 vis_alignaddr_g0((void *)off_plus_1
);
2473 vis_faligndata(TMP14
, TMP16
, REF_2
);
2474 vis_faligndata(TMP16
, TMP18
, REF_6
);
2476 vis_src1(TMP16
, REF_2
);
2477 vis_src1(TMP18
, REF_6
);
2480 vis_and(TMP6
, MASK_7f
, TMP6
);
2482 vis_and(TMP8
, MASK_7f
, TMP8
);
2484 vis_padd16(TMP10
, TMP6
, TMP6
);
2485 vis_st64(TMP6
, dest
[0]);
2487 vis_padd16(TMP12
, TMP8
, TMP8
);
2488 vis_st64_2(TMP8
, dest
, 8);
2492 vis_ld64(ref
[0], TMP0
);
2493 vis_xor(REF_0
, REF_2
, TMP6
);
2495 vis_ld64_2(ref
, 8, TMP2
);
2496 vis_xor(REF_4
, REF_6
, TMP8
);
2498 vis_ld64_2(ref
, 16, TMP4
);
2499 vis_and(TMP6
, MASK_fe
, TMP6
);
2501 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
2502 vis_and(TMP8
, MASK_fe
, TMP8
);
2504 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
2505 vis_and(REF_0
, REF_2
, TMP10
);
2507 vis_and(REF_4
, REF_6
, TMP12
);
2509 vis_alignaddr_g0((void *)off
);
2511 vis_faligndata(TMP0
, TMP2
, REF_0
);
2513 vis_faligndata(TMP2
, TMP4
, REF_4
);
2516 vis_alignaddr_g0((void *)off_plus_1
);
2517 vis_faligndata(TMP0
, TMP2
, REF_2
);
2518 vis_faligndata(TMP2
, TMP4
, REF_6
);
2520 vis_src1(TMP2
, REF_2
);
2521 vis_src1(TMP4
, REF_6
);
2524 vis_and(TMP6
, MASK_7f
, TMP6
);
2526 vis_and(TMP8
, MASK_7f
, TMP8
);
2528 vis_padd16(TMP10
, TMP6
, TMP6
);
2529 vis_st64(TMP6
, dest
[0]);
2531 vis_padd16(TMP12
, TMP8
, TMP8
);
2532 vis_st64_2(TMP8
, dest
, 8);
2535 vis_xor(REF_0
, REF_2
, TMP6
);
2537 vis_xor(REF_4
, REF_6
, TMP8
);
2539 vis_and(TMP6
, MASK_fe
, TMP6
);
2541 vis_mul8x16(CONST_128
, TMP6
, TMP6
);
2542 vis_and(TMP8
, MASK_fe
, TMP8
);
2544 vis_mul8x16(CONST_128
, TMP8
, TMP8
);
2545 vis_and(REF_0
, REF_2
, TMP10
);
2547 vis_and(REF_4
, REF_6
, TMP12
);
2549 vis_and(TMP6
, MASK_7f
, TMP6
);
2551 vis_and(TMP8
, MASK_7f
, TMP8
);
2553 vis_padd16(TMP10
, TMP6
, TMP6
);
2554 vis_st64(TMP6
, dest
[0]);
2556 vis_padd16(TMP12
, TMP8
, TMP8
);
2557 vis_st64_2(TMP8
, dest
, 8);
2560 static void MC_put_no_round_x_8_vis (uint8_t * dest
, const uint8_t * _ref
,
2561 const int stride
, int height
)
2563 uint8_t *ref
= (uint8_t *) _ref
;
2564 unsigned long off
= (unsigned long) ref
& 0x7;
2565 unsigned long off_plus_1
= off
+ 1;
2567 ref
= vis_alignaddr(ref
);
2569 vis_ld64(ref
[0], TMP0
);
2571 vis_ld64(ref
[8], TMP2
);
2573 vis_ld64(constants_fe
[0], MASK_fe
);
2575 vis_ld64(constants_7f
[0], MASK_7f
);
2577 vis_ld64(constants128
[0], CONST_128
);
2578 vis_faligndata(TMP0
, TMP2
, REF_0
);
2581 vis_alignaddr_g0((void *)off_plus_1
);
2582 vis_faligndata(TMP0
, TMP2
, REF_2
);
2584 vis_src1(TMP2
, REF_2
);
2588 height
= (height
>> 1) - 1;
2590 do { /* 20 cycles */
2591 vis_ld64(ref
[0], TMP0
);
2592 vis_xor(REF_0
, REF_2
, TMP4
);
2594 vis_ld64_2(ref
, 8, TMP2
);
2595 vis_and(TMP4
, MASK_fe
, TMP4
);
2598 vis_ld64(ref
[0], TMP8
);
2599 vis_and(REF_0
, REF_2
, TMP6
);
2600 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
2602 vis_alignaddr_g0((void *)off
);
2604 vis_ld64_2(ref
, 8, TMP10
);
2606 vis_faligndata(TMP0
, TMP2
, REF_0
);
2609 vis_alignaddr_g0((void *)off_plus_1
);
2610 vis_faligndata(TMP0
, TMP2
, REF_2
);
2612 vis_src1(TMP2
, REF_2
);
2615 vis_and(TMP4
, MASK_7f
, TMP4
);
2617 vis_padd16(TMP6
, TMP4
, DST_0
);
2618 vis_st64(DST_0
, dest
[0]);
2621 vis_xor(REF_0
, REF_2
, TMP12
);
2623 vis_and(TMP12
, MASK_fe
, TMP12
);
2625 vis_and(REF_0
, REF_2
, TMP14
);
2626 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
2628 vis_alignaddr_g0((void *)off
);
2629 vis_faligndata(TMP8
, TMP10
, REF_0
);
2631 vis_alignaddr_g0((void *)off_plus_1
);
2632 vis_faligndata(TMP8
, TMP10
, REF_2
);
2634 vis_src1(TMP10
, REF_2
);
2637 vis_and(TMP12
, MASK_7f
, TMP12
);
2639 vis_padd16(TMP14
, TMP12
, DST_0
);
2640 vis_st64(DST_0
, dest
[0]);
2644 vis_ld64(ref
[0], TMP0
);
2645 vis_xor(REF_0
, REF_2
, TMP4
);
2647 vis_ld64_2(ref
, 8, TMP2
);
2648 vis_and(TMP4
, MASK_fe
, TMP4
);
2650 vis_and(REF_0
, REF_2
, TMP6
);
2651 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
2653 vis_alignaddr_g0((void *)off
);
2655 vis_faligndata(TMP0
, TMP2
, REF_0
);
2658 vis_alignaddr_g0((void *)off_plus_1
);
2659 vis_faligndata(TMP0
, TMP2
, REF_2
);
2661 vis_src1(TMP2
, REF_2
);
2664 vis_and(TMP4
, MASK_7f
, TMP4
);
2666 vis_padd16(TMP6
, TMP4
, DST_0
);
2667 vis_st64(DST_0
, dest
[0]);
2670 vis_xor(REF_0
, REF_2
, TMP12
);
2672 vis_and(TMP12
, MASK_fe
, TMP12
);
2674 vis_and(REF_0
, REF_2
, TMP14
);
2675 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
2677 vis_and(TMP12
, MASK_7f
, TMP12
);
2679 vis_padd16(TMP14
, TMP12
, DST_0
);
2680 vis_st64(DST_0
, dest
[0]);
2684 static void MC_avg_no_round_x_16_vis (uint8_t * dest
, const uint8_t * _ref
,
2685 const int stride
, int height
)
2687 uint8_t *ref
= (uint8_t *) _ref
;
2688 unsigned long off
= (unsigned long) ref
& 0x7;
2689 unsigned long off_plus_1
= off
+ 1;
2691 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
2693 vis_ld64(constants3
[0], CONST_3
);
2695 vis_ld64(constants256_512
[0], CONST_256
);
2697 ref
= vis_alignaddr(ref
);
2698 do { /* 26 cycles */
2699 vis_ld64(ref
[0], TMP0
);
2701 vis_ld64(ref
[8], TMP2
);
2703 vis_alignaddr_g0((void *)off
);
2705 vis_ld64(ref
[16], TMP4
);
2707 vis_ld64(dest
[0], DST_0
);
2708 vis_faligndata(TMP0
, TMP2
, REF_0
);
2710 vis_ld64(dest
[8], DST_2
);
2711 vis_faligndata(TMP2
, TMP4
, REF_4
);
2714 vis_alignaddr_g0((void *)off_plus_1
);
2715 vis_faligndata(TMP0
, TMP2
, REF_2
);
2716 vis_faligndata(TMP2
, TMP4
, REF_6
);
2718 vis_src1(TMP2
, REF_2
);
2719 vis_src1(TMP4
, REF_6
);
2722 vis_mul8x16au(REF_0
, CONST_256
, TMP0
);
2724 vis_pmerge(ZERO
, REF_2
, TMP4
);
2725 vis_mul8x16au(REF_0_1
, CONST_256
, TMP2
);
2727 vis_pmerge(ZERO
, REF_2_1
, TMP6
);
2729 vis_padd16(TMP0
, TMP4
, TMP0
);
2731 vis_mul8x16al(DST_0
, CONST_512
, TMP4
);
2732 vis_padd16(TMP2
, TMP6
, TMP2
);
2734 vis_mul8x16al(DST_1
, CONST_512
, TMP6
);
2736 vis_mul8x16au(REF_6
, CONST_256
, TMP12
);
2738 vis_padd16(TMP0
, TMP4
, TMP0
);
2739 vis_mul8x16au(REF_6_1
, CONST_256
, TMP14
);
2741 vis_padd16(TMP2
, TMP6
, TMP2
);
2742 vis_mul8x16au(REF_4
, CONST_256
, TMP16
);
2744 vis_padd16(TMP0
, CONST_3
, TMP8
);
2745 vis_mul8x16au(REF_4_1
, CONST_256
, TMP18
);
2747 vis_padd16(TMP2
, CONST_3
, TMP10
);
2748 vis_pack16(TMP8
, DST_0
);
2750 vis_pack16(TMP10
, DST_1
);
2751 vis_padd16(TMP16
, TMP12
, TMP0
);
2753 vis_st64(DST_0
, dest
[0]);
2754 vis_mul8x16al(DST_2
, CONST_512
, TMP4
);
2755 vis_padd16(TMP18
, TMP14
, TMP2
);
2757 vis_mul8x16al(DST_3
, CONST_512
, TMP6
);
2758 vis_padd16(TMP0
, CONST_3
, TMP0
);
2760 vis_padd16(TMP2
, CONST_3
, TMP2
);
2762 vis_padd16(TMP0
, TMP4
, TMP0
);
2764 vis_padd16(TMP2
, TMP6
, TMP2
);
2765 vis_pack16(TMP0
, DST_2
);
2767 vis_pack16(TMP2
, DST_3
);
2768 vis_st64(DST_2
, dest
[8]);
2775 static void MC_avg_no_round_x_8_vis (uint8_t * dest
, const uint8_t * _ref
,
2776 const int stride
, int height
)
2778 uint8_t *ref
= (uint8_t *) _ref
;
2779 unsigned long off
= (unsigned long) ref
& 0x7;
2780 unsigned long off_plus_1
= off
+ 1;
2781 int stride_times_2
= stride
<< 1;
2783 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
2785 vis_ld64(constants3
[0], CONST_3
);
2787 vis_ld64(constants256_512
[0], CONST_256
);
2789 ref
= vis_alignaddr(ref
);
2791 do { /* 47 cycles */
2792 vis_ld64(ref
[0], TMP0
);
2794 vis_ld64_2(ref
, 8, TMP2
);
2797 vis_alignaddr_g0((void *)off
);
2799 vis_ld64(ref
[0], TMP4
);
2800 vis_faligndata(TMP0
, TMP2
, REF_0
);
2802 vis_ld64_2(ref
, 8, TMP6
);
2805 vis_ld64(ref
[0], TMP8
);
2807 vis_ld64_2(ref
, 8, TMP10
);
2809 vis_faligndata(TMP4
, TMP6
, REF_4
);
2811 vis_ld64(ref
[0], TMP12
);
2813 vis_ld64_2(ref
, 8, TMP14
);
2815 vis_faligndata(TMP8
, TMP10
, REF_S0
);
2817 vis_faligndata(TMP12
, TMP14
, REF_S4
);
2820 vis_alignaddr_g0((void *)off_plus_1
);
2822 vis_ld64(dest
[0], DST_0
);
2823 vis_faligndata(TMP0
, TMP2
, REF_2
);
2825 vis_ld64_2(dest
, stride
, DST_2
);
2826 vis_faligndata(TMP4
, TMP6
, REF_6
);
2828 vis_faligndata(TMP8
, TMP10
, REF_S2
);
2830 vis_faligndata(TMP12
, TMP14
, REF_S6
);
2832 vis_ld64(dest
[0], DST_0
);
2833 vis_src1(TMP2
, REF_2
);
2835 vis_ld64_2(dest
, stride
, DST_2
);
2836 vis_src1(TMP6
, REF_6
);
2838 vis_src1(TMP10
, REF_S2
);
2840 vis_src1(TMP14
, REF_S6
);
2843 vis_pmerge(ZERO
, REF_0
, TMP0
);
2844 vis_mul8x16au(REF_0_1
, CONST_256
, TMP2
);
2846 vis_pmerge(ZERO
, REF_2
, TMP4
);
2847 vis_mul8x16au(REF_2_1
, CONST_256
, TMP6
);
2849 vis_padd16(TMP0
, CONST_3
, TMP0
);
2850 vis_mul8x16al(DST_0
, CONST_512
, TMP16
);
2852 vis_padd16(TMP2
, CONST_3
, TMP2
);
2853 vis_mul8x16al(DST_1
, CONST_512
, TMP18
);
2855 vis_padd16(TMP0
, TMP4
, TMP0
);
2856 vis_mul8x16au(REF_4
, CONST_256
, TMP8
);
2858 vis_padd16(TMP2
, TMP6
, TMP2
);
2859 vis_mul8x16au(REF_4_1
, CONST_256
, TMP10
);
2861 vis_padd16(TMP0
, TMP16
, TMP0
);
2862 vis_mul8x16au(REF_6
, CONST_256
, TMP12
);
2864 vis_padd16(TMP2
, TMP18
, TMP2
);
2865 vis_mul8x16au(REF_6_1
, CONST_256
, TMP14
);
2867 vis_padd16(TMP8
, CONST_3
, TMP8
);
2868 vis_mul8x16al(DST_2
, CONST_512
, TMP16
);
2870 vis_padd16(TMP8
, TMP12
, TMP8
);
2871 vis_mul8x16al(DST_3
, CONST_512
, TMP18
);
2873 vis_padd16(TMP10
, TMP14
, TMP10
);
2874 vis_pack16(TMP0
, DST_0
);
2876 vis_pack16(TMP2
, DST_1
);
2877 vis_st64(DST_0
, dest
[0]);
2879 vis_padd16(TMP10
, CONST_3
, TMP10
);
2881 vis_ld64_2(dest
, stride
, DST_0
);
2882 vis_padd16(TMP8
, TMP16
, TMP8
);
2884 vis_ld64_2(dest
, stride_times_2
, TMP4
/*DST_2*/);
2885 vis_padd16(TMP10
, TMP18
, TMP10
);
2886 vis_pack16(TMP8
, DST_2
);
2888 vis_pack16(TMP10
, DST_3
);
2889 vis_st64(DST_2
, dest
[0]);
2892 vis_mul8x16au(REF_S0_1
, CONST_256
, TMP2
);
2893 vis_pmerge(ZERO
, REF_S0
, TMP0
);
2895 vis_pmerge(ZERO
, REF_S2
, TMP24
);
2896 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP6
);
2898 vis_padd16(TMP0
, CONST_3
, TMP0
);
2899 vis_mul8x16au(REF_S4
, CONST_256
, TMP8
);
2901 vis_padd16(TMP2
, CONST_3
, TMP2
);
2902 vis_mul8x16au(REF_S4_1
, CONST_256
, TMP10
);
2904 vis_padd16(TMP0
, TMP24
, TMP0
);
2905 vis_mul8x16au(REF_S6
, CONST_256
, TMP12
);
2907 vis_padd16(TMP2
, TMP6
, TMP2
);
2908 vis_mul8x16au(REF_S6_1
, CONST_256
, TMP14
);
2910 vis_padd16(TMP8
, CONST_3
, TMP8
);
2911 vis_mul8x16al(DST_0
, CONST_512
, TMP16
);
2913 vis_padd16(TMP10
, CONST_3
, TMP10
);
2914 vis_mul8x16al(DST_1
, CONST_512
, TMP18
);
2916 vis_padd16(TMP8
, TMP12
, TMP8
);
2917 vis_mul8x16al(TMP4
/*DST_2*/, CONST_512
, TMP20
);
2919 vis_mul8x16al(TMP5
/*DST_3*/, CONST_512
, TMP22
);
2920 vis_padd16(TMP0
, TMP16
, TMP0
);
2922 vis_padd16(TMP2
, TMP18
, TMP2
);
2923 vis_pack16(TMP0
, DST_0
);
2925 vis_padd16(TMP10
, TMP14
, TMP10
);
2926 vis_pack16(TMP2
, DST_1
);
2927 vis_st64(DST_0
, dest
[0]);
2930 vis_padd16(TMP8
, TMP20
, TMP8
);
2932 vis_padd16(TMP10
, TMP22
, TMP10
);
2933 vis_pack16(TMP8
, DST_2
);
2935 vis_pack16(TMP10
, DST_3
);
2936 vis_st64(DST_2
, dest
[0]);
2941 static void MC_put_no_round_y_16_vis (uint8_t * dest
, const uint8_t * _ref
,
2942 const int stride
, int height
)
2944 uint8_t *ref
= (uint8_t *) _ref
;
2946 ref
= vis_alignaddr(ref
);
2947 vis_ld64(ref
[0], TMP0
);
2949 vis_ld64_2(ref
, 8, TMP2
);
2951 vis_ld64_2(ref
, 16, TMP4
);
2954 vis_ld64(ref
[0], TMP6
);
2955 vis_faligndata(TMP0
, TMP2
, REF_0
);
2957 vis_ld64_2(ref
, 8, TMP8
);
2958 vis_faligndata(TMP2
, TMP4
, REF_4
);
2960 vis_ld64_2(ref
, 16, TMP10
);
2963 vis_ld64(constants_fe
[0], MASK_fe
);
2964 vis_faligndata(TMP6
, TMP8
, REF_2
);
2966 vis_ld64(constants_7f
[0], MASK_7f
);
2967 vis_faligndata(TMP8
, TMP10
, REF_6
);
2969 vis_ld64(constants128
[0], CONST_128
);
2970 height
= (height
>> 1) - 1;
2971 do { /* 24 cycles */
2972 vis_ld64(ref
[0], TMP0
);
2973 vis_xor(REF_0
, REF_2
, TMP12
);
2975 vis_ld64_2(ref
, 8, TMP2
);
2976 vis_xor(REF_4
, REF_6
, TMP16
);
2978 vis_ld64_2(ref
, 16, TMP4
);
2980 vis_and(REF_0
, REF_2
, TMP14
);
2982 vis_ld64(ref
[0], TMP6
);
2983 vis_and(REF_4
, REF_6
, TMP18
);
2985 vis_ld64_2(ref
, 8, TMP8
);
2986 vis_faligndata(TMP0
, TMP2
, REF_0
);
2988 vis_ld64_2(ref
, 16, TMP10
);
2990 vis_faligndata(TMP2
, TMP4
, REF_4
);
2992 vis_and(TMP12
, MASK_fe
, TMP12
);
2994 vis_and(TMP16
, MASK_fe
, TMP16
);
2995 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
2997 vis_mul8x16(CONST_128
, TMP16
, TMP16
);
2998 vis_xor(REF_0
, REF_2
, TMP0
);
3000 vis_xor(REF_4
, REF_6
, TMP2
);
3002 vis_and(REF_0
, REF_2
, TMP20
);
3004 vis_and(TMP12
, MASK_7f
, TMP12
);
3006 vis_and(TMP16
, MASK_7f
, TMP16
);
3008 vis_padd16(TMP14
, TMP12
, TMP12
);
3009 vis_st64(TMP12
, dest
[0]);
3011 vis_padd16(TMP18
, TMP16
, TMP16
);
3012 vis_st64_2(TMP16
, dest
, 8);
3015 vis_and(REF_4
, REF_6
, TMP18
);
3017 vis_and(TMP0
, MASK_fe
, TMP0
);
3019 vis_and(TMP2
, MASK_fe
, TMP2
);
3020 vis_mul8x16(CONST_128
, TMP0
, TMP0
);
3022 vis_faligndata(TMP6
, TMP8
, REF_2
);
3023 vis_mul8x16(CONST_128
, TMP2
, TMP2
);
3025 vis_faligndata(TMP8
, TMP10
, REF_6
);
3027 vis_and(TMP0
, MASK_7f
, TMP0
);
3029 vis_and(TMP2
, MASK_7f
, TMP2
);
3031 vis_padd16(TMP20
, TMP0
, TMP0
);
3032 vis_st64(TMP0
, dest
[0]);
3034 vis_padd16(TMP18
, TMP2
, TMP2
);
3035 vis_st64_2(TMP2
, dest
, 8);
3039 vis_ld64(ref
[0], TMP0
);
3040 vis_xor(REF_0
, REF_2
, TMP12
);
3042 vis_ld64_2(ref
, 8, TMP2
);
3043 vis_xor(REF_4
, REF_6
, TMP16
);
3045 vis_ld64_2(ref
, 16, TMP4
);
3046 vis_and(REF_0
, REF_2
, TMP14
);
3048 vis_and(REF_4
, REF_6
, TMP18
);
3050 vis_faligndata(TMP0
, TMP2
, REF_0
);
3052 vis_faligndata(TMP2
, TMP4
, REF_4
);
3054 vis_and(TMP12
, MASK_fe
, TMP12
);
3056 vis_and(TMP16
, MASK_fe
, TMP16
);
3057 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
3059 vis_mul8x16(CONST_128
, TMP16
, TMP16
);
3060 vis_xor(REF_0
, REF_2
, TMP0
);
3062 vis_xor(REF_4
, REF_6
, TMP2
);
3064 vis_and(REF_0
, REF_2
, TMP20
);
3066 vis_and(TMP12
, MASK_7f
, TMP12
);
3068 vis_and(TMP16
, MASK_7f
, TMP16
);
3070 vis_padd16(TMP14
, TMP12
, TMP12
);
3071 vis_st64(TMP12
, dest
[0]);
3073 vis_padd16(TMP18
, TMP16
, TMP16
);
3074 vis_st64_2(TMP16
, dest
, 8);
3077 vis_and(REF_4
, REF_6
, TMP18
);
3079 vis_and(TMP0
, MASK_fe
, TMP0
);
3081 vis_and(TMP2
, MASK_fe
, TMP2
);
3082 vis_mul8x16(CONST_128
, TMP0
, TMP0
);
3084 vis_mul8x16(CONST_128
, TMP2
, TMP2
);
3086 vis_and(TMP0
, MASK_7f
, TMP0
);
3088 vis_and(TMP2
, MASK_7f
, TMP2
);
3090 vis_padd16(TMP20
, TMP0
, TMP0
);
3091 vis_st64(TMP0
, dest
[0]);
3093 vis_padd16(TMP18
, TMP2
, TMP2
);
3094 vis_st64_2(TMP2
, dest
, 8);
3097 static void MC_put_no_round_y_8_vis (uint8_t * dest
, const uint8_t * _ref
,
3098 const int stride
, int height
)
3100 uint8_t *ref
= (uint8_t *) _ref
;
3102 ref
= vis_alignaddr(ref
);
3103 vis_ld64(ref
[0], TMP0
);
3105 vis_ld64_2(ref
, 8, TMP2
);
3108 vis_ld64(ref
[0], TMP4
);
3110 vis_ld64_2(ref
, 8, TMP6
);
3113 vis_ld64(constants_fe
[0], MASK_fe
);
3114 vis_faligndata(TMP0
, TMP2
, REF_0
);
3116 vis_ld64(constants_7f
[0], MASK_7f
);
3117 vis_faligndata(TMP4
, TMP6
, REF_2
);
3119 vis_ld64(constants128
[0], CONST_128
);
3120 height
= (height
>> 1) - 1;
3121 do { /* 12 cycles */
3122 vis_ld64(ref
[0], TMP0
);
3123 vis_xor(REF_0
, REF_2
, TMP4
);
3125 vis_ld64_2(ref
, 8, TMP2
);
3127 vis_and(TMP4
, MASK_fe
, TMP4
);
3129 vis_and(REF_0
, REF_2
, TMP6
);
3130 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
3132 vis_faligndata(TMP0
, TMP2
, REF_0
);
3133 vis_ld64(ref
[0], TMP0
);
3135 vis_ld64_2(ref
, 8, TMP2
);
3137 vis_xor(REF_0
, REF_2
, TMP12
);
3139 vis_and(TMP4
, MASK_7f
, TMP4
);
3141 vis_and(TMP12
, MASK_fe
, TMP12
);
3143 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
3144 vis_and(REF_0
, REF_2
, TMP14
);
3146 vis_padd16(TMP6
, TMP4
, DST_0
);
3147 vis_st64(DST_0
, dest
[0]);
3150 vis_faligndata(TMP0
, TMP2
, REF_2
);
3152 vis_and(TMP12
, MASK_7f
, TMP12
);
3154 vis_padd16(TMP14
, TMP12
, DST_0
);
3155 vis_st64(DST_0
, dest
[0]);
3159 vis_ld64(ref
[0], TMP0
);
3160 vis_xor(REF_0
, REF_2
, TMP4
);
3162 vis_ld64_2(ref
, 8, TMP2
);
3163 vis_and(TMP4
, MASK_fe
, TMP4
);
3165 vis_and(REF_0
, REF_2
, TMP6
);
3166 vis_mul8x16(CONST_128
, TMP4
, TMP4
);
3168 vis_faligndata(TMP0
, TMP2
, REF_0
);
3170 vis_xor(REF_0
, REF_2
, TMP12
);
3172 vis_and(TMP4
, MASK_7f
, TMP4
);
3174 vis_and(TMP12
, MASK_fe
, TMP12
);
3176 vis_mul8x16(CONST_128
, TMP12
, TMP12
);
3177 vis_and(REF_0
, REF_2
, TMP14
);
3179 vis_padd16(TMP6
, TMP4
, DST_0
);
3180 vis_st64(DST_0
, dest
[0]);
3183 vis_and(TMP12
, MASK_7f
, TMP12
);
3185 vis_padd16(TMP14
, TMP12
, DST_0
);
3186 vis_st64(DST_0
, dest
[0]);
3189 static void MC_avg_no_round_y_16_vis (uint8_t * dest
, const uint8_t * _ref
,
3190 const int stride
, int height
)
3192 uint8_t *ref
= (uint8_t *) _ref
;
3193 int stride_8
= stride
+ 8;
3194 int stride_16
= stride
+ 16;
3196 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
3198 ref
= vis_alignaddr(ref
);
3200 vis_ld64(ref
[ 0], TMP0
);
3203 vis_ld64(ref
[ 8], TMP2
);
3205 vis_ld64(ref
[16], TMP4
);
3207 vis_ld64(constants3
[0], CONST_3
);
3208 vis_faligndata(TMP0
, TMP2
, REF_2
);
3210 vis_ld64(constants256_512
[0], CONST_256
);
3211 vis_faligndata(TMP2
, TMP4
, REF_6
);
3214 do { /* 31 cycles */
3215 vis_ld64_2(ref
, stride
, TMP0
);
3216 vis_pmerge(ZERO
, REF_2
, TMP12
);
3217 vis_mul8x16au(REF_2_1
, CONST_256
, TMP14
);
3219 vis_ld64_2(ref
, stride_8
, TMP2
);
3220 vis_pmerge(ZERO
, REF_6
, TMP16
);
3221 vis_mul8x16au(REF_6_1
, CONST_256
, TMP18
);
3223 vis_ld64_2(ref
, stride_16
, TMP4
);
3226 vis_ld64(dest
[0], DST_0
);
3227 vis_faligndata(TMP0
, TMP2
, REF_0
);
3229 vis_ld64_2(dest
, 8, DST_2
);
3230 vis_faligndata(TMP2
, TMP4
, REF_4
);
3232 vis_ld64_2(ref
, stride
, TMP6
);
3233 vis_pmerge(ZERO
, REF_0
, TMP0
);
3234 vis_mul8x16au(REF_0_1
, CONST_256
, TMP2
);
3236 vis_ld64_2(ref
, stride_8
, TMP8
);
3237 vis_pmerge(ZERO
, REF_4
, TMP4
);
3239 vis_ld64_2(ref
, stride_16
, TMP10
);
3242 vis_ld64_2(dest
, stride
, REF_S0
/*DST_4*/);
3243 vis_faligndata(TMP6
, TMP8
, REF_2
);
3244 vis_mul8x16au(REF_4_1
, CONST_256
, TMP6
);
3246 vis_ld64_2(dest
, stride_8
, REF_S2
/*DST_6*/);
3247 vis_faligndata(TMP8
, TMP10
, REF_6
);
3248 vis_mul8x16al(DST_0
, CONST_512
, TMP20
);
3250 vis_padd16(TMP0
, CONST_3
, TMP0
);
3251 vis_mul8x16al(DST_1
, CONST_512
, TMP22
);
3253 vis_padd16(TMP2
, CONST_3
, TMP2
);
3254 vis_mul8x16al(DST_2
, CONST_512
, TMP24
);
3256 vis_padd16(TMP4
, CONST_3
, TMP4
);
3257 vis_mul8x16al(DST_3
, CONST_512
, TMP26
);
3259 vis_padd16(TMP6
, CONST_3
, TMP6
);
3261 vis_padd16(TMP12
, TMP20
, TMP12
);
3262 vis_mul8x16al(REF_S0
, CONST_512
, TMP20
);
3264 vis_padd16(TMP14
, TMP22
, TMP14
);
3265 vis_mul8x16al(REF_S0_1
, CONST_512
, TMP22
);
3267 vis_padd16(TMP16
, TMP24
, TMP16
);
3268 vis_mul8x16al(REF_S2
, CONST_512
, TMP24
);
3270 vis_padd16(TMP18
, TMP26
, TMP18
);
3271 vis_mul8x16al(REF_S2_1
, CONST_512
, TMP26
);
3273 vis_padd16(TMP12
, TMP0
, TMP12
);
3274 vis_mul8x16au(REF_2
, CONST_256
, TMP28
);
3276 vis_padd16(TMP14
, TMP2
, TMP14
);
3277 vis_mul8x16au(REF_2_1
, CONST_256
, TMP30
);
3279 vis_padd16(TMP16
, TMP4
, TMP16
);
3280 vis_mul8x16au(REF_6
, CONST_256
, REF_S4
);
3282 vis_padd16(TMP18
, TMP6
, TMP18
);
3283 vis_mul8x16au(REF_6_1
, CONST_256
, REF_S6
);
3285 vis_pack16(TMP12
, DST_0
);
3286 vis_padd16(TMP28
, TMP0
, TMP12
);
3288 vis_pack16(TMP14
, DST_1
);
3289 vis_st64(DST_0
, dest
[0]);
3290 vis_padd16(TMP30
, TMP2
, TMP14
);
3292 vis_pack16(TMP16
, DST_2
);
3293 vis_padd16(REF_S4
, TMP4
, TMP16
);
3295 vis_pack16(TMP18
, DST_3
);
3296 vis_st64_2(DST_2
, dest
, 8);
3298 vis_padd16(REF_S6
, TMP6
, TMP18
);
3300 vis_padd16(TMP12
, TMP20
, TMP12
);
3302 vis_padd16(TMP14
, TMP22
, TMP14
);
3303 vis_pack16(TMP12
, DST_0
);
3305 vis_padd16(TMP16
, TMP24
, TMP16
);
3306 vis_pack16(TMP14
, DST_1
);
3307 vis_st64(DST_0
, dest
[0]);
3309 vis_padd16(TMP18
, TMP26
, TMP18
);
3310 vis_pack16(TMP16
, DST_2
);
3312 vis_pack16(TMP18
, DST_3
);
3313 vis_st64_2(DST_2
, dest
, 8);
3318 static void MC_avg_no_round_y_8_vis (uint8_t * dest
, const uint8_t * _ref
,
3319 const int stride
, int height
)
3321 uint8_t *ref
= (uint8_t *) _ref
;
3322 int stride_8
= stride
+ 8;
3324 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
3326 ref
= vis_alignaddr(ref
);
3328 vis_ld64(ref
[ 0], TMP0
);
3331 vis_ld64(ref
[ 8], TMP2
);
3333 vis_ld64(constants3
[0], CONST_3
);
3334 vis_faligndata(TMP0
, TMP2
, REF_2
);
3336 vis_ld64(constants256_512
[0], CONST_256
);
3339 do { /* 20 cycles */
3340 vis_ld64_2(ref
, stride
, TMP0
);
3341 vis_pmerge(ZERO
, REF_2
, TMP8
);
3342 vis_mul8x16au(REF_2_1
, CONST_256
, TMP10
);
3344 vis_ld64_2(ref
, stride_8
, TMP2
);
3347 vis_ld64(dest
[0], DST_0
);
3349 vis_ld64_2(dest
, stride
, DST_2
);
3350 vis_faligndata(TMP0
, TMP2
, REF_0
);
3352 vis_ld64_2(ref
, stride
, TMP4
);
3353 vis_mul8x16al(DST_0
, CONST_512
, TMP16
);
3354 vis_pmerge(ZERO
, REF_0
, TMP12
);
3356 vis_ld64_2(ref
, stride_8
, TMP6
);
3358 vis_mul8x16al(DST_1
, CONST_512
, TMP18
);
3359 vis_pmerge(ZERO
, REF_0_1
, TMP14
);
3361 vis_padd16(TMP12
, CONST_3
, TMP12
);
3362 vis_mul8x16al(DST_2
, CONST_512
, TMP24
);
3364 vis_padd16(TMP14
, CONST_3
, TMP14
);
3365 vis_mul8x16al(DST_3
, CONST_512
, TMP26
);
3367 vis_faligndata(TMP4
, TMP6
, REF_2
);
3369 vis_padd16(TMP8
, TMP12
, TMP8
);
3371 vis_padd16(TMP10
, TMP14
, TMP10
);
3372 vis_mul8x16au(REF_2
, CONST_256
, TMP20
);
3374 vis_padd16(TMP8
, TMP16
, TMP0
);
3375 vis_mul8x16au(REF_2_1
, CONST_256
, TMP22
);
3377 vis_padd16(TMP10
, TMP18
, TMP2
);
3378 vis_pack16(TMP0
, DST_0
);
3380 vis_pack16(TMP2
, DST_1
);
3381 vis_st64(DST_0
, dest
[0]);
3383 vis_padd16(TMP12
, TMP20
, TMP12
);
3385 vis_padd16(TMP14
, TMP22
, TMP14
);
3387 vis_padd16(TMP12
, TMP24
, TMP0
);
3389 vis_padd16(TMP14
, TMP26
, TMP2
);
3390 vis_pack16(TMP0
, DST_2
);
3392 vis_pack16(TMP2
, DST_3
);
3393 vis_st64(DST_2
, dest
[0]);
3398 static void MC_put_no_round_xy_16_vis (uint8_t * dest
, const uint8_t * _ref
,
3399 const int stride
, int height
)
3401 uint8_t *ref
= (uint8_t *) _ref
;
3402 unsigned long off
= (unsigned long) ref
& 0x7;
3403 unsigned long off_plus_1
= off
+ 1;
3404 int stride_8
= stride
+ 8;
3405 int stride_16
= stride
+ 16;
3407 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
3409 ref
= vis_alignaddr(ref
);
3411 vis_ld64(ref
[ 0], TMP0
);
3414 vis_ld64(ref
[ 8], TMP2
);
3416 vis_ld64(ref
[16], TMP4
);
3418 vis_ld64(constants1
[0], CONST_1
);
3419 vis_faligndata(TMP0
, TMP2
, REF_S0
);
3421 vis_ld64(constants256_512
[0], CONST_256
);
3422 vis_faligndata(TMP2
, TMP4
, REF_S4
);
3425 vis_alignaddr_g0((void *)off_plus_1
);
3426 vis_faligndata(TMP0
, TMP2
, REF_S2
);
3427 vis_faligndata(TMP2
, TMP4
, REF_S6
);
3429 vis_src1(TMP2
, REF_S2
);
3430 vis_src1(TMP4
, REF_S6
);
3435 vis_ld64_2(ref
, stride
, TMP0
);
3436 vis_mul8x16au(REF_S0
, CONST_256
, TMP12
);
3437 vis_pmerge(ZERO
, REF_S0_1
, TMP14
);
3439 vis_alignaddr_g0((void *)off
);
3441 vis_ld64_2(ref
, stride_8
, TMP2
);
3442 vis_mul8x16au(REF_S2
, CONST_256
, TMP16
);
3443 vis_pmerge(ZERO
, REF_S2_1
, TMP18
);
3445 vis_ld64_2(ref
, stride_16
, TMP4
);
3447 vis_mul8x16au(REF_S4
, CONST_256
, TMP20
);
3448 vis_pmerge(ZERO
, REF_S4_1
, TMP22
);
3450 vis_ld64_2(ref
, stride
, TMP6
);
3451 vis_mul8x16au(REF_S6
, CONST_256
, TMP24
);
3452 vis_pmerge(ZERO
, REF_S6_1
, TMP26
);
3454 vis_ld64_2(ref
, stride_8
, TMP8
);
3455 vis_faligndata(TMP0
, TMP2
, REF_0
);
3457 vis_ld64_2(ref
, stride_16
, TMP10
);
3459 vis_faligndata(TMP2
, TMP4
, REF_4
);
3461 vis_faligndata(TMP6
, TMP8
, REF_S0
);
3463 vis_faligndata(TMP8
, TMP10
, REF_S4
);
3466 vis_alignaddr_g0((void *)off_plus_1
);
3467 vis_faligndata(TMP0
, TMP2
, REF_2
);
3468 vis_faligndata(TMP2
, TMP4
, REF_6
);
3469 vis_faligndata(TMP6
, TMP8
, REF_S2
);
3470 vis_faligndata(TMP8
, TMP10
, REF_S6
);
3472 vis_src1(TMP2
, REF_2
);
3473 vis_src1(TMP4
, REF_6
);
3474 vis_src1(TMP8
, REF_S2
);
3475 vis_src1(TMP10
, REF_S6
);
3478 vis_mul8x16au(REF_0
, CONST_256
, TMP0
);
3479 vis_pmerge(ZERO
, REF_0_1
, TMP2
);
3481 vis_mul8x16au(REF_2
, CONST_256
, TMP4
);
3482 vis_pmerge(ZERO
, REF_2_1
, TMP6
);
3484 vis_padd16(TMP0
, CONST_2
, TMP8
);
3485 vis_mul8x16au(REF_4
, CONST_256
, TMP0
);
3487 vis_padd16(TMP2
, CONST_1
, TMP10
);
3488 vis_mul8x16au(REF_4_1
, CONST_256
, TMP2
);
3490 vis_padd16(TMP8
, TMP4
, TMP8
);
3491 vis_mul8x16au(REF_6
, CONST_256
, TMP4
);
3493 vis_padd16(TMP10
, TMP6
, TMP10
);
3494 vis_mul8x16au(REF_6_1
, CONST_256
, TMP6
);
3496 vis_padd16(TMP12
, TMP8
, TMP12
);
3498 vis_padd16(TMP14
, TMP10
, TMP14
);
3500 vis_padd16(TMP12
, TMP16
, TMP12
);
3502 vis_padd16(TMP14
, TMP18
, TMP14
);
3503 vis_pack16(TMP12
, DST_0
);
3505 vis_pack16(TMP14
, DST_1
);
3506 vis_st64(DST_0
, dest
[0]);
3507 vis_padd16(TMP0
, CONST_1
, TMP12
);
3509 vis_mul8x16au(REF_S0
, CONST_256
, TMP0
);
3510 vis_padd16(TMP2
, CONST_1
, TMP14
);
3512 vis_mul8x16au(REF_S0_1
, CONST_256
, TMP2
);
3513 vis_padd16(TMP12
, TMP4
, TMP12
);
3515 vis_mul8x16au(REF_S2
, CONST_256
, TMP4
);
3516 vis_padd16(TMP14
, TMP6
, TMP14
);
3518 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP6
);
3519 vis_padd16(TMP20
, TMP12
, TMP20
);
3521 vis_padd16(TMP22
, TMP14
, TMP22
);
3523 vis_padd16(TMP20
, TMP24
, TMP20
);
3525 vis_padd16(TMP22
, TMP26
, TMP22
);
3526 vis_pack16(TMP20
, DST_2
);
3528 vis_pack16(TMP22
, DST_3
);
3529 vis_st64_2(DST_2
, dest
, 8);
3531 vis_padd16(TMP0
, TMP4
, TMP24
);
3533 vis_mul8x16au(REF_S4
, CONST_256
, TMP0
);
3534 vis_padd16(TMP2
, TMP6
, TMP26
);
3536 vis_mul8x16au(REF_S4_1
, CONST_256
, TMP2
);
3537 vis_padd16(TMP24
, TMP8
, TMP24
);
3539 vis_padd16(TMP26
, TMP10
, TMP26
);
3540 vis_pack16(TMP24
, DST_0
);
3542 vis_pack16(TMP26
, DST_1
);
3543 vis_st64(DST_0
, dest
[0]);
3544 vis_pmerge(ZERO
, REF_S6
, TMP4
);
3546 vis_pmerge(ZERO
, REF_S6_1
, TMP6
);
3548 vis_padd16(TMP0
, TMP4
, TMP0
);
3550 vis_padd16(TMP2
, TMP6
, TMP2
);
3552 vis_padd16(TMP0
, TMP12
, TMP0
);
3554 vis_padd16(TMP2
, TMP14
, TMP2
);
3555 vis_pack16(TMP0
, DST_2
);
3557 vis_pack16(TMP2
, DST_3
);
3558 vis_st64_2(DST_2
, dest
, 8);
3563 static void MC_put_no_round_xy_8_vis (uint8_t * dest
, const uint8_t * _ref
,
3564 const int stride
, int height
)
3566 uint8_t *ref
= (uint8_t *) _ref
;
3567 unsigned long off
= (unsigned long) ref
& 0x7;
3568 unsigned long off_plus_1
= off
+ 1;
3569 int stride_8
= stride
+ 8;
3571 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT
);
3573 ref
= vis_alignaddr(ref
);
3575 vis_ld64(ref
[ 0], TMP0
);
3578 vis_ld64(ref
[ 8], TMP2
);
3580 vis_ld64(constants1
[0], CONST_1
);
3582 vis_ld64(constants256_512
[0], CONST_256
);
3583 vis_faligndata(TMP0
, TMP2
, REF_S0
);
3586 vis_alignaddr_g0((void *)off_plus_1
);
3587 vis_faligndata(TMP0
, TMP2
, REF_S2
);
3589 vis_src1(TMP2
, REF_S2
);
3593 do { /* 26 cycles */
3594 vis_ld64_2(ref
, stride
, TMP0
);
3595 vis_mul8x16au(REF_S0
, CONST_256
, TMP8
);
3596 vis_pmerge(ZERO
, REF_S2
, TMP12
);
3598 vis_alignaddr_g0((void *)off
);
3600 vis_ld64_2(ref
, stride_8
, TMP2
);
3602 vis_mul8x16au(REF_S0_1
, CONST_256
, TMP10
);
3603 vis_pmerge(ZERO
, REF_S2_1
, TMP14
);
3605 vis_ld64_2(ref
, stride
, TMP4
);
3607 vis_ld64_2(ref
, stride_8
, TMP6
);
3609 vis_faligndata(TMP0
, TMP2
, REF_S4
);
3611 vis_pmerge(ZERO
, REF_S4
, TMP18
);
3613 vis_pmerge(ZERO
, REF_S4_1
, TMP20
);
3615 vis_faligndata(TMP4
, TMP6
, REF_S0
);
3618 vis_alignaddr_g0((void *)off_plus_1
);
3619 vis_faligndata(TMP0
, TMP2
, REF_S6
);
3620 vis_faligndata(TMP4
, TMP6
, REF_S2
);
3622 vis_src1(TMP2
, REF_S6
);
3623 vis_src1(TMP6
, REF_S2
);
3626 vis_padd16(TMP18
, CONST_1
, TMP18
);
3627 vis_mul8x16au(REF_S6
, CONST_256
, TMP22
);
3629 vis_padd16(TMP20
, CONST_1
, TMP20
);
3630 vis_mul8x16au(REF_S6_1
, CONST_256
, TMP24
);
3632 vis_mul8x16au(REF_S0
, CONST_256
, TMP26
);
3633 vis_pmerge(ZERO
, REF_S0_1
, TMP28
);
3635 vis_mul8x16au(REF_S2
, CONST_256
, TMP30
);
3636 vis_padd16(TMP18
, TMP22
, TMP18
);
3638 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP32
);
3639 vis_padd16(TMP20
, TMP24
, TMP20
);
3641 vis_padd16(TMP8
, TMP18
, TMP8
);
3643 vis_padd16(TMP10
, TMP20
, TMP10
);
3645 vis_padd16(TMP8
, TMP12
, TMP8
);
3647 vis_padd16(TMP10
, TMP14
, TMP10
);
3648 vis_pack16(TMP8
, DST_0
);
3650 vis_pack16(TMP10
, DST_1
);
3651 vis_st64(DST_0
, dest
[0]);
3653 vis_padd16(TMP18
, TMP26
, TMP18
);
3655 vis_padd16(TMP20
, TMP28
, TMP20
);
3657 vis_padd16(TMP18
, TMP30
, TMP18
);
3659 vis_padd16(TMP20
, TMP32
, TMP20
);
3660 vis_pack16(TMP18
, DST_2
);
3662 vis_pack16(TMP20
, DST_3
);
3663 vis_st64(DST_2
, dest
[0]);
3668 static void MC_avg_no_round_xy_16_vis (uint8_t * dest
, const uint8_t * _ref
,
3669 const int stride
, int height
)
3671 uint8_t *ref
= (uint8_t *) _ref
;
3672 unsigned long off
= (unsigned long) ref
& 0x7;
3673 unsigned long off_plus_1
= off
+ 1;
3674 int stride_8
= stride
+ 8;
3675 int stride_16
= stride
+ 16;
3677 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT
);
3679 ref
= vis_alignaddr(ref
);
3681 vis_ld64(ref
[ 0], TMP0
);
3684 vis_ld64(ref
[ 8], TMP2
);
3686 vis_ld64(ref
[16], TMP4
);
3688 vis_ld64(constants6
[0], CONST_6
);
3689 vis_faligndata(TMP0
, TMP2
, REF_S0
);
3691 vis_ld64(constants256_1024
[0], CONST_256
);
3692 vis_faligndata(TMP2
, TMP4
, REF_S4
);
3695 vis_alignaddr_g0((void *)off_plus_1
);
3696 vis_faligndata(TMP0
, TMP2
, REF_S2
);
3697 vis_faligndata(TMP2
, TMP4
, REF_S6
);
3699 vis_src1(TMP2
, REF_S2
);
3700 vis_src1(TMP4
, REF_S6
);
3704 do { /* 55 cycles */
3705 vis_ld64_2(ref
, stride
, TMP0
);
3706 vis_mul8x16au(REF_S0
, CONST_256
, TMP12
);
3707 vis_pmerge(ZERO
, REF_S0_1
, TMP14
);
3709 vis_alignaddr_g0((void *)off
);
3711 vis_ld64_2(ref
, stride_8
, TMP2
);
3712 vis_mul8x16au(REF_S2
, CONST_256
, TMP16
);
3713 vis_pmerge(ZERO
, REF_S2_1
, TMP18
);
3715 vis_ld64_2(ref
, stride_16
, TMP4
);
3717 vis_mul8x16au(REF_S4
, CONST_256
, TMP20
);
3718 vis_pmerge(ZERO
, REF_S4_1
, TMP22
);
3720 vis_ld64_2(ref
, stride
, TMP6
);
3721 vis_mul8x16au(REF_S6
, CONST_256
, TMP24
);
3722 vis_pmerge(ZERO
, REF_S6_1
, TMP26
);
3724 vis_ld64_2(ref
, stride_8
, TMP8
);
3725 vis_faligndata(TMP0
, TMP2
, REF_0
);
3727 vis_ld64_2(ref
, stride_16
, TMP10
);
3729 vis_faligndata(TMP2
, TMP4
, REF_4
);
3731 vis_ld64(dest
[0], DST_0
);
3732 vis_faligndata(TMP6
, TMP8
, REF_S0
);
3734 vis_ld64_2(dest
, 8, DST_2
);
3735 vis_faligndata(TMP8
, TMP10
, REF_S4
);
3738 vis_alignaddr_g0((void *)off_plus_1
);
3739 vis_faligndata(TMP0
, TMP2
, REF_2
);
3740 vis_faligndata(TMP2
, TMP4
, REF_6
);
3741 vis_faligndata(TMP6
, TMP8
, REF_S2
);
3742 vis_faligndata(TMP8
, TMP10
, REF_S6
);
3744 vis_src1(TMP2
, REF_2
);
3745 vis_src1(TMP4
, REF_6
);
3746 vis_src1(TMP8
, REF_S2
);
3747 vis_src1(TMP10
, REF_S6
);
3750 vis_mul8x16al(DST_0
, CONST_1024
, TMP30
);
3751 vis_pmerge(ZERO
, REF_0
, TMP0
);
3753 vis_mul8x16al(DST_1
, CONST_1024
, TMP32
);
3754 vis_pmerge(ZERO
, REF_0_1
, TMP2
);
3756 vis_mul8x16au(REF_2
, CONST_256
, TMP4
);
3757 vis_pmerge(ZERO
, REF_2_1
, TMP6
);
3759 vis_mul8x16al(DST_2
, CONST_1024
, REF_0
);
3760 vis_padd16(TMP0
, CONST_6
, TMP0
);
3762 vis_mul8x16al(DST_3
, CONST_1024
, REF_2
);
3763 vis_padd16(TMP2
, CONST_6
, TMP2
);
3765 vis_padd16(TMP0
, TMP4
, TMP0
);
3766 vis_mul8x16au(REF_4
, CONST_256
, TMP4
);
3768 vis_padd16(TMP2
, TMP6
, TMP2
);
3769 vis_mul8x16au(REF_4_1
, CONST_256
, TMP6
);
3771 vis_padd16(TMP12
, TMP0
, TMP12
);
3772 vis_mul8x16au(REF_6
, CONST_256
, TMP8
);
3774 vis_padd16(TMP14
, TMP2
, TMP14
);
3775 vis_mul8x16au(REF_6_1
, CONST_256
, TMP10
);
3777 vis_padd16(TMP12
, TMP16
, TMP12
);
3778 vis_mul8x16au(REF_S0
, CONST_256
, REF_4
);
3780 vis_padd16(TMP14
, TMP18
, TMP14
);
3781 vis_mul8x16au(REF_S0_1
, CONST_256
, REF_6
);
3783 vis_padd16(TMP12
, TMP30
, TMP12
);
3785 vis_padd16(TMP14
, TMP32
, TMP14
);
3786 vis_pack16(TMP12
, DST_0
);
3788 vis_pack16(TMP14
, DST_1
);
3789 vis_st64(DST_0
, dest
[0]);
3790 vis_padd16(TMP4
, CONST_6
, TMP4
);
3792 vis_ld64_2(dest
, stride
, DST_0
);
3793 vis_padd16(TMP6
, CONST_6
, TMP6
);
3794 vis_mul8x16au(REF_S2
, CONST_256
, TMP12
);
3796 vis_padd16(TMP4
, TMP8
, TMP4
);
3797 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP14
);
3799 vis_padd16(TMP6
, TMP10
, TMP6
);
3801 vis_padd16(TMP20
, TMP4
, TMP20
);
3803 vis_padd16(TMP22
, TMP6
, TMP22
);
3805 vis_padd16(TMP20
, TMP24
, TMP20
);
3807 vis_padd16(TMP22
, TMP26
, TMP22
);
3809 vis_padd16(TMP20
, REF_0
, TMP20
);
3810 vis_mul8x16au(REF_S4
, CONST_256
, REF_0
);
3812 vis_padd16(TMP22
, REF_2
, TMP22
);
3813 vis_pack16(TMP20
, DST_2
);
3815 vis_pack16(TMP22
, DST_3
);
3816 vis_st64_2(DST_2
, dest
, 8);
3819 vis_ld64_2(dest
, 8, DST_2
);
3820 vis_mul8x16al(DST_0
, CONST_1024
, TMP30
);
3821 vis_pmerge(ZERO
, REF_S4_1
, REF_2
);
3823 vis_mul8x16al(DST_1
, CONST_1024
, TMP32
);
3824 vis_padd16(REF_4
, TMP0
, TMP8
);
3826 vis_mul8x16au(REF_S6
, CONST_256
, REF_4
);
3827 vis_padd16(REF_6
, TMP2
, TMP10
);
3829 vis_mul8x16au(REF_S6_1
, CONST_256
, REF_6
);
3830 vis_padd16(TMP8
, TMP12
, TMP8
);
3832 vis_padd16(TMP10
, TMP14
, TMP10
);
3834 vis_padd16(TMP8
, TMP30
, TMP8
);
3836 vis_padd16(TMP10
, TMP32
, TMP10
);
3837 vis_pack16(TMP8
, DST_0
);
3839 vis_pack16(TMP10
, DST_1
);
3840 vis_st64(DST_0
, dest
[0]);
3842 vis_padd16(REF_0
, TMP4
, REF_0
);
3844 vis_mul8x16al(DST_2
, CONST_1024
, TMP30
);
3845 vis_padd16(REF_2
, TMP6
, REF_2
);
3847 vis_mul8x16al(DST_3
, CONST_1024
, TMP32
);
3848 vis_padd16(REF_0
, REF_4
, REF_0
);
3850 vis_padd16(REF_2
, REF_6
, REF_2
);
3852 vis_padd16(REF_0
, TMP30
, REF_0
);
3856 vis_padd16(REF_2
, TMP32
, REF_2
);
3857 vis_pack16(REF_0
, DST_2
);
3859 vis_pack16(REF_2
, DST_3
);
3860 vis_st64_2(DST_2
, dest
, 8);
3865 static void MC_avg_no_round_xy_8_vis (uint8_t * dest
, const uint8_t * _ref
,
3866 const int stride
, int height
)
3868 uint8_t *ref
= (uint8_t *) _ref
;
3869 unsigned long off
= (unsigned long) ref
& 0x7;
3870 unsigned long off_plus_1
= off
+ 1;
3871 int stride_8
= stride
+ 8;
3873 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT
);
3875 ref
= vis_alignaddr(ref
);
3877 vis_ld64(ref
[0], TMP0
);
3880 vis_ld64_2(ref
, 8, TMP2
);
3882 vis_ld64(constants6
[0], CONST_6
);
3884 vis_ld64(constants256_1024
[0], CONST_256
);
3885 vis_faligndata(TMP0
, TMP2
, REF_S0
);
3888 vis_alignaddr_g0((void *)off_plus_1
);
3889 vis_faligndata(TMP0
, TMP2
, REF_S2
);
3891 vis_src1(TMP2
, REF_S2
);
3895 do { /* 31 cycles */
3896 vis_ld64_2(ref
, stride
, TMP0
);
3897 vis_mul8x16au(REF_S0
, CONST_256
, TMP8
);
3898 vis_pmerge(ZERO
, REF_S0_1
, TMP10
);
3900 vis_ld64_2(ref
, stride_8
, TMP2
);
3902 vis_mul8x16au(REF_S2
, CONST_256
, TMP12
);
3903 vis_pmerge(ZERO
, REF_S2_1
, TMP14
);
3905 vis_alignaddr_g0((void *)off
);
3907 vis_ld64_2(ref
, stride
, TMP4
);
3908 vis_faligndata(TMP0
, TMP2
, REF_S4
);
3910 vis_ld64_2(ref
, stride_8
, TMP6
);
3913 vis_ld64(dest
[0], DST_0
);
3914 vis_faligndata(TMP4
, TMP6
, REF_S0
);
3916 vis_ld64_2(dest
, stride
, DST_2
);
3919 vis_alignaddr_g0((void *)off_plus_1
);
3920 vis_faligndata(TMP0
, TMP2
, REF_S6
);
3921 vis_faligndata(TMP4
, TMP6
, REF_S2
);
3923 vis_src1(TMP2
, REF_S6
);
3924 vis_src1(TMP6
, REF_S2
);
3927 vis_mul8x16al(DST_0
, CONST_1024
, TMP30
);
3928 vis_pmerge(ZERO
, REF_S4
, TMP22
);
3930 vis_mul8x16al(DST_1
, CONST_1024
, TMP32
);
3931 vis_pmerge(ZERO
, REF_S4_1
, TMP24
);
3933 vis_mul8x16au(REF_S6
, CONST_256
, TMP26
);
3934 vis_pmerge(ZERO
, REF_S6_1
, TMP28
);
3936 vis_mul8x16au(REF_S0
, CONST_256
, REF_S4
);
3937 vis_padd16(TMP22
, CONST_6
, TMP22
);
3939 vis_mul8x16au(REF_S0_1
, CONST_256
, REF_S6
);
3940 vis_padd16(TMP24
, CONST_6
, TMP24
);
3942 vis_mul8x16al(DST_2
, CONST_1024
, REF_0
);
3943 vis_padd16(TMP22
, TMP26
, TMP22
);
3945 vis_mul8x16al(DST_3
, CONST_1024
, REF_2
);
3946 vis_padd16(TMP24
, TMP28
, TMP24
);
3948 vis_mul8x16au(REF_S2
, CONST_256
, TMP26
);
3949 vis_padd16(TMP8
, TMP22
, TMP8
);
3951 vis_mul8x16au(REF_S2_1
, CONST_256
, TMP28
);
3952 vis_padd16(TMP10
, TMP24
, TMP10
);
3954 vis_padd16(TMP8
, TMP12
, TMP8
);
3956 vis_padd16(TMP10
, TMP14
, TMP10
);
3958 vis_padd16(TMP8
, TMP30
, TMP8
);
3960 vis_padd16(TMP10
, TMP32
, TMP10
);
3961 vis_pack16(TMP8
, DST_0
);
3963 vis_pack16(TMP10
, DST_1
);
3964 vis_st64(DST_0
, dest
[0]);
3967 vis_padd16(REF_S4
, TMP22
, TMP12
);
3969 vis_padd16(REF_S6
, TMP24
, TMP14
);
3971 vis_padd16(TMP12
, TMP26
, TMP12
);
3973 vis_padd16(TMP14
, TMP28
, TMP14
);
3975 vis_padd16(TMP12
, REF_0
, TMP12
);
3977 vis_padd16(TMP14
, REF_2
, TMP14
);
3978 vis_pack16(TMP12
, DST_2
);
3980 vis_pack16(TMP14
, DST_3
);
3981 vis_st64(DST_2
, dest
[0]);
3986 /* End of no rounding code */
3988 #define ACCEL_SPARC_VIS 1
3989 #define ACCEL_SPARC_VIS2 2
3991 static int vis_level ()
3994 accel
|= ACCEL_SPARC_VIS
;
3995 accel
|= ACCEL_SPARC_VIS2
;
3999 /* libavcodec initialization code */
4000 void dsputil_init_vis(DSPContext
* c
, AVCodecContext
*avctx
)
4002 /* VIS-specific optimizations */
4003 int accel
= vis_level ();
4005 if (accel
& ACCEL_SPARC_VIS
) {
4006 if(avctx
->idct_algo
==FF_IDCT_SIMPLEVIS
){
4007 c
->idct_put
= ff_simple_idct_put_vis
;
4008 c
->idct_add
= ff_simple_idct_add_vis
;
4009 c
->idct
= ff_simple_idct_vis
;
4010 c
->idct_permutation_type
= FF_TRANSPOSE_IDCT_PERM
;
4013 c
->put_pixels_tab
[0][0] = MC_put_o_16_vis
;
4014 c
->put_pixels_tab
[0][1] = MC_put_x_16_vis
;
4015 c
->put_pixels_tab
[0][2] = MC_put_y_16_vis
;
4016 c
->put_pixels_tab
[0][3] = MC_put_xy_16_vis
;
4018 c
->put_pixels_tab
[1][0] = MC_put_o_8_vis
;
4019 c
->put_pixels_tab
[1][1] = MC_put_x_8_vis
;
4020 c
->put_pixels_tab
[1][2] = MC_put_y_8_vis
;
4021 c
->put_pixels_tab
[1][3] = MC_put_xy_8_vis
;
4023 c
->avg_pixels_tab
[0][0] = MC_avg_o_16_vis
;
4024 c
->avg_pixels_tab
[0][1] = MC_avg_x_16_vis
;
4025 c
->avg_pixels_tab
[0][2] = MC_avg_y_16_vis
;
4026 c
->avg_pixels_tab
[0][3] = MC_avg_xy_16_vis
;
4028 c
->avg_pixels_tab
[1][0] = MC_avg_o_8_vis
;
4029 c
->avg_pixels_tab
[1][1] = MC_avg_x_8_vis
;
4030 c
->avg_pixels_tab
[1][2] = MC_avg_y_8_vis
;
4031 c
->avg_pixels_tab
[1][3] = MC_avg_xy_8_vis
;
4033 c
->put_no_rnd_pixels_tab
[0][0] = MC_put_no_round_o_16_vis
;
4034 c
->put_no_rnd_pixels_tab
[0][1] = MC_put_no_round_x_16_vis
;
4035 c
->put_no_rnd_pixels_tab
[0][2] = MC_put_no_round_y_16_vis
;
4036 c
->put_no_rnd_pixels_tab
[0][3] = MC_put_no_round_xy_16_vis
;
4038 c
->put_no_rnd_pixels_tab
[1][0] = MC_put_no_round_o_8_vis
;
4039 c
->put_no_rnd_pixels_tab
[1][1] = MC_put_no_round_x_8_vis
;
4040 c
->put_no_rnd_pixels_tab
[1][2] = MC_put_no_round_y_8_vis
;
4041 c
->put_no_rnd_pixels_tab
[1][3] = MC_put_no_round_xy_8_vis
;
4043 c
->avg_no_rnd_pixels_tab
[0][0] = MC_avg_no_round_o_16_vis
;
4044 c
->avg_no_rnd_pixels_tab
[0][1] = MC_avg_no_round_x_16_vis
;
4045 c
->avg_no_rnd_pixels_tab
[0][2] = MC_avg_no_round_y_16_vis
;
4046 c
->avg_no_rnd_pixels_tab
[0][3] = MC_avg_no_round_xy_16_vis
;
4048 c
->avg_no_rnd_pixels_tab
[1][0] = MC_avg_no_round_o_8_vis
;
4049 c
->avg_no_rnd_pixels_tab
[1][1] = MC_avg_no_round_x_8_vis
;
4050 c
->avg_no_rnd_pixels_tab
[1][2] = MC_avg_no_round_y_8_vis
;
4051 c
->avg_no_rnd_pixels_tab
[1][3] = MC_avg_no_round_xy_8_vis
;