libavfilter/x86/vf_removegrain.asm

   1 ;*****************************************************************************
   2 ;* x86-optimized functions for removegrain filter
   3 ;*
   4 ;* Copyright (C) 2015 James Darnley
   5 ;*
   6 ;* This file is part of FFmpeg.
   7 ;*
   8 ;* FFmpeg is free software; you can redistribute it and/or modify
   9 ;* it under the terms of the GNU General Public License as published by
  10 ;* the Free Software Foundation; either version 2 of the License, or
  11 ;* (at your option) any later version.
  12 ;*
  13 ;* FFmpeg is distributed in the hope that it will be useful,
  14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  16 ;* GNU General Public License for more details.
  17 ;*
  18 ;* You should have received a copy of the GNU General Public License along
  19 ;* with FFmpeg; if not, write to the Free Software Foundation, Inc.,
  20 ;* 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
  21 ;*****************************************************************************
  22
  23 ; column: -1  0 +1
  24 ; row -1: a1 a2 a3
  25 ; row  0: a4  c a5
  26 ; row +1: a6 a7 a8
  27
  28 %include "libavutil/x86/x86util.asm"
  29
  30 SECTION_RODATA 32
  31
  32 pw_4:    times 16 dw 4
  33 pw_8:    times 16 dw 8
  34 pw_div9: times 16 dw ((1<<16)+4)/9
  35
  36 SECTION .text
  37
  38 ;*** Preprocessor helpers
  39
  40 %define a1 srcq+stride_n-1
  41 %define a2 srcq+stride_n
  42 %define a3 srcq+stride_n+1
  43 %define a4 srcq-1
  44 %define c  srcq
  45 %define a5 srcq+1
  46 %define a6 srcq+stride_p-1
  47 %define a7 srcq+stride_p
  48 %define a8 srcq+stride_p+1
  49
  50 ; %1 dest simd register
  51 ; %2 source memory location
  52 ; %3 zero location (simd register/memory)
  53 %macro LOAD 3
  54     movh %1, %2
  55     punpcklbw %1, %3
  56 %endmacro
  57
  58 %macro LOAD_SQUARE 0
  59     movu m1, [a1]
  60     movu m2, [a2]
  61     movu m3, [a3]
  62     movu m4, [a4]
  63     movu m0, [c]
  64     movu m5, [a5]
  65     movu m6, [a6]
  66     movu m7, [a7]
  67     movu m8, [a8]
  68 %endmacro
  69
  70 ; %1 zero location (simd register/memory)
  71 %macro LOAD_SQUARE_16 1
  72     LOAD m1, [a1], %1
  73     LOAD m2, [a2], %1
  74     LOAD m3, [a3], %1
  75     LOAD m4, [a4], %1
  76     LOAD m0, [c], %1
  77     LOAD m5, [a5], %1
  78     LOAD m6, [a6], %1
  79     LOAD m7, [a7], %1
  80     LOAD m8, [a8], %1
  81 %endmacro
  82
  83 ; %1 data type
  84 ; %2 simd register to hold maximums
  85 ; %3 simd register to hold minimums
  86 ; %4 temp location (simd register/memory)
  87 %macro SORT_PAIR 4
  88     mova   %4, %2
  89     pmin%1 %2, %3
  90     pmax%1 %3, %4
  91 %endmacro
  92
  93 %macro SORT_AXIS 0
  94     SORT_PAIR ub, m1, m8, m9
  95     SORT_PAIR ub, m2, m7, m10
  96     SORT_PAIR ub, m3, m6, m11
  97     SORT_PAIR ub, m4, m5, m12
  98 %endmacro
  99
 100
 101 %macro SORT_AXIS_16 0
 102     SORT_PAIR sw, m1, m8, m9
 103     SORT_PAIR sw, m2, m7, m10
 104     SORT_PAIR sw, m3, m6, m11
 105     SORT_PAIR sw, m4, m5, m12
 106 %endmacro
 107
 108 ; The loop doesn't need to do all the iterations.  It could stop when the right
 109 ; pixels are in the right registers.
 110 %macro SORT_SQUARE 0
 111     %assign k 7
 112     %rep 7
 113         %assign i 1
 114         %assign j 2
 115         %rep k
 116             SORT_PAIR ub, m %+ i , m %+ j , m9
 117             %assign i i+1
 118             %assign j j+1
 119         %endrep
 120         %assign k k-1
 121     %endrep
 122 %endmacro
 123
 124 ; %1 dest simd register
 125 ; %2 source (simd register/memory)
 126 ; %3 temp simd register
 127 %macro ABS_DIFF 3
 128     mova %3, %2
 129     psubusb %3, %1
 130     psubusb %1, %2
 131     por %1, %3
 132 %endmacro
 133
 134 ; %1 dest simd register
 135 ; %2 source (simd register/memory)
 136 ; %3 temp simd register
 137 %macro ABS_DIFF_W 3
 138     mova %3, %2
 139     psubusw %3, %1
 140     psubusw %1, %2
 141     por %1, %3
 142 %endmacro
 143
 144 ; %1 simd register that holds the "false" values and will hold the result
 145 ; %2 simd register that holds the "true" values
 146 ; %3 location (simd register/memory) that hold the mask
 147 %macro BLEND 3
 148 %if cpuflag(avx2)
 149     vpblendvb %1, %1, %2, %3
 150 %else
 151     pand      %2, %3
 152     pandn     %3, %1
 153     por       %3, %2
 154     SWAP      %1, %3
 155 %endif
 156 %endmacro
 157
 158 ; Functions
 159
 160 INIT_XMM sse2
 161 cglobal rg_fl_mode_1, 4, 5, 3, 0, dst, src, stride, pixels
 162     mov r4q, strideq
 163     neg r4q
 164     %define stride_p strideq
 165     %define stride_n r4q
 166
 167     .loop:
 168         movu m0, [a1]
 169         mova m1, m0
 170
 171         movu m2, [a2]
 172         pmaxub m0, m2
 173         pminub m1, m2
 174
 175         movu m2, [a3]
 176         pmaxub m0, m2
 177         pminub m1, m2
 178
 179         movu m2, [a4]
 180         pmaxub m0, m2
 181         pminub m1, m2
 182
 183         movu m2, [a5]
 184         pmaxub m0, m2
 185         pminub m1, m2
 186
 187         movu m2, [a6]
 188         pmaxub m0, m2
 189         pminub m1, m2
 190
 191         movu m2, [a7]
 192         pmaxub m0, m2
 193         pminub m1, m2
 194
 195         movu m2, [a8]
 196         pmaxub m0, m2
 197         pminub m1, m2
 198
 199         movu m2, [c]
 200         pminub m2, m0
 201         pmaxub m2, m1
 202
 203         movu [dstq], m2
 204         add srcq, mmsize
 205         add dstq, mmsize
 206         sub pixelsd, mmsize
 207     jg .loop
 208 RET
 209
 210 %if ARCH_X86_64
 211 cglobal rg_fl_mode_2, 4, 5, 10, 0, dst, src, stride, pixels
 212     mov r4q, strideq
 213     neg r4q
 214     %define stride_p strideq
 215     %define stride_n r4q
 216
 217     .loop:
 218         LOAD_SQUARE
 219         SORT_SQUARE
 220
 221         CLIPUB m0, m2, m7
 222
 223         movu [dstq], m0
 224         add srcq, mmsize
 225         add dstq, mmsize
 226         sub pixelsd, mmsize
 227     jg .loop
 228 RET
 229
 230 cglobal rg_fl_mode_3, 4, 5, 10, 0, dst, src, stride, pixels
 231     mov r4q, strideq
 232     neg r4q
 233     %define stride_p strideq
 234     %define stride_n r4q
 235
 236     .loop:
 237         LOAD_SQUARE
 238         SORT_SQUARE
 239
 240         CLIPUB m0, m3, m6
 241
 242         movu [dstq], m0
 243         add srcq, mmsize
 244         add dstq, mmsize
 245         sub pixelsd, mmsize
 246     jg .loop
 247 RET
 248
 249 cglobal rg_fl_mode_4, 4, 5, 10, 0, dst, src, stride, pixels
 250     mov r4q, strideq
 251     neg r4q
 252     %define stride_p strideq
 253     %define stride_n r4q
 254
 255     .loop:
 256         LOAD_SQUARE
 257         SORT_SQUARE
 258
 259         CLIPUB m0, m4, m5
 260
 261         movu [dstq], m0
 262         add srcq, mmsize
 263         add dstq, mmsize
 264         sub pixelsd, mmsize
 265     jg .loop
 266 RET
 267
 268 cglobal rg_fl_mode_5, 4, 5, 13, 0, dst, src, stride, pixels
 269     mov r4q, strideq
 270     neg r4q
 271     %define stride_p strideq
 272     %define stride_n r4q
 273
 274     .loop:
 275         LOAD_SQUARE
 276         SORT_AXIS
 277
 278         mova m9, m0
 279         mova m10, m0
 280         mova m11, m0
 281         mova m12, m0
 282
 283         CLIPUB m9, m1, m8
 284         CLIPUB m10, m2, m7
 285         CLIPUB m11, m3, m6
 286         CLIPUB m12, m4, m5
 287
 288         mova m8, m9  ; clip1
 289         mova m7, m10 ; clip2
 290         mova m6, m11 ; clip3
 291         mova m5, m12 ; clip4
 292
 293         ABS_DIFF m9, m0, m1  ; c1
 294         ABS_DIFF m10, m0, m2 ; c2
 295         ABS_DIFF m11, m0, m3 ; c3
 296         ABS_DIFF m12, m0, m4 ; c4
 297
 298         pminub m9, m10
 299         pminub m9, m11
 300         pminub m9, m12 ; mindiff
 301
 302         pcmpeqb m10, m9
 303         pcmpeqb m11, m9
 304         pcmpeqb m12, m9
 305
 306         ; Notice the order here: c1, c3, c2, c4
 307         BLEND m8, m6, m11
 308         BLEND m8, m7, m10
 309         BLEND m8, m5, m12
 310
 311         movu [dstq], m8
 312         add srcq, mmsize
 313         add dstq, mmsize
 314         sub pixelsd, mmsize
 315     jg .loop
 316 RET
 317
 318 cglobal rg_fl_mode_6, 4, 5, 16, 0, dst, src, stride, pixels
 319     mov r4q, strideq
 320     neg r4q
 321     %define stride_p strideq
 322     %define stride_n r4q
 323
 324     ; Some register saving suggestions: the zero can be somewhere other than a
 325     ; register, the center pixels could be on the stack.
 326
 327     pxor m15, m15
 328     .loop:
 329         LOAD_SQUARE_16 m15
 330         SORT_AXIS_16
 331
 332         mova m9, m0
 333         mova m10, m0
 334         mova m11, m0
 335         mova m12, m0
 336         CLIPW m9, m1, m8  ; clip1
 337         CLIPW m10, m2, m7 ; clip2
 338         CLIPW m11, m3, m6 ; clip3
 339         CLIPW m12, m4, m5 ; clip4
 340
 341         psubw m8, m1 ; d1
 342         psubw m7, m2 ; d2
 343         psubw m6, m3 ; d3
 344         psubw m5, m4 ; d4
 345
 346         mova m1, m9
 347         mova m2, m10
 348         mova m3, m11
 349         mova m4, m12
 350         ABS_DIFF_W m1, m0, m13
 351         ABS_DIFF_W m2, m0, m14
 352         ABS_DIFF_W m3, m0, m13
 353         ABS_DIFF_W m4, m0, m14
 354         psllw m1, 1
 355         psllw m2, 1
 356         psllw m3, 1
 357         psllw m4, 1
 358         paddw m1, m8 ; c1
 359         paddw m2, m7 ; c2
 360         paddw m3, m6 ; c3
 361         paddw m4, m5 ; c4
 362         ; As the differences (d1..d4) can only be positive, there is no need to
 363         ; clip to zero.  Also, the maximum positive value is less than 768.
 364
 365         pminsw m1, m2
 366         pminsw m1, m3
 367         pminsw m1, m4
 368
 369         pcmpeqw m2, m1
 370         pcmpeqw m3, m1
 371         pcmpeqw m4, m1
 372
 373         BLEND m9, m11, m3
 374         BLEND m9, m10, m2
 375         BLEND m9, m12, m4
 376         packuswb m9, m9
 377
 378         movh [dstq], m9
 379         add srcq, mmsize/2
 380         add dstq, mmsize/2
 381         sub pixelsd, mmsize/2
 382     jg .loop
 383 RET
 384
 385 ; This is just copy-pasted straight from mode 6 with the left shifts removed.
 386 cglobal rg_fl_mode_7, 4, 5, 16, 0, dst, src, stride, pixels
 387     mov r4q, strideq
 388     neg r4q
 389     %define stride_p strideq
 390     %define stride_n r4q
 391
 392     ; Can this be done without unpacking?
 393
 394     pxor m15, m15
 395     .loop:
 396         LOAD_SQUARE_16 m15
 397         SORT_AXIS_16
 398
 399         mova m9, m0
 400         mova m10, m0
 401         mova m11, m0
 402         mova m12, m0
 403         CLIPW m9, m1, m8  ; clip1
 404         CLIPW m10, m2, m7 ; clip2
 405         CLIPW m11, m3, m6 ; clip3
 406         CLIPW m12, m4, m5 ; clip4
 407
 408         psubw m8, m1 ; d1
 409         psubw m7, m2 ; d2
 410         psubw m6, m3 ; d3
 411         psubw m5, m4 ; d4
 412
 413         mova m1, m9
 414         mova m2, m10
 415         mova m3, m11
 416         mova m4, m12
 417         ABS_DIFF_W m1, m0, m13
 418         ABS_DIFF_W m2, m0, m14
 419         ABS_DIFF_W m3, m0, m13
 420         ABS_DIFF_W m4, m0, m14
 421         paddw m1, m8 ; c1
 422         paddw m2, m7 ; c2
 423         paddw m3, m6 ; c3
 424         paddw m4, m5 ; c4
 425
 426         pminsw m1, m2
 427         pminsw m1, m3
 428         pminsw m1, m4
 429
 430         pcmpeqw m2, m1
 431         pcmpeqw m3, m1
 432         pcmpeqw m4, m1
 433
 434         BLEND m9, m11, m3
 435         BLEND m9, m10, m2
 436         BLEND m9, m12, m4
 437         packuswb m9, m9
 438
 439         movh [dstq], m9
 440         add srcq, mmsize/2
 441         add dstq, mmsize/2
 442         sub pixelsd, mmsize/2
 443     jg .loop
 444 RET
 445
 446 ; This is just copy-pasted straight from mode 6 with a few changes.
 447 cglobal rg_fl_mode_8, 4, 5, 16, 0, dst, src, stride, pixels
 448     mov r4q, strideq
 449     neg r4q
 450     %define stride_p strideq
 451     %define stride_n r4q
 452
 453     pxor m15, m15
 454     .loop:
 455         LOAD_SQUARE_16 m15
 456         SORT_AXIS_16
 457
 458         mova m9, m0
 459         mova m10, m0
 460         mova m11, m0
 461         mova m12, m0
 462         CLIPW m9, m1, m8  ; clip1
 463         CLIPW m10, m2, m7 ; clip2
 464         CLIPW m11, m3, m6 ; clip3
 465         CLIPW m12, m4, m5 ; clip4
 466
 467         psubw m8, m1 ; d1
 468         psubw m7, m2 ; d2
 469         psubw m6, m3 ; d3
 470         psubw m5, m4 ; d4
 471         psllw m8, 1
 472         psllw m7, 1
 473         psllw m6, 1
 474         psllw m5, 1
 475
 476         mova m1, m9
 477         mova m2, m10
 478         mova m3, m11
 479         mova m4, m12
 480         ABS_DIFF_W m1, m0, m13
 481         ABS_DIFF_W m2, m0, m14
 482         ABS_DIFF_W m3, m0, m13
 483         ABS_DIFF_W m4, m0, m14
 484         paddw m1, m8 ; c1
 485         paddw m2, m7 ; c1
 486         paddw m3, m6 ; c1
 487         paddw m4, m5 ; c1
 488         ; As the differences (d1..d4) can only be positive, there is no need to
 489         ; clip to zero.  Also, the maximum positive value is less than 768.
 490
 491         pminsw m1, m2
 492         pminsw m1, m3
 493         pminsw m1, m4
 494
 495         pcmpeqw m2, m1
 496         pcmpeqw m3, m1
 497         pcmpeqw m4, m1
 498
 499         BLEND m9, m11, m3
 500         BLEND m9, m10, m2
 501         BLEND m9, m12, m4
 502         packuswb m9, m9
 503
 504         movh [dstq], m9
 505         add srcq, mmsize/2
 506         add dstq, mmsize/2
 507         sub pixelsd, mmsize/2
 508     jg .loop
 509 RET
 510
 511 cglobal rg_fl_mode_9, 4, 5, 13, 0, dst, src, stride, pixels
 512     mov r4q, strideq
 513     neg r4q
 514     %define stride_p strideq
 515     %define stride_n r4q
 516
 517     .loop:
 518         LOAD_SQUARE
 519         SORT_AXIS
 520
 521         mova m9, m0
 522         mova m10, m0
 523         mova m11, m0
 524         mova m12, m0
 525         CLIPUB m9, m1, m8  ; clip1
 526         CLIPUB m10, m2, m7 ; clip2
 527         CLIPUB m11, m3, m6 ; clip3
 528         CLIPUB m12, m4, m5 ; clip4
 529
 530         psubb m8, m1 ; d1
 531         psubb m7, m2 ; d2
 532         psubb m6, m3 ; d3
 533         psubb m5, m4 ; d4
 534
 535         pminub m8, m7
 536         pminub m8, m6
 537         pminub m8, m5
 538
 539         pcmpeqb m7, m8
 540         pcmpeqb m6, m8
 541         pcmpeqb m5, m8
 542
 543         BLEND m9, m11, m6
 544         BLEND m9, m10, m7
 545         BLEND m9, m12, m5
 546
 547         movu [dstq], m9
 548         add srcq, mmsize
 549         add dstq, mmsize
 550         sub pixelsd, mmsize
 551     jg .loop
 552 RET
 553 %endif
 554
 555 cglobal rg_fl_mode_10, 4, 5, 8, 0, dst, src, stride, pixels
 556     mov r4q, strideq
 557     neg r4q
 558     %define stride_p strideq
 559     %define stride_n r4q
 560
 561     .loop:
 562         movu m0, [c]
 563
 564         movu m1, [a4]
 565         mova m2, m1
 566         ABS_DIFF m1, m0, m7
 567
 568         movu m3, [a5]       ; load pixel
 569         mova m4, m3
 570         ABS_DIFF m4, m0, m7 ; absolute difference from center
 571         pminub m1, m4       ; mindiff
 572         pcmpeqb m4, m1      ; if (difference == mindiff)
 573         BLEND m2, m3, m4    ;     return pixel
 574
 575         movu m5, [a1]
 576         mova m6, m5
 577         ABS_DIFF m6, m0, m7
 578         pminub m1, m6
 579         pcmpeqb m6, m1
 580         BLEND m2, m5, m6
 581
 582         movu m3, [a3]
 583         mova m4, m3
 584         ABS_DIFF m4, m0, m7
 585         pminub m1, m4
 586         pcmpeqb m4, m1
 587         BLEND m2, m3, m4
 588
 589         movu m5, [a2]
 590         mova m6, m5
 591         ABS_DIFF m6, m0, m7
 592         pminub m1, m6
 593         pcmpeqb m6, m1
 594         BLEND m2, m5, m6
 595
 596         movu m3, [a6]
 597         mova m4, m3
 598         ABS_DIFF m4, m0, m7
 599         pminub m1, m4
 600         pcmpeqb m4, m1
 601         BLEND m2, m3, m4
 602
 603         movu m5, [a8]
 604         mova m6, m5
 605         ABS_DIFF m6, m0, m7
 606         pminub m1, m6
 607         pcmpeqb m6, m1
 608         BLEND m2, m5, m6
 609
 610         movu m3, [a7]
 611         mova m4, m3
 612         ABS_DIFF m4, m0, m7
 613         pminub m1, m4
 614         pcmpeqb m4, m1
 615         BLEND m2, m3, m4
 616
 617         movu [dstq], m2
 618         add srcq, mmsize
 619         add dstq, mmsize
 620         sub pixelsd, mmsize
 621     jg .loop
 622 RET
 623
 624 cglobal rg_fl_mode_11_12, 4, 5, 7, 0, dst, src, stride, pixels
 625     mov r4q, strideq
 626     neg r4q
 627     %define stride_p strideq
 628     %define stride_n r4q
 629
 630     pxor m0, m0
 631     .loop:
 632         LOAD m1, [c], m0
 633         LOAD m2, [a2], m0
 634         LOAD m3, [a4], m0
 635         LOAD m4, [a5], m0
 636         LOAD m5, [a7], m0
 637
 638         psllw m1, 2
 639         paddw m2, m3
 640         paddw m4, m5
 641         paddw m2, m4
 642         psllw m2, 1
 643
 644         LOAD m3, [a1], m0
 645         LOAD m4, [a3], m0
 646         LOAD m5, [a6], m0
 647         LOAD m6, [a8], m0
 648         paddw m1, m2
 649         paddw m3, m4
 650         paddw m5, m6
 651         paddw m1, m3
 652         paddw m1, m5
 653
 654         paddw m1, [pw_8]
 655         psraw m1, 4
 656
 657         packuswb m1, m1
 658
 659         movh [dstq], m1
 660         add srcq, mmsize/2
 661         add dstq, mmsize/2
 662         sub pixelsd, mmsize/2
 663     jg .loop
 664 RET
 665
 666 cglobal rg_fl_mode_13_14, 4, 5, 8, 0, dst, src, stride, pixels
 667     mov r4q, strideq
 668     neg r4q
 669     %define stride_p strideq
 670     %define stride_n r4q
 671
 672     .loop:
 673         movu m1, [a1]
 674         movu m2, [a8]
 675         mova m0, m1
 676         pavgb m1, m2
 677         ABS_DIFF m0, m2, m6
 678
 679         movu m3, [a3]
 680         movu m4, [a6]
 681         mova m5, m3
 682         pavgb m3, m4
 683         ABS_DIFF m5, m4, m7
 684         pminub m0, m5
 685         pcmpeqb m5, m0
 686         BLEND m1, m3, m5
 687
 688         movu m2, [a2]
 689         movu m3, [a7]
 690         mova m4, m2
 691         pavgb m2, m3
 692         ABS_DIFF m4, m3, m6
 693         pminub m0, m4
 694         pcmpeqb m4, m0
 695         BLEND m1, m2, m4
 696
 697         movu [dstq], m1
 698         add srcq, mmsize
 699         add dstq, mmsize
 700         sub pixelsd, mmsize
 701     jg .loop
 702 RET
 703
 704 %if ARCH_X86_64
 705 cglobal rg_fl_mode_15_16, 4, 5, 16, 0, dst, src, stride, pixels
 706     mov r4q, strideq
 707     neg r4q
 708     %define stride_p strideq
 709     %define stride_n r4q
 710
 711     pxor m15, m15
 712     .loop:
 713         LOAD_SQUARE_16 m15
 714
 715         mova m9, m1
 716         mova m10, m2
 717         mova m11, m3
 718         ABS_DIFF_W m9, m8, m12
 719         ABS_DIFF_W m10, m7, m13
 720         ABS_DIFF_W m11, m6, m14
 721         pminsw m9, m10
 722         pminsw m9, m11
 723         pcmpeqw m10, m9
 724         pcmpeqw m11, m9
 725
 726         mova m12, m2
 727         mova m13, m1
 728         mova m14, m6
 729         paddw m12, m7
 730         psllw m12, 1
 731         paddw m13, m3
 732         paddw m14, m8
 733         paddw m12, [pw_4]
 734         paddw m13, m14
 735         paddw m12, m13
 736         psrlw m12, 3
 737
 738         SORT_PAIR ub, m1, m8, m0
 739         SORT_PAIR ub, m2, m7, m9
 740         SORT_PAIR ub, m3, m6, m14
 741         mova m4, m12
 742         mova m5, m12
 743         CLIPW m4, m1, m8
 744         CLIPW m5, m2, m7
 745         CLIPW m12, m3, m6
 746
 747         BLEND m4, m12, m11
 748         BLEND m4,  m5, m10
 749         packuswb m4, m4
 750
 751         movh [dstq], m4
 752         add srcq, mmsize/2
 753         add dstq, mmsize/2
 754         sub pixelsd, mmsize/2
 755     jg .loop
 756 RET
 757
 758 cglobal rg_fl_mode_17, 4, 5, 9, 0, dst, src, stride, pixels
 759     mov r4q, strideq
 760     neg r4q
 761     %define stride_p strideq
 762     %define stride_n r4q
 763
 764     .loop:
 765         LOAD_SQUARE
 766         SORT_AXIS
 767
 768         pmaxub m1, m2
 769         pmaxub m3, m4
 770
 771         pminub m8, m7
 772         pminub m5, m6
 773
 774         pmaxub m1, m3
 775         pminub m8, m5
 776
 777         mova m2, m1
 778         pminub m1, m8
 779         pmaxub m8, m2
 780
 781         CLIPUB m0, m1, m8
 782
 783         movu [dstq], m0
 784         add srcq, mmsize
 785         add dstq, mmsize
 786         sub pixelsd, mmsize
 787     jg .loop
 788 RET
 789
 790 cglobal rg_fl_mode_18, 4, 5, 16, 0, dst, src, stride, pixels
 791     mov r4q, strideq
 792     neg r4q
 793     %define stride_p strideq
 794     %define stride_n r4q
 795
 796     .loop:
 797         LOAD_SQUARE
 798
 799         mova m9, m1
 800         mova m10, m8
 801         ABS_DIFF m9, m0, m11
 802         ABS_DIFF m10, m0, m12
 803         pmaxub m9, m10 ; m9 = d1
 804
 805         mova m10, m2
 806         mova m11, m7
 807         ABS_DIFF m10, m0, m12
 808         ABS_DIFF m11, m0, m13
 809         pmaxub m10, m11 ; m10 = d2
 810
 811         mova m11, m3
 812         mova m12, m6
 813         ABS_DIFF m11, m0, m13
 814         ABS_DIFF m12, m0, m14
 815         pmaxub m11, m12 ; m11 = d3
 816
 817         mova m12, m4
 818         mova m13, m5
 819         ABS_DIFF m12, m0, m14
 820         ABS_DIFF m13, m0, m15
 821         pmaxub m12, m13 ; m12 = d4
 822
 823         mova m13, m9
 824         pminub m13, m10
 825         pminub m13, m11
 826         pminub m13, m12 ; m13 = mindiff
 827
 828         pcmpeqb m10, m13
 829         pcmpeqb m11, m13
 830         pcmpeqb m12, m13
 831
 832         mova m14, m1
 833         pminub m1, m8
 834         pmaxub m8, m14
 835
 836         mova m13, m0
 837         mova m14, m1
 838         pminub m1, m8
 839         pmaxub m8, m14
 840         CLIPUB m13, m1, m8 ; m13 = ret...d1
 841
 842         mova m14, m0
 843         mova m15, m3
 844         pminub m3, m6
 845         pmaxub m6, m15
 846         CLIPUB m14, m3, m6
 847         pand m14, m11
 848         pandn m11, m13
 849         por m14, m11 ; m14 = ret...d3
 850
 851         mova m15, m0
 852         mova m1, m2
 853         pminub m2, m7
 854         pmaxub m7, m1
 855         CLIPUB m15, m2, m7
 856         pand m15, m10
 857         pandn m10, m14
 858         por m15, m10 ; m15 = ret...d2
 859
 860         mova m1, m0
 861         mova m2, m4
 862         pminub m4, m5
 863         pmaxub m5, m2
 864         CLIPUB m1, m4, m5
 865         pand m1, m12
 866         pandn m12, m15
 867         por m1, m12 ; m15 = ret...d4
 868
 869         movu [dstq], m1
 870         add srcq, mmsize
 871         add dstq, mmsize
 872         sub pixelsd, mmsize
 873     jg .loop
 874 RET
 875 %endif
 876
 877 cglobal rg_fl_mode_19, 4, 5, 7, 0, dst, src, stride, pixels
 878     mov r4q, strideq
 879     neg r4q
 880     %define stride_p strideq
 881     %define stride_n r4q
 882
 883     pxor m0, m0
 884     .loop:
 885         LOAD m1, [a1], m0
 886         LOAD m2, [a2], m0
 887         paddw m1, m2
 888
 889         LOAD m3, [a3], m0
 890         LOAD m4, [a4], m0
 891         paddw m3, m4
 892
 893         LOAD m5, [a5], m0
 894         LOAD m6, [a6], m0
 895         paddw m5, m6
 896
 897         LOAD m2, [a7], m0
 898         LOAD m4, [a8], m0
 899         paddw m2, m4
 900
 901         paddw m1, m3
 902         paddw m2, m5
 903         paddw m1, m2
 904
 905         paddw m1, [pw_4]
 906         psraw m1, 3
 907
 908         packuswb m1, m1
 909
 910         movh [dstq], m1
 911         add srcq, mmsize/2
 912         add dstq, mmsize/2
 913         sub pixelsd, mmsize/2
 914     jg .loop
 915 RET
 916
 917 cglobal rg_fl_mode_20, 4, 5, 7, 0, dst, src, stride, pixels
 918     mov r4q, strideq
 919     neg r4q
 920     %define stride_p strideq
 921     %define stride_n r4q
 922
 923     pxor m0, m0
 924     .loop:
 925         LOAD m1, [a1], m0
 926         LOAD m2, [a2], m0
 927         paddw m1, m2
 928
 929         LOAD m3, [a3], m0
 930         LOAD m4, [a4], m0
 931         paddw m3, m4
 932
 933         LOAD m5, [a5], m0
 934         LOAD m6, [a6], m0
 935         paddw m5, m6
 936
 937         LOAD m2, [a7], m0
 938         LOAD m4, [a8], m0
 939         paddw m2, m4
 940
 941         LOAD m6, [c], m0
 942         paddw m1, m3
 943         paddw m2, m5
 944         paddw m6, [pw_4]
 945
 946         paddw m1, m2
 947         paddw m1, m6
 948
 949         pmulhuw m1, [pw_div9]
 950
 951         packuswb m1, m1
 952
 953         movh [dstq], m1
 954         add srcq, mmsize/2
 955         add dstq, mmsize/2
 956         sub pixelsd, mmsize/2
 957     jg .loop
 958 RET
 959
 960 cglobal rg_fl_mode_21, 4, 5, 8, 0, dst, src, stride, pixels
 961     mov r4q, strideq
 962     neg r4q
 963     %define stride_p strideq
 964     %define stride_n r4q
 965
 966     pxor m0, m0
 967     .loop:
 968         movu m1, [a1]
 969         movu m2, [a8]
 970         pavgb m7, m1, m2
 971         punpckhbw m3, m1, m0
 972         punpcklbw m1, m0
 973         punpckhbw m4, m2, m0
 974         punpcklbw m2, m0
 975         paddw m3, m4
 976         paddw m1, m2
 977         psrlw m3, 1
 978         psrlw m1, 1
 979         packuswb m1, m3
 980
 981         movu m2, [a2]
 982         movu m3, [a7]
 983         pavgb m6, m2, m3
 984         punpckhbw m4, m2, m0
 985         punpcklbw m2, m0
 986         punpckhbw m5, m3, m0
 987         punpcklbw m3, m0
 988         paddw m4, m5
 989         paddw m2, m3
 990         psrlw m4, 1
 991         psrlw m2, 1
 992         packuswb m2, m4
 993
 994         pminub m1, m2
 995         pmaxub m7, m6
 996
 997         movu m2, [a3]
 998         movu m3, [a6]
 999         pavgb m6, m2, m3
1000         punpckhbw m4, m2, m0
1001         punpcklbw m2, m0
1002         punpckhbw m5, m3, m0
1003         punpcklbw m3, m0
1004         paddw m4, m5
1005         paddw m2, m3
1006         psrlw m4, 1
1007         psrlw m2, 1
1008         packuswb m2, m4
1009
1010         pminub m1, m2
1011         pmaxub m7, m6
1012
1013         movu m2, [a4]
1014         movu m3, [a5]
1015         pavgb m6, m2, m3
1016         punpckhbw m4, m2, m0
1017         punpcklbw m2, m0
1018         punpckhbw m5, m3, m0
1019         punpcklbw m3, m0
1020         paddw m4, m5
1021         paddw m2, m3
1022         psrlw m4, 1
1023         psrlw m2, 1
1024         packuswb m2, m4
1025
1026         pminub m1, m2
1027         pmaxub m7, m6
1028
1029         movu m3, [c]
1030         CLIPUB m3, m1, m7
1031
1032         movu [dstq], m3
1033         add srcq, mmsize
1034         add dstq, mmsize
1035         sub pixelsd, mmsize
1036     jg .loop
1037 RET
1038
1039 cglobal rg_fl_mode_22, 4, 5, 8, 0, dst, src, stride, pixels
1040     mov r4q, strideq
1041     neg r4q
1042     %define stride_p strideq
1043     %define stride_n r4q
1044
1045     .loop:
1046         movu m0, [a1]
1047         movu m1, [a8]
1048         pavgb m0, m1
1049         movu m2, [a2]
1050         movu m3, [a7]
1051         pavgb m2, m3
1052         movu m4, [a3]
1053         movu m5, [a6]
1054         pavgb m4, m5
1055         movu m6, [a4]
1056         movu m7, [a5]
1057         pavgb m6, m7
1058
1059         mova m1, m0
1060         mova m3, m2
1061         mova m5, m4
1062         mova m7, m6
1063         pminub m0, m2
1064         pminub m4, m6
1065         pmaxub m1, m3
1066         pmaxub m5, m7
1067         pminub m0, m4
1068         pmaxub m1, m5
1069
1070         movu m2, [c]
1071         CLIPUB m2, m0, m1
1072
1073         movu [dstq], m2
1074         add srcq, mmsize
1075         add dstq, mmsize
1076         sub pixelsd, mmsize
1077     jg .loop
1078 RET
1079
1080 %if ARCH_X86_64
1081 cglobal rg_fl_mode_23, 4, 5, 16, 0, dst, src, stride, pixels
1082     mov r4q, strideq
1083     neg r4q
1084     %define stride_p strideq
1085     %define stride_n r4q
1086
1087     pxor m15, m15
1088     .loop:
1089         LOAD_SQUARE_16 m15
1090         SORT_AXIS_16
1091
1092         mova m9, m8
1093         mova m10, m7
1094         mova m11, m6
1095         mova m12, m5
1096         psubw m9, m1  ; linediff1
1097         psubw m10, m2 ; linediff2
1098         psubw m11, m3 ; linediff3
1099         psubw m12, m4 ; linediff4
1100
1101         psubw m1, m0
1102         psubw m2, m0
1103         psubw m3, m0
1104         psubw m4, m0
1105         pminsw m1, m9  ; d1
1106         pminsw m2, m10 ; d2
1107         pminsw m3, m11 ; d3
1108         pminsw m4, m12 ; d4
1109         pmaxsw m1, m2
1110         pmaxsw m3, m4
1111         pmaxsw m1, m3
1112         pmaxsw m1, m15 ; d
1113
1114         mova m13, m0
1115         mova m14, m0
1116         mova m2, m0
1117         mova m4, m0
1118         psubw m13, m8
1119         psubw m14, m7
1120         psubw m2, m6
1121         psubw m4, m5
1122         pminsw m9, m13  ; u1
1123         pminsw m10, m14 ; u2
1124         pminsw m11, m2  ; u3
1125         pminsw m12, m4  ; u4
1126         pmaxsw m9, m10
1127         pmaxsw m11, m12
1128         pmaxsw m9, m11
1129         pmaxsw m9, m15  ; u
1130
1131         paddw m0, m1
1132         psubw m0, m9
1133         packuswb m0, m0
1134
1135         movh [dstq], m0
1136         add srcq, mmsize/2
1137         add dstq, mmsize/2
1138         sub pixelsd, mmsize/2
1139     jg .loop
1140 RET
1141
1142 cglobal rg_fl_mode_24, 4, 5, 16, mmsize, dst, src, stride, pixels
1143     mov r4q, strideq
1144     neg r4q
1145     %define stride_p strideq
1146     %define stride_n r4q
1147
1148     pxor m15, m15
1149     .loop:
1150         LOAD_SQUARE_16 m15
1151         mova [rsp], m0
1152         SORT_AXIS_16
1153
1154         mova m9, m8
1155         mova m10, m7
1156         mova m11, m6
1157         mova m12, m5
1158         psubw m9, m1  ; linediff1
1159         psubw m10, m2 ; linediff2
1160         psubw m11, m3 ; linediff3
1161         psubw m12, m4 ; linediff4
1162
1163         psubw m1, [rsp] ; td1
1164         psubw m2, [rsp] ; td2
1165         psubw m3, [rsp] ; td3
1166         psubw m4, [rsp] ; td4
1167         mova m0, m9
1168         mova m13, m10
1169         mova m14, m11
1170         mova m15, m12
1171         psubw m0, m1
1172         psubw m13, m2
1173         psubw m14, m3
1174         psubw m15, m4
1175         pminsw m1, m0  ; d1
1176         pminsw m2, m13 ; d2
1177         pminsw m3, m14 ; d3
1178         pminsw m4, m15 ; d4
1179         pmaxsw m1, m2
1180         pmaxsw m3, m4
1181
1182         mova m0, [rsp]
1183         mova m13, [rsp]
1184         mova m14, [rsp]
1185         mova m15, [rsp]
1186         psubw m0, m8  ; tu1
1187         psubw m13, m7 ; tu2
1188         psubw m14, m6 ; tu3
1189         psubw m15, m5 ; tu4
1190         psubw m9, m0
1191         psubw m10, m13
1192         psubw m11, m14
1193         psubw m12, m15
1194         pminsw m9, m0   ; u1
1195         pminsw m10, m13 ; u2
1196         pminsw m11, m14 ; u3
1197         pminsw m12, m15 ; u4
1198         pmaxsw m9, m10
1199         pmaxsw m11, m12
1200
1201         pmaxsw m1, m3  ; d without max(d,0)
1202         pmaxsw m9, m11  ; u without max(u,0)
1203         pxor m15, m15
1204         pmaxsw m1, m15
1205         pmaxsw m9, m15
1206
1207         mova m0, [rsp]
1208         paddw m0, m1
1209         psubw m0, m9
1210         packuswb m0, m0
1211
1212         movh [dstq], m0
1213         add srcq, mmsize/2
1214         add dstq, mmsize/2
1215         sub pixelsd, mmsize/2
1216     jg .loop
1217 RET
1218 %endif