1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 | FileCheck %s --check-prefix=SSE --check-prefix=SSE2
3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefix=SSE --check-prefix=SSE41
4 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx | FileCheck %s --check-prefix=AVX --check-prefix=AVX1
5 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefix=AVX --check-prefix=AVX2
6 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f | FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512F
7 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw | FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BW
8 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl | FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512VL
10 define <4 x float> @test_v4f32(<4 x float>* %src) {
11 ; SSE2-LABEL: test_v4f32:
13 ; SSE2-NEXT: movaps (%rdi), %xmm0
16 ; SSE41-LABEL: test_v4f32:
18 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
21 ; AVX-LABEL: test_v4f32:
23 ; AVX-NEXT: vmovntdqa (%rdi), %xmm0
26 ; AVX512-LABEL: test_v4f32:
28 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm0
30 %1 = load <4 x float>, <4 x float>* %src, align 16, !nontemporal !1
34 define <4 x i32> @test_v4i32(<4 x i32>* %src) {
35 ; SSE2-LABEL: test_v4i32:
37 ; SSE2-NEXT: movaps (%rdi), %xmm0
40 ; SSE41-LABEL: test_v4i32:
42 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
45 ; AVX-LABEL: test_v4i32:
47 ; AVX-NEXT: vmovntdqa (%rdi), %xmm0
50 ; AVX512-LABEL: test_v4i32:
52 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm0
54 %1 = load <4 x i32>, <4 x i32>* %src, align 16, !nontemporal !1
58 define <2 x double> @test_v2f64(<2 x double>* %src) {
59 ; SSE2-LABEL: test_v2f64:
61 ; SSE2-NEXT: movaps (%rdi), %xmm0
64 ; SSE41-LABEL: test_v2f64:
66 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
69 ; AVX-LABEL: test_v2f64:
71 ; AVX-NEXT: vmovntdqa (%rdi), %xmm0
74 ; AVX512-LABEL: test_v2f64:
76 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm0
78 %1 = load <2 x double>, <2 x double>* %src, align 16, !nontemporal !1
82 define <2 x i64> @test_v2i64(<2 x i64>* %src) {
83 ; SSE2-LABEL: test_v2i64:
85 ; SSE2-NEXT: movaps (%rdi), %xmm0
88 ; SSE41-LABEL: test_v2i64:
90 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
93 ; AVX-LABEL: test_v2i64:
95 ; AVX-NEXT: vmovntdqa (%rdi), %xmm0
98 ; AVX512-LABEL: test_v2i64:
100 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm0
102 %1 = load <2 x i64>, <2 x i64>* %src, align 16, !nontemporal !1
106 define <8 x i16> @test_v8i16(<8 x i16>* %src) {
107 ; SSE2-LABEL: test_v8i16:
109 ; SSE2-NEXT: movaps (%rdi), %xmm0
112 ; SSE41-LABEL: test_v8i16:
114 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
117 ; AVX-LABEL: test_v8i16:
119 ; AVX-NEXT: vmovntdqa (%rdi), %xmm0
122 ; AVX512-LABEL: test_v8i16:
124 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm0
126 %1 = load <8 x i16>, <8 x i16>* %src, align 16, !nontemporal !1
130 define <16 x i8> @test_v16i8(<16 x i8>* %src) {
131 ; SSE2-LABEL: test_v16i8:
133 ; SSE2-NEXT: movaps (%rdi), %xmm0
136 ; SSE41-LABEL: test_v16i8:
138 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
141 ; AVX-LABEL: test_v16i8:
143 ; AVX-NEXT: vmovntdqa (%rdi), %xmm0
146 ; AVX512-LABEL: test_v16i8:
148 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm0
150 %1 = load <16 x i8>, <16 x i8>* %src, align 16, !nontemporal !1
154 ; And now YMM versions.
156 define <8 x float> @test_v8f32(<8 x float>* %src) {
157 ; SSE2-LABEL: test_v8f32:
159 ; SSE2-NEXT: movaps (%rdi), %xmm0
160 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
163 ; SSE41-LABEL: test_v8f32:
165 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
166 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
169 ; AVX1-LABEL: test_v8f32:
171 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
172 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
173 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
176 ; AVX2-LABEL: test_v8f32:
178 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
181 ; AVX512-LABEL: test_v8f32:
183 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm0
185 %1 = load <8 x float>, <8 x float>* %src, align 32, !nontemporal !1
189 define <8 x i32> @test_v8i32(<8 x i32>* %src) {
190 ; SSE2-LABEL: test_v8i32:
192 ; SSE2-NEXT: movaps (%rdi), %xmm0
193 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
196 ; SSE41-LABEL: test_v8i32:
198 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
199 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
202 ; AVX1-LABEL: test_v8i32:
204 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
205 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
206 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
209 ; AVX2-LABEL: test_v8i32:
211 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
214 ; AVX512-LABEL: test_v8i32:
216 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm0
218 %1 = load <8 x i32>, <8 x i32>* %src, align 32, !nontemporal !1
222 define <4 x double> @test_v4f64(<4 x double>* %src) {
223 ; SSE2-LABEL: test_v4f64:
225 ; SSE2-NEXT: movaps (%rdi), %xmm0
226 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
229 ; SSE41-LABEL: test_v4f64:
231 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
232 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
235 ; AVX1-LABEL: test_v4f64:
237 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
238 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
239 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
242 ; AVX2-LABEL: test_v4f64:
244 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
247 ; AVX512-LABEL: test_v4f64:
249 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm0
251 %1 = load <4 x double>, <4 x double>* %src, align 32, !nontemporal !1
255 define <4 x i64> @test_v4i64(<4 x i64>* %src) {
256 ; SSE2-LABEL: test_v4i64:
258 ; SSE2-NEXT: movaps (%rdi), %xmm0
259 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
262 ; SSE41-LABEL: test_v4i64:
264 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
265 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
268 ; AVX1-LABEL: test_v4i64:
270 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
271 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
272 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
275 ; AVX2-LABEL: test_v4i64:
277 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
280 ; AVX512-LABEL: test_v4i64:
282 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm0
284 %1 = load <4 x i64>, <4 x i64>* %src, align 32, !nontemporal !1
288 define <16 x i16> @test_v16i16(<16 x i16>* %src) {
289 ; SSE2-LABEL: test_v16i16:
291 ; SSE2-NEXT: movaps (%rdi), %xmm0
292 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
295 ; SSE41-LABEL: test_v16i16:
297 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
298 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
301 ; AVX1-LABEL: test_v16i16:
303 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
304 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
305 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
308 ; AVX2-LABEL: test_v16i16:
310 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
313 ; AVX512-LABEL: test_v16i16:
315 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm0
317 %1 = load <16 x i16>, <16 x i16>* %src, align 32, !nontemporal !1
321 define <32 x i8> @test_v32i8(<32 x i8>* %src) {
322 ; SSE2-LABEL: test_v32i8:
324 ; SSE2-NEXT: movaps (%rdi), %xmm0
325 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
328 ; SSE41-LABEL: test_v32i8:
330 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
331 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
334 ; AVX1-LABEL: test_v32i8:
336 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
337 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
338 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
341 ; AVX2-LABEL: test_v32i8:
343 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
346 ; AVX512-LABEL: test_v32i8:
348 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm0
350 %1 = load <32 x i8>, <32 x i8>* %src, align 32, !nontemporal !1
354 ; And now ZMM versions.
356 define <16 x float> @test_v16f32(<16 x float>* %src) {
357 ; SSE2-LABEL: test_v16f32:
359 ; SSE2-NEXT: movaps (%rdi), %xmm0
360 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
361 ; SSE2-NEXT: movaps 32(%rdi), %xmm2
362 ; SSE2-NEXT: movaps 48(%rdi), %xmm3
365 ; SSE41-LABEL: test_v16f32:
367 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
368 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
369 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm2
370 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm3
373 ; AVX1-LABEL: test_v16f32:
375 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
376 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
377 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
378 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm1
379 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
380 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
383 ; AVX2-LABEL: test_v16f32:
385 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
386 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm1
389 ; AVX512-LABEL: test_v16f32:
391 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm0
393 %1 = load <16 x float>, <16 x float>* %src, align 64, !nontemporal !1
397 define <16 x i32> @test_v16i32(<16 x i32>* %src) {
398 ; SSE2-LABEL: test_v16i32:
400 ; SSE2-NEXT: movaps (%rdi), %xmm0
401 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
402 ; SSE2-NEXT: movaps 32(%rdi), %xmm2
403 ; SSE2-NEXT: movaps 48(%rdi), %xmm3
406 ; SSE41-LABEL: test_v16i32:
408 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
409 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
410 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm2
411 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm3
414 ; AVX1-LABEL: test_v16i32:
416 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
417 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
418 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
419 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm1
420 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
421 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
424 ; AVX2-LABEL: test_v16i32:
426 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
427 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm1
430 ; AVX512-LABEL: test_v16i32:
432 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm0
434 %1 = load <16 x i32>, <16 x i32>* %src, align 64, !nontemporal !1
438 define <8 x double> @test_v8f64(<8 x double>* %src) {
439 ; SSE2-LABEL: test_v8f64:
441 ; SSE2-NEXT: movaps (%rdi), %xmm0
442 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
443 ; SSE2-NEXT: movaps 32(%rdi), %xmm2
444 ; SSE2-NEXT: movaps 48(%rdi), %xmm3
447 ; SSE41-LABEL: test_v8f64:
449 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
450 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
451 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm2
452 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm3
455 ; AVX1-LABEL: test_v8f64:
457 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
458 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
459 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
460 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm1
461 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
462 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
465 ; AVX2-LABEL: test_v8f64:
467 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
468 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm1
471 ; AVX512-LABEL: test_v8f64:
473 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm0
475 %1 = load <8 x double>, <8 x double>* %src, align 64, !nontemporal !1
479 define <8 x i64> @test_v8i64(<8 x i64>* %src) {
480 ; SSE2-LABEL: test_v8i64:
482 ; SSE2-NEXT: movaps (%rdi), %xmm0
483 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
484 ; SSE2-NEXT: movaps 32(%rdi), %xmm2
485 ; SSE2-NEXT: movaps 48(%rdi), %xmm3
488 ; SSE41-LABEL: test_v8i64:
490 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
491 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
492 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm2
493 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm3
496 ; AVX1-LABEL: test_v8i64:
498 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
499 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
500 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
501 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm1
502 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
503 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
506 ; AVX2-LABEL: test_v8i64:
508 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
509 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm1
512 ; AVX512-LABEL: test_v8i64:
514 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm0
516 %1 = load <8 x i64>, <8 x i64>* %src, align 64, !nontemporal !1
520 define <32 x i16> @test_v32i16(<32 x i16>* %src) {
521 ; SSE2-LABEL: test_v32i16:
523 ; SSE2-NEXT: movaps (%rdi), %xmm0
524 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
525 ; SSE2-NEXT: movaps 32(%rdi), %xmm2
526 ; SSE2-NEXT: movaps 48(%rdi), %xmm3
529 ; SSE41-LABEL: test_v32i16:
531 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
532 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
533 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm2
534 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm3
537 ; AVX1-LABEL: test_v32i16:
539 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
540 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
541 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
542 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm1
543 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
544 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
547 ; AVX2-LABEL: test_v32i16:
549 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
550 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm1
553 ; AVX512-LABEL: test_v32i16:
555 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm0
557 %1 = load <32 x i16>, <32 x i16>* %src, align 64, !nontemporal !1
561 define <64 x i8> @test_v64i8(<64 x i8>* %src) {
562 ; SSE2-LABEL: test_v64i8:
564 ; SSE2-NEXT: movaps (%rdi), %xmm0
565 ; SSE2-NEXT: movaps 16(%rdi), %xmm1
566 ; SSE2-NEXT: movaps 32(%rdi), %xmm2
567 ; SSE2-NEXT: movaps 48(%rdi), %xmm3
570 ; SSE41-LABEL: test_v64i8:
572 ; SSE41-NEXT: movntdqa (%rdi), %xmm0
573 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm1
574 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm2
575 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm3
578 ; AVX1-LABEL: test_v64i8:
580 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm0
581 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
582 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
583 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm1
584 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
585 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
588 ; AVX2-LABEL: test_v64i8:
590 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm0
591 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm1
594 ; AVX512-LABEL: test_v64i8:
596 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm0
598 %1 = load <64 x i8>, <64 x i8>* %src, align 64, !nontemporal !1
603 ; Check cases where the load would be folded.
605 define <4 x float> @test_arg_v4f32(<4 x float> %arg, <4 x float>* %src) {
606 ; SSE2-LABEL: test_arg_v4f32:
608 ; SSE2-NEXT: addps (%rdi), %xmm0
611 ; SSE41-LABEL: test_arg_v4f32:
613 ; SSE41-NEXT: movntdqa (%rdi), %xmm1
614 ; SSE41-NEXT: addps %xmm1, %xmm0
617 ; AVX-LABEL: test_arg_v4f32:
619 ; AVX-NEXT: vmovntdqa (%rdi), %xmm1
620 ; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
623 ; AVX512-LABEL: test_arg_v4f32:
625 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm1
626 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
628 %1 = load <4 x float>, <4 x float>* %src, align 16, !nontemporal !1
629 %2 = fadd <4 x float> %arg, %1
633 define <4 x i32> @test_arg_v4i32(<4 x i32> %arg, <4 x i32>* %src) {
634 ; SSE2-LABEL: test_arg_v4i32:
636 ; SSE2-NEXT: paddd (%rdi), %xmm0
639 ; SSE41-LABEL: test_arg_v4i32:
641 ; SSE41-NEXT: movntdqa (%rdi), %xmm1
642 ; SSE41-NEXT: paddd %xmm1, %xmm0
645 ; AVX-LABEL: test_arg_v4i32:
647 ; AVX-NEXT: vmovntdqa (%rdi), %xmm1
648 ; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
651 ; AVX512-LABEL: test_arg_v4i32:
653 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm1
654 ; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
656 %1 = load <4 x i32>, <4 x i32>* %src, align 16, !nontemporal !1
657 %2 = add <4 x i32> %arg, %1
661 define <2 x double> @test_arg_v2f64(<2 x double> %arg, <2 x double>* %src) {
662 ; SSE2-LABEL: test_arg_v2f64:
664 ; SSE2-NEXT: addpd (%rdi), %xmm0
667 ; SSE41-LABEL: test_arg_v2f64:
669 ; SSE41-NEXT: movntdqa (%rdi), %xmm1
670 ; SSE41-NEXT: addpd %xmm1, %xmm0
673 ; AVX-LABEL: test_arg_v2f64:
675 ; AVX-NEXT: vmovntdqa (%rdi), %xmm1
676 ; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
679 ; AVX512-LABEL: test_arg_v2f64:
681 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm1
682 ; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
684 %1 = load <2 x double>, <2 x double>* %src, align 16, !nontemporal !1
685 %2 = fadd <2 x double> %arg, %1
689 define <2 x i64> @test_arg_v2i64(<2 x i64> %arg, <2 x i64>* %src) {
690 ; SSE2-LABEL: test_arg_v2i64:
692 ; SSE2-NEXT: paddq (%rdi), %xmm0
695 ; SSE41-LABEL: test_arg_v2i64:
697 ; SSE41-NEXT: movntdqa (%rdi), %xmm1
698 ; SSE41-NEXT: paddq %xmm1, %xmm0
701 ; AVX-LABEL: test_arg_v2i64:
703 ; AVX-NEXT: vmovntdqa (%rdi), %xmm1
704 ; AVX-NEXT: vpaddq %xmm1, %xmm0, %xmm0
707 ; AVX512-LABEL: test_arg_v2i64:
709 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm1
710 ; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
712 %1 = load <2 x i64>, <2 x i64>* %src, align 16, !nontemporal !1
713 %2 = add <2 x i64> %arg, %1
717 define <8 x i16> @test_arg_v8i16(<8 x i16> %arg, <8 x i16>* %src) {
718 ; SSE2-LABEL: test_arg_v8i16:
720 ; SSE2-NEXT: paddw (%rdi), %xmm0
723 ; SSE41-LABEL: test_arg_v8i16:
725 ; SSE41-NEXT: movntdqa (%rdi), %xmm1
726 ; SSE41-NEXT: paddw %xmm1, %xmm0
729 ; AVX-LABEL: test_arg_v8i16:
731 ; AVX-NEXT: vmovntdqa (%rdi), %xmm1
732 ; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
735 ; AVX512-LABEL: test_arg_v8i16:
737 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm1
738 ; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
740 %1 = load <8 x i16>, <8 x i16>* %src, align 16, !nontemporal !1
741 %2 = add <8 x i16> %arg, %1
745 define <16 x i8> @test_arg_v16i8(<16 x i8> %arg, <16 x i8>* %src) {
746 ; SSE2-LABEL: test_arg_v16i8:
748 ; SSE2-NEXT: paddb (%rdi), %xmm0
751 ; SSE41-LABEL: test_arg_v16i8:
753 ; SSE41-NEXT: movntdqa (%rdi), %xmm1
754 ; SSE41-NEXT: paddb %xmm1, %xmm0
757 ; AVX-LABEL: test_arg_v16i8:
759 ; AVX-NEXT: vmovntdqa (%rdi), %xmm1
760 ; AVX-NEXT: vpaddb %xmm1, %xmm0, %xmm0
763 ; AVX512-LABEL: test_arg_v16i8:
765 ; AVX512-NEXT: vmovntdqa (%rdi), %xmm1
766 ; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
768 %1 = load <16 x i8>, <16 x i8>* %src, align 16, !nontemporal !1
769 %2 = add <16 x i8> %arg, %1
773 ; And now YMM versions.
775 define <8 x float> @test_arg_v8f32(<8 x float> %arg, <8 x float>* %src) {
776 ; SSE2-LABEL: test_arg_v8f32:
778 ; SSE2-NEXT: addps (%rdi), %xmm0
779 ; SSE2-NEXT: addps 16(%rdi), %xmm1
782 ; SSE41-LABEL: test_arg_v8f32:
784 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm2
785 ; SSE41-NEXT: movntdqa (%rdi), %xmm3
786 ; SSE41-NEXT: addps %xmm3, %xmm0
787 ; SSE41-NEXT: addps %xmm2, %xmm1
790 ; AVX1-LABEL: test_arg_v8f32:
792 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm1
793 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
794 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
795 ; AVX1-NEXT: vaddps %ymm1, %ymm0, %ymm0
798 ; AVX2-LABEL: test_arg_v8f32:
800 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
801 ; AVX2-NEXT: vaddps %ymm1, %ymm0, %ymm0
804 ; AVX512-LABEL: test_arg_v8f32:
806 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm1
807 ; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
809 %1 = load <8 x float>, <8 x float>* %src, align 32, !nontemporal !1
810 %2 = fadd <8 x float> %arg, %1
814 define <8 x i32> @test_arg_v8i32(<8 x i32> %arg, <8 x i32>* %src) {
815 ; SSE2-LABEL: test_arg_v8i32:
817 ; SSE2-NEXT: paddd (%rdi), %xmm0
818 ; SSE2-NEXT: paddd 16(%rdi), %xmm1
821 ; SSE41-LABEL: test_arg_v8i32:
823 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm2
824 ; SSE41-NEXT: movntdqa (%rdi), %xmm3
825 ; SSE41-NEXT: paddd %xmm3, %xmm0
826 ; SSE41-NEXT: paddd %xmm2, %xmm1
829 ; AVX1-LABEL: test_arg_v8i32:
831 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
832 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
833 ; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
834 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm2
835 ; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
836 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
839 ; AVX2-LABEL: test_arg_v8i32:
841 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
842 ; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
845 ; AVX512-LABEL: test_arg_v8i32:
847 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm1
848 ; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
850 %1 = load <8 x i32>, <8 x i32>* %src, align 32, !nontemporal !1
851 %2 = add <8 x i32> %arg, %1
855 define <4 x double> @test_arg_v4f64(<4 x double> %arg, <4 x double>* %src) {
856 ; SSE2-LABEL: test_arg_v4f64:
858 ; SSE2-NEXT: addpd (%rdi), %xmm0
859 ; SSE2-NEXT: addpd 16(%rdi), %xmm1
862 ; SSE41-LABEL: test_arg_v4f64:
864 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm2
865 ; SSE41-NEXT: movntdqa (%rdi), %xmm3
866 ; SSE41-NEXT: addpd %xmm3, %xmm0
867 ; SSE41-NEXT: addpd %xmm2, %xmm1
870 ; AVX1-LABEL: test_arg_v4f64:
872 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm1
873 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
874 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
875 ; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0
878 ; AVX2-LABEL: test_arg_v4f64:
880 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
881 ; AVX2-NEXT: vaddpd %ymm1, %ymm0, %ymm0
884 ; AVX512-LABEL: test_arg_v4f64:
886 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm1
887 ; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
889 %1 = load <4 x double>, <4 x double>* %src, align 32, !nontemporal !1
890 %2 = fadd <4 x double> %arg, %1
894 define <4 x i64> @test_arg_v4i64(<4 x i64> %arg, <4 x i64>* %src) {
895 ; SSE2-LABEL: test_arg_v4i64:
897 ; SSE2-NEXT: paddq (%rdi), %xmm0
898 ; SSE2-NEXT: paddq 16(%rdi), %xmm1
901 ; SSE41-LABEL: test_arg_v4i64:
903 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm2
904 ; SSE41-NEXT: movntdqa (%rdi), %xmm3
905 ; SSE41-NEXT: paddq %xmm3, %xmm0
906 ; SSE41-NEXT: paddq %xmm2, %xmm1
909 ; AVX1-LABEL: test_arg_v4i64:
911 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
912 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
913 ; AVX1-NEXT: vpaddq %xmm1, %xmm2, %xmm1
914 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm2
915 ; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
916 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
919 ; AVX2-LABEL: test_arg_v4i64:
921 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
922 ; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
925 ; AVX512-LABEL: test_arg_v4i64:
927 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm1
928 ; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0
930 %1 = load <4 x i64>, <4 x i64>* %src, align 32, !nontemporal !1
931 %2 = add <4 x i64> %arg, %1
935 define <16 x i16> @test_arg_v16i16(<16 x i16> %arg, <16 x i16>* %src) {
936 ; SSE2-LABEL: test_arg_v16i16:
938 ; SSE2-NEXT: paddw (%rdi), %xmm0
939 ; SSE2-NEXT: paddw 16(%rdi), %xmm1
942 ; SSE41-LABEL: test_arg_v16i16:
944 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm2
945 ; SSE41-NEXT: movntdqa (%rdi), %xmm3
946 ; SSE41-NEXT: paddw %xmm3, %xmm0
947 ; SSE41-NEXT: paddw %xmm2, %xmm1
950 ; AVX1-LABEL: test_arg_v16i16:
952 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
953 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
954 ; AVX1-NEXT: vpaddw %xmm1, %xmm2, %xmm1
955 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm2
956 ; AVX1-NEXT: vpaddw %xmm2, %xmm0, %xmm0
957 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
960 ; AVX2-LABEL: test_arg_v16i16:
962 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
963 ; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
966 ; AVX512-LABEL: test_arg_v16i16:
968 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm1
969 ; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0
971 %1 = load <16 x i16>, <16 x i16>* %src, align 32, !nontemporal !1
972 %2 = add <16 x i16> %arg, %1
976 define <32 x i8> @test_arg_v32i8(<32 x i8> %arg, <32 x i8>* %src) {
977 ; SSE2-LABEL: test_arg_v32i8:
979 ; SSE2-NEXT: paddb (%rdi), %xmm0
980 ; SSE2-NEXT: paddb 16(%rdi), %xmm1
983 ; SSE41-LABEL: test_arg_v32i8:
985 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm2
986 ; SSE41-NEXT: movntdqa (%rdi), %xmm3
987 ; SSE41-NEXT: paddb %xmm3, %xmm0
988 ; SSE41-NEXT: paddb %xmm2, %xmm1
991 ; AVX1-LABEL: test_arg_v32i8:
993 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
994 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
995 ; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
996 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm2
997 ; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
998 ; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
1001 ; AVX2-LABEL: test_arg_v32i8:
1003 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
1004 ; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
1007 ; AVX512-LABEL: test_arg_v32i8:
1009 ; AVX512-NEXT: vmovntdqa (%rdi), %ymm1
1010 ; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0
1012 %1 = load <32 x i8>, <32 x i8>* %src, align 32, !nontemporal !1
1013 %2 = add <32 x i8> %arg, %1
1017 ; And now ZMM versions.
1019 define <16 x float> @test_arg_v16f32(<16 x float> %arg, <16 x float>* %src) {
1020 ; SSE2-LABEL: test_arg_v16f32:
1022 ; SSE2-NEXT: addps (%rdi), %xmm0
1023 ; SSE2-NEXT: addps 16(%rdi), %xmm1
1024 ; SSE2-NEXT: addps 32(%rdi), %xmm2
1025 ; SSE2-NEXT: addps 48(%rdi), %xmm3
1028 ; SSE41-LABEL: test_arg_v16f32:
1030 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm4
1031 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm5
1032 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm6
1033 ; SSE41-NEXT: movntdqa (%rdi), %xmm7
1034 ; SSE41-NEXT: addps %xmm7, %xmm0
1035 ; SSE41-NEXT: addps %xmm6, %xmm1
1036 ; SSE41-NEXT: addps %xmm5, %xmm2
1037 ; SSE41-NEXT: addps %xmm4, %xmm3
1040 ; AVX1-LABEL: test_arg_v16f32:
1042 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm2
1043 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm3
1044 ; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
1045 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
1046 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm4
1047 ; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
1048 ; AVX1-NEXT: vaddps %ymm3, %ymm0, %ymm0
1049 ; AVX1-NEXT: vaddps %ymm2, %ymm1, %ymm1
1052 ; AVX2-LABEL: test_arg_v16f32:
1054 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
1055 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
1056 ; AVX2-NEXT: vaddps %ymm3, %ymm0, %ymm0
1057 ; AVX2-NEXT: vaddps %ymm2, %ymm1, %ymm1
1060 ; AVX512-LABEL: test_arg_v16f32:
1062 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm1
1063 ; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
1065 %1 = load <16 x float>, <16 x float>* %src, align 64, !nontemporal !1
1066 %2 = fadd <16 x float> %arg, %1
1070 define <16 x i32> @test_arg_v16i32(<16 x i32> %arg, <16 x i32>* %src) {
1071 ; SSE2-LABEL: test_arg_v16i32:
1073 ; SSE2-NEXT: paddd (%rdi), %xmm0
1074 ; SSE2-NEXT: paddd 16(%rdi), %xmm1
1075 ; SSE2-NEXT: paddd 32(%rdi), %xmm2
1076 ; SSE2-NEXT: paddd 48(%rdi), %xmm3
1079 ; SSE41-LABEL: test_arg_v16i32:
1081 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm4
1082 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm5
1083 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm6
1084 ; SSE41-NEXT: movntdqa (%rdi), %xmm7
1085 ; SSE41-NEXT: paddd %xmm7, %xmm0
1086 ; SSE41-NEXT: paddd %xmm6, %xmm1
1087 ; SSE41-NEXT: paddd %xmm5, %xmm2
1088 ; SSE41-NEXT: paddd %xmm4, %xmm3
1091 ; AVX1-LABEL: test_arg_v16i32:
1093 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
1094 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
1095 ; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
1096 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
1097 ; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0
1098 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
1099 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
1100 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
1101 ; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
1102 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm3
1103 ; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
1104 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
1107 ; AVX2-LABEL: test_arg_v16i32:
1109 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
1110 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
1111 ; AVX2-NEXT: vpaddd %ymm3, %ymm0, %ymm0
1112 ; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
1115 ; AVX512-LABEL: test_arg_v16i32:
1117 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm1
1118 ; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
1120 %1 = load <16 x i32>, <16 x i32>* %src, align 64, !nontemporal !1
1121 %2 = add <16 x i32> %arg, %1
1125 define <8 x double> @test_arg_v8f64(<8 x double> %arg, <8 x double>* %src) {
1126 ; SSE2-LABEL: test_arg_v8f64:
1128 ; SSE2-NEXT: addpd (%rdi), %xmm0
1129 ; SSE2-NEXT: addpd 16(%rdi), %xmm1
1130 ; SSE2-NEXT: addpd 32(%rdi), %xmm2
1131 ; SSE2-NEXT: addpd 48(%rdi), %xmm3
1134 ; SSE41-LABEL: test_arg_v8f64:
1136 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm4
1137 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm5
1138 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm6
1139 ; SSE41-NEXT: movntdqa (%rdi), %xmm7
1140 ; SSE41-NEXT: addpd %xmm7, %xmm0
1141 ; SSE41-NEXT: addpd %xmm6, %xmm1
1142 ; SSE41-NEXT: addpd %xmm5, %xmm2
1143 ; SSE41-NEXT: addpd %xmm4, %xmm3
1146 ; AVX1-LABEL: test_arg_v8f64:
1148 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm2
1149 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm3
1150 ; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
1151 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
1152 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm4
1153 ; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
1154 ; AVX1-NEXT: vaddpd %ymm3, %ymm0, %ymm0
1155 ; AVX1-NEXT: vaddpd %ymm2, %ymm1, %ymm1
1158 ; AVX2-LABEL: test_arg_v8f64:
1160 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
1161 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
1162 ; AVX2-NEXT: vaddpd %ymm3, %ymm0, %ymm0
1163 ; AVX2-NEXT: vaddpd %ymm2, %ymm1, %ymm1
1166 ; AVX512-LABEL: test_arg_v8f64:
1168 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm1
1169 ; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
1171 %1 = load <8 x double>, <8 x double>* %src, align 64, !nontemporal !1
1172 %2 = fadd <8 x double> %arg, %1
1176 define <8 x i64> @test_arg_v8i64(<8 x i64> %arg, <8 x i64>* %src) {
1177 ; SSE2-LABEL: test_arg_v8i64:
1179 ; SSE2-NEXT: paddq (%rdi), %xmm0
1180 ; SSE2-NEXT: paddq 16(%rdi), %xmm1
1181 ; SSE2-NEXT: paddq 32(%rdi), %xmm2
1182 ; SSE2-NEXT: paddq 48(%rdi), %xmm3
1185 ; SSE41-LABEL: test_arg_v8i64:
1187 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm4
1188 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm5
1189 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm6
1190 ; SSE41-NEXT: movntdqa (%rdi), %xmm7
1191 ; SSE41-NEXT: paddq %xmm7, %xmm0
1192 ; SSE41-NEXT: paddq %xmm6, %xmm1
1193 ; SSE41-NEXT: paddq %xmm5, %xmm2
1194 ; SSE41-NEXT: paddq %xmm4, %xmm3
1197 ; AVX1-LABEL: test_arg_v8i64:
1199 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
1200 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
1201 ; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
1202 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
1203 ; AVX1-NEXT: vpaddq %xmm3, %xmm0, %xmm0
1204 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
1205 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
1206 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
1207 ; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
1208 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm3
1209 ; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1
1210 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
1213 ; AVX2-LABEL: test_arg_v8i64:
1215 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
1216 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
1217 ; AVX2-NEXT: vpaddq %ymm3, %ymm0, %ymm0
1218 ; AVX2-NEXT: vpaddq %ymm2, %ymm1, %ymm1
1221 ; AVX512-LABEL: test_arg_v8i64:
1223 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm1
1224 ; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
1226 %1 = load <8 x i64>, <8 x i64>* %src, align 64, !nontemporal !1
1227 %2 = add <8 x i64> %arg, %1
1231 define <32 x i16> @test_arg_v32i16(<32 x i16> %arg, <32 x i16>* %src) {
1232 ; SSE2-LABEL: test_arg_v32i16:
1234 ; SSE2-NEXT: paddw (%rdi), %xmm0
1235 ; SSE2-NEXT: paddw 16(%rdi), %xmm1
1236 ; SSE2-NEXT: paddw 32(%rdi), %xmm2
1237 ; SSE2-NEXT: paddw 48(%rdi), %xmm3
1240 ; SSE41-LABEL: test_arg_v32i16:
1242 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm4
1243 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm5
1244 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm6
1245 ; SSE41-NEXT: movntdqa (%rdi), %xmm7
1246 ; SSE41-NEXT: paddw %xmm7, %xmm0
1247 ; SSE41-NEXT: paddw %xmm6, %xmm1
1248 ; SSE41-NEXT: paddw %xmm5, %xmm2
1249 ; SSE41-NEXT: paddw %xmm4, %xmm3
1252 ; AVX1-LABEL: test_arg_v32i16:
1254 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
1255 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
1256 ; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2
1257 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
1258 ; AVX1-NEXT: vpaddw %xmm3, %xmm0, %xmm0
1259 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
1260 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
1261 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
1262 ; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2
1263 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm3
1264 ; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm1
1265 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
1268 ; AVX2-LABEL: test_arg_v32i16:
1270 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
1271 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
1272 ; AVX2-NEXT: vpaddw %ymm3, %ymm0, %ymm0
1273 ; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1
1276 ; AVX512F-LABEL: test_arg_v32i16:
1278 ; AVX512F-NEXT: vmovntdqa 32(%rdi), %ymm1
1279 ; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm2
1280 ; AVX512F-NEXT: vpaddw %ymm1, %ymm2, %ymm1
1281 ; AVX512F-NEXT: vmovntdqa (%rdi), %ymm2
1282 ; AVX512F-NEXT: vpaddw %ymm2, %ymm0, %ymm0
1283 ; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
1284 ; AVX512F-NEXT: retq
1286 ; AVX512BW-LABEL: test_arg_v32i16:
1287 ; AVX512BW: # %bb.0:
1288 ; AVX512BW-NEXT: vmovntdqa (%rdi), %zmm1
1289 ; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
1290 ; AVX512BW-NEXT: retq
1292 ; AVX512VL-LABEL: test_arg_v32i16:
1293 ; AVX512VL: # %bb.0:
1294 ; AVX512VL-NEXT: vmovntdqa 32(%rdi), %ymm1
1295 ; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm2
1296 ; AVX512VL-NEXT: vpaddw %ymm1, %ymm2, %ymm1
1297 ; AVX512VL-NEXT: vmovntdqa (%rdi), %ymm2
1298 ; AVX512VL-NEXT: vpaddw %ymm2, %ymm0, %ymm0
1299 ; AVX512VL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
1300 ; AVX512VL-NEXT: retq
1301 %1 = load <32 x i16>, <32 x i16>* %src, align 64, !nontemporal !1
1302 %2 = add <32 x i16> %arg, %1
1306 define <64 x i8> @test_arg_v64i8(<64 x i8> %arg, <64 x i8>* %src) {
1307 ; SSE2-LABEL: test_arg_v64i8:
1309 ; SSE2-NEXT: paddb (%rdi), %xmm0
1310 ; SSE2-NEXT: paddb 16(%rdi), %xmm1
1311 ; SSE2-NEXT: paddb 32(%rdi), %xmm2
1312 ; SSE2-NEXT: paddb 48(%rdi), %xmm3
1315 ; SSE41-LABEL: test_arg_v64i8:
1317 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm4
1318 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm5
1319 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm6
1320 ; SSE41-NEXT: movntdqa (%rdi), %xmm7
1321 ; SSE41-NEXT: paddb %xmm7, %xmm0
1322 ; SSE41-NEXT: paddb %xmm6, %xmm1
1323 ; SSE41-NEXT: paddb %xmm5, %xmm2
1324 ; SSE41-NEXT: paddb %xmm4, %xmm3
1327 ; AVX1-LABEL: test_arg_v64i8:
1329 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
1330 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
1331 ; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2
1332 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
1333 ; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
1334 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
1335 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
1336 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
1337 ; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2
1338 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm3
1339 ; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1
1340 ; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
1343 ; AVX2-LABEL: test_arg_v64i8:
1345 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
1346 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
1347 ; AVX2-NEXT: vpaddb %ymm3, %ymm0, %ymm0
1348 ; AVX2-NEXT: vpaddb %ymm2, %ymm1, %ymm1
1351 ; AVX512F-LABEL: test_arg_v64i8:
1353 ; AVX512F-NEXT: vmovntdqa 32(%rdi), %ymm1
1354 ; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm2
1355 ; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm1
1356 ; AVX512F-NEXT: vmovntdqa (%rdi), %ymm2
1357 ; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0
1358 ; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
1359 ; AVX512F-NEXT: retq
1361 ; AVX512BW-LABEL: test_arg_v64i8:
1362 ; AVX512BW: # %bb.0:
1363 ; AVX512BW-NEXT: vmovntdqa (%rdi), %zmm1
1364 ; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
1365 ; AVX512BW-NEXT: retq
1367 ; AVX512VL-LABEL: test_arg_v64i8:
1368 ; AVX512VL: # %bb.0:
1369 ; AVX512VL-NEXT: vmovntdqa 32(%rdi), %ymm1
1370 ; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm2
1371 ; AVX512VL-NEXT: vpaddb %ymm1, %ymm2, %ymm1
1372 ; AVX512VL-NEXT: vmovntdqa (%rdi), %ymm2
1373 ; AVX512VL-NEXT: vpaddb %ymm2, %ymm0, %ymm0
1374 ; AVX512VL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
1375 ; AVX512VL-NEXT: retq
1376 %1 = load <64 x i8>, <64 x i8>* %src, align 64, !nontemporal !1
1377 %2 = add <64 x i8> %arg, %1
1382 ; Unaligned non-temporal loads (not supported)
1384 define <4 x float> @test_unaligned_v4f32(<4 x float>* %src) {
1385 ; SSE-LABEL: test_unaligned_v4f32:
1387 ; SSE-NEXT: movups (%rdi), %xmm0
1390 ; AVX-LABEL: test_unaligned_v4f32:
1392 ; AVX-NEXT: vmovups (%rdi), %xmm0
1395 ; AVX512-LABEL: test_unaligned_v4f32:
1397 ; AVX512-NEXT: vmovups (%rdi), %xmm0
1399 %1 = load <4 x float>, <4 x float>* %src, align 1, !nontemporal !1
1403 define <4 x i32> @test_unaligned_v4i32(<4 x i32>* %src) {
1404 ; SSE-LABEL: test_unaligned_v4i32:
1406 ; SSE-NEXT: movups (%rdi), %xmm0
1409 ; AVX-LABEL: test_unaligned_v4i32:
1411 ; AVX-NEXT: vmovups (%rdi), %xmm0
1414 ; AVX512-LABEL: test_unaligned_v4i32:
1416 ; AVX512-NEXT: vmovups (%rdi), %xmm0
1418 %1 = load <4 x i32>, <4 x i32>* %src, align 1, !nontemporal !1
1422 define <2 x double> @test_unaligned_v2f64(<2 x double>* %src) {
1423 ; SSE-LABEL: test_unaligned_v2f64:
1425 ; SSE-NEXT: movups (%rdi), %xmm0
1428 ; AVX-LABEL: test_unaligned_v2f64:
1430 ; AVX-NEXT: vmovups (%rdi), %xmm0
1433 ; AVX512-LABEL: test_unaligned_v2f64:
1435 ; AVX512-NEXT: vmovups (%rdi), %xmm0
1437 %1 = load <2 x double>, <2 x double>* %src, align 1, !nontemporal !1
1441 define <2 x i64> @test_unaligned_v2i64(<2 x i64>* %src) {
1442 ; SSE-LABEL: test_unaligned_v2i64:
1444 ; SSE-NEXT: movups (%rdi), %xmm0
1447 ; AVX-LABEL: test_unaligned_v2i64:
1449 ; AVX-NEXT: vmovups (%rdi), %xmm0
1452 ; AVX512-LABEL: test_unaligned_v2i64:
1454 ; AVX512-NEXT: vmovups (%rdi), %xmm0
1456 %1 = load <2 x i64>, <2 x i64>* %src, align 1, !nontemporal !1
1460 define <8 x i16> @test_unaligned_v8i16(<8 x i16>* %src) {
1461 ; SSE-LABEL: test_unaligned_v8i16:
1463 ; SSE-NEXT: movups (%rdi), %xmm0
1466 ; AVX-LABEL: test_unaligned_v8i16:
1468 ; AVX-NEXT: vmovups (%rdi), %xmm0
1471 ; AVX512-LABEL: test_unaligned_v8i16:
1473 ; AVX512-NEXT: vmovups (%rdi), %xmm0
1475 %1 = load <8 x i16>, <8 x i16>* %src, align 1, !nontemporal !1
1479 define <16 x i8> @test_unaligned_v16i8(<16 x i8>* %src) {
1480 ; SSE-LABEL: test_unaligned_v16i8:
1482 ; SSE-NEXT: movups (%rdi), %xmm0
1485 ; AVX-LABEL: test_unaligned_v16i8:
1487 ; AVX-NEXT: vmovups (%rdi), %xmm0
1490 ; AVX512-LABEL: test_unaligned_v16i8:
1492 ; AVX512-NEXT: vmovups (%rdi), %xmm0
1494 %1 = load <16 x i8>, <16 x i8>* %src, align 1, !nontemporal !1
1498 ; And now YMM versions.
1500 define <8 x float> @test_unaligned_v8f32(<8 x float>* %src) {
1501 ; SSE-LABEL: test_unaligned_v8f32:
1503 ; SSE-NEXT: movups (%rdi), %xmm0
1504 ; SSE-NEXT: movups 16(%rdi), %xmm1
1507 ; AVX-LABEL: test_unaligned_v8f32:
1509 ; AVX-NEXT: vmovups (%rdi), %ymm0
1512 ; AVX512-LABEL: test_unaligned_v8f32:
1514 ; AVX512-NEXT: vmovups (%rdi), %ymm0
1516 %1 = load <8 x float>, <8 x float>* %src, align 1, !nontemporal !1
1520 define <8 x i32> @test_unaligned_v8i32(<8 x i32>* %src) {
1521 ; SSE-LABEL: test_unaligned_v8i32:
1523 ; SSE-NEXT: movups (%rdi), %xmm0
1524 ; SSE-NEXT: movups 16(%rdi), %xmm1
1527 ; AVX-LABEL: test_unaligned_v8i32:
1529 ; AVX-NEXT: vmovups (%rdi), %ymm0
1532 ; AVX512-LABEL: test_unaligned_v8i32:
1534 ; AVX512-NEXT: vmovups (%rdi), %ymm0
1536 %1 = load <8 x i32>, <8 x i32>* %src, align 1, !nontemporal !1
1540 define <4 x double> @test_unaligned_v4f64(<4 x double>* %src) {
1541 ; SSE-LABEL: test_unaligned_v4f64:
1543 ; SSE-NEXT: movups (%rdi), %xmm0
1544 ; SSE-NEXT: movups 16(%rdi), %xmm1
1547 ; AVX-LABEL: test_unaligned_v4f64:
1549 ; AVX-NEXT: vmovups (%rdi), %ymm0
1552 ; AVX512-LABEL: test_unaligned_v4f64:
1554 ; AVX512-NEXT: vmovups (%rdi), %ymm0
1556 %1 = load <4 x double>, <4 x double>* %src, align 1, !nontemporal !1
1560 define <4 x i64> @test_unaligned_v4i64(<4 x i64>* %src) {
1561 ; SSE-LABEL: test_unaligned_v4i64:
1563 ; SSE-NEXT: movups (%rdi), %xmm0
1564 ; SSE-NEXT: movups 16(%rdi), %xmm1
1567 ; AVX-LABEL: test_unaligned_v4i64:
1569 ; AVX-NEXT: vmovups (%rdi), %ymm0
1572 ; AVX512-LABEL: test_unaligned_v4i64:
1574 ; AVX512-NEXT: vmovups (%rdi), %ymm0
1576 %1 = load <4 x i64>, <4 x i64>* %src, align 1, !nontemporal !1
1580 define <16 x i16> @test_unaligned_v16i16(<16 x i16>* %src) {
1581 ; SSE-LABEL: test_unaligned_v16i16:
1583 ; SSE-NEXT: movups (%rdi), %xmm0
1584 ; SSE-NEXT: movups 16(%rdi), %xmm1
1587 ; AVX-LABEL: test_unaligned_v16i16:
1589 ; AVX-NEXT: vmovups (%rdi), %ymm0
1592 ; AVX512-LABEL: test_unaligned_v16i16:
1594 ; AVX512-NEXT: vmovups (%rdi), %ymm0
1596 %1 = load <16 x i16>, <16 x i16>* %src, align 1, !nontemporal !1
1600 define <32 x i8> @test_unaligned_v32i8(<32 x i8>* %src) {
1601 ; SSE-LABEL: test_unaligned_v32i8:
1603 ; SSE-NEXT: movups (%rdi), %xmm0
1604 ; SSE-NEXT: movups 16(%rdi), %xmm1
1607 ; AVX-LABEL: test_unaligned_v32i8:
1609 ; AVX-NEXT: vmovups (%rdi), %ymm0
1612 ; AVX512-LABEL: test_unaligned_v32i8:
1614 ; AVX512-NEXT: vmovups (%rdi), %ymm0
1616 %1 = load <32 x i8>, <32 x i8>* %src, align 1, !nontemporal !1
1620 ; And now ZMM versions.
1622 define <16 x float> @test_unaligned_v16f32(<16 x float>* %src) {
1623 ; SSE-LABEL: test_unaligned_v16f32:
1625 ; SSE-NEXT: movups (%rdi), %xmm0
1626 ; SSE-NEXT: movups 16(%rdi), %xmm1
1627 ; SSE-NEXT: movups 32(%rdi), %xmm2
1628 ; SSE-NEXT: movups 48(%rdi), %xmm3
1631 ; AVX-LABEL: test_unaligned_v16f32:
1633 ; AVX-NEXT: vmovups (%rdi), %ymm0
1634 ; AVX-NEXT: vmovups 32(%rdi), %ymm1
1637 ; AVX512-LABEL: test_unaligned_v16f32:
1639 ; AVX512-NEXT: vmovups (%rdi), %zmm0
1641 %1 = load <16 x float>, <16 x float>* %src, align 1, !nontemporal !1
1645 define <16 x i32> @test_unaligned_v16i32(<16 x i32>* %src) {
1646 ; SSE-LABEL: test_unaligned_v16i32:
1648 ; SSE-NEXT: movups (%rdi), %xmm0
1649 ; SSE-NEXT: movups 16(%rdi), %xmm1
1650 ; SSE-NEXT: movups 32(%rdi), %xmm2
1651 ; SSE-NEXT: movups 48(%rdi), %xmm3
1654 ; AVX-LABEL: test_unaligned_v16i32:
1656 ; AVX-NEXT: vmovups (%rdi), %ymm0
1657 ; AVX-NEXT: vmovups 32(%rdi), %ymm1
1660 ; AVX512-LABEL: test_unaligned_v16i32:
1662 ; AVX512-NEXT: vmovups (%rdi), %zmm0
1664 %1 = load <16 x i32>, <16 x i32>* %src, align 1, !nontemporal !1
1668 define <8 x double> @test_unaligned_v8f64(<8 x double>* %src) {
1669 ; SSE-LABEL: test_unaligned_v8f64:
1671 ; SSE-NEXT: movups (%rdi), %xmm0
1672 ; SSE-NEXT: movups 16(%rdi), %xmm1
1673 ; SSE-NEXT: movups 32(%rdi), %xmm2
1674 ; SSE-NEXT: movups 48(%rdi), %xmm3
1677 ; AVX-LABEL: test_unaligned_v8f64:
1679 ; AVX-NEXT: vmovups (%rdi), %ymm0
1680 ; AVX-NEXT: vmovups 32(%rdi), %ymm1
1683 ; AVX512-LABEL: test_unaligned_v8f64:
1685 ; AVX512-NEXT: vmovups (%rdi), %zmm0
1687 %1 = load <8 x double>, <8 x double>* %src, align 1, !nontemporal !1
1691 define <8 x i64> @test_unaligned_v8i64(<8 x i64>* %src) {
1692 ; SSE-LABEL: test_unaligned_v8i64:
1694 ; SSE-NEXT: movups (%rdi), %xmm0
1695 ; SSE-NEXT: movups 16(%rdi), %xmm1
1696 ; SSE-NEXT: movups 32(%rdi), %xmm2
1697 ; SSE-NEXT: movups 48(%rdi), %xmm3
1700 ; AVX-LABEL: test_unaligned_v8i64:
1702 ; AVX-NEXT: vmovups (%rdi), %ymm0
1703 ; AVX-NEXT: vmovups 32(%rdi), %ymm1
1706 ; AVX512-LABEL: test_unaligned_v8i64:
1708 ; AVX512-NEXT: vmovups (%rdi), %zmm0
1710 %1 = load <8 x i64>, <8 x i64>* %src, align 1, !nontemporal !1
1714 define <32 x i16> @test_unaligned_v32i16(<32 x i16>* %src) {
1715 ; SSE-LABEL: test_unaligned_v32i16:
1717 ; SSE-NEXT: movups (%rdi), %xmm0
1718 ; SSE-NEXT: movups 16(%rdi), %xmm1
1719 ; SSE-NEXT: movups 32(%rdi), %xmm2
1720 ; SSE-NEXT: movups 48(%rdi), %xmm3
1723 ; AVX-LABEL: test_unaligned_v32i16:
1725 ; AVX-NEXT: vmovups (%rdi), %ymm0
1726 ; AVX-NEXT: vmovups 32(%rdi), %ymm1
1729 ; AVX512-LABEL: test_unaligned_v32i16:
1731 ; AVX512-NEXT: vmovups (%rdi), %zmm0
1733 %1 = load <32 x i16>, <32 x i16>* %src, align 1, !nontemporal !1
1737 define <64 x i8> @test_unaligned_v64i8(<64 x i8>* %src) {
1738 ; SSE-LABEL: test_unaligned_v64i8:
1740 ; SSE-NEXT: movups (%rdi), %xmm0
1741 ; SSE-NEXT: movups 16(%rdi), %xmm1
1742 ; SSE-NEXT: movups 32(%rdi), %xmm2
1743 ; SSE-NEXT: movups 48(%rdi), %xmm3
1746 ; AVX-LABEL: test_unaligned_v64i8:
1748 ; AVX-NEXT: vmovups (%rdi), %ymm0
1749 ; AVX-NEXT: vmovups 32(%rdi), %ymm1
1752 ; AVX512-LABEL: test_unaligned_v64i8:
1754 ; AVX512-NEXT: vmovups (%rdi), %zmm0
1756 %1 = load <64 x i8>, <64 x i8>* %src, align 1, !nontemporal !1
1760 define <16 x i32> @test_masked_v16i32(i8 * %addr, <16 x i32> %old, <16 x i32> %mask1) {
1761 ; SSE2-LABEL: test_masked_v16i32:
1763 ; SSE2-NEXT: pxor %xmm8, %xmm8
1764 ; SSE2-NEXT: pcmpeqd %xmm8, %xmm7
1765 ; SSE2-NEXT: pcmpeqd %xmm8, %xmm6
1766 ; SSE2-NEXT: pcmpeqd %xmm8, %xmm5
1767 ; SSE2-NEXT: pcmpeqd %xmm8, %xmm4
1768 ; SSE2-NEXT: pand %xmm4, %xmm0
1769 ; SSE2-NEXT: pandn (%rdi), %xmm4
1770 ; SSE2-NEXT: por %xmm4, %xmm0
1771 ; SSE2-NEXT: pand %xmm5, %xmm1
1772 ; SSE2-NEXT: pandn 16(%rdi), %xmm5
1773 ; SSE2-NEXT: por %xmm5, %xmm1
1774 ; SSE2-NEXT: pand %xmm6, %xmm2
1775 ; SSE2-NEXT: pandn 32(%rdi), %xmm6
1776 ; SSE2-NEXT: por %xmm6, %xmm2
1777 ; SSE2-NEXT: pand %xmm7, %xmm3
1778 ; SSE2-NEXT: pandn 48(%rdi), %xmm7
1779 ; SSE2-NEXT: por %xmm7, %xmm3
1782 ; SSE41-LABEL: test_masked_v16i32:
1784 ; SSE41-NEXT: movdqa %xmm7, %xmm9
1785 ; SSE41-NEXT: movdqa %xmm6, %xmm10
1786 ; SSE41-NEXT: movdqa %xmm5, %xmm11
1787 ; SSE41-NEXT: movdqa %xmm0, %xmm8
1788 ; SSE41-NEXT: pxor %xmm0, %xmm0
1789 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm9
1790 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
1791 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
1792 ; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
1793 ; SSE41-NEXT: movntdqa 48(%rdi), %xmm4
1794 ; SSE41-NEXT: movntdqa 32(%rdi), %xmm7
1795 ; SSE41-NEXT: movntdqa 16(%rdi), %xmm6
1796 ; SSE41-NEXT: movntdqa (%rdi), %xmm5
1797 ; SSE41-NEXT: blendvps %xmm0, %xmm8, %xmm5
1798 ; SSE41-NEXT: movdqa %xmm11, %xmm0
1799 ; SSE41-NEXT: blendvps %xmm0, %xmm1, %xmm6
1800 ; SSE41-NEXT: movdqa %xmm10, %xmm0
1801 ; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm7
1802 ; SSE41-NEXT: movdqa %xmm9, %xmm0
1803 ; SSE41-NEXT: blendvps %xmm0, %xmm3, %xmm4
1804 ; SSE41-NEXT: movaps %xmm5, %xmm0
1805 ; SSE41-NEXT: movaps %xmm6, %xmm1
1806 ; SSE41-NEXT: movaps %xmm7, %xmm2
1807 ; SSE41-NEXT: movaps %xmm4, %xmm3
1810 ; AVX1-LABEL: test_masked_v16i32:
1812 ; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4
1813 ; AVX1-NEXT: vpxor %xmm5, %xmm5, %xmm5
1814 ; AVX1-NEXT: vpcmpeqd %xmm5, %xmm4, %xmm4
1815 ; AVX1-NEXT: vpcmpeqd %xmm5, %xmm3, %xmm3
1816 ; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
1817 ; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
1818 ; AVX1-NEXT: vpcmpeqd %xmm5, %xmm4, %xmm4
1819 ; AVX1-NEXT: vpcmpeqd %xmm5, %xmm2, %xmm2
1820 ; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
1821 ; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm4
1822 ; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm5
1823 ; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm4, %ymm4
1824 ; AVX1-NEXT: vblendvps %ymm3, %ymm1, %ymm4, %ymm1
1825 ; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
1826 ; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm4
1827 ; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
1828 ; AVX1-NEXT: vblendvps %ymm2, %ymm0, %ymm3, %ymm0
1831 ; AVX2-LABEL: test_masked_v16i32:
1833 ; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4
1834 ; AVX2-NEXT: vpcmpeqd %ymm4, %ymm3, %ymm3
1835 ; AVX2-NEXT: vpcmpeqd %ymm4, %ymm2, %ymm2
1836 ; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm4
1837 ; AVX2-NEXT: vblendvps %ymm3, %ymm1, %ymm4, %ymm1
1838 ; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
1839 ; AVX2-NEXT: vblendvps %ymm2, %ymm0, %ymm3, %ymm0
1842 ; AVX512-LABEL: test_masked_v16i32:
1844 ; AVX512-NEXT: vptestmd %zmm1, %zmm1, %k1
1845 ; AVX512-NEXT: vmovntdqa (%rdi), %zmm1
1846 ; AVX512-NEXT: vmovdqa32 %zmm1, %zmm0 {%k1}
1848 %mask = icmp ne <16 x i32> %mask1, zeroinitializer
1849 %vaddr = bitcast i8* %addr to <16 x i32>*
1850 %r = load <16 x i32>, <16 x i32>* %vaddr, align 64, !nontemporal !1
1851 %res = select <16 x i1> %mask, <16 x i32> %r, <16 x i32> %old
1855 ; Reduced from https://bugs.chromium.org/p/oss-fuzz/issues/detail?id=10895
1856 define i32 @PR39256(float* %ptr) {
1857 ; SSE-LABEL: PR39256:
1858 ; SSE: # %bb.0: # %entry
1859 ; SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
1860 ; SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
1861 ; SSE-NEXT: setb (%rax)
1862 ; SSE-NEXT: movl $-2147483648, %eax # imm = 0x80000000
1865 ; AVX-LABEL: PR39256:
1866 ; AVX: # %bb.0: # %entry
1867 ; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
1868 ; AVX-NEXT: vucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
1869 ; AVX-NEXT: setb (%rax)
1870 ; AVX-NEXT: movl $-2147483648, %eax # imm = 0x80000000
1873 ; AVX512-LABEL: PR39256:
1874 ; AVX512: # %bb.0: # %entry
1875 ; AVX512-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
1876 ; AVX512-NEXT: vucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
1877 ; AVX512-NEXT: setb (%rax)
1878 ; AVX512-NEXT: movl $-2147483648, %eax # imm = 0x80000000
1881 %l = load float, float* %ptr, !nontemporal !1
1882 %C = fcmp ult float %l, 0x36A0000000000000
1883 store i1 %C, i1* undef