Run DCE after a LoopFlatten test to reduce spurious output [nfc]
[llvm-project.git] / llvm / test / CodeGen / X86 / fast-isel-nontemporal.ll
blobc13fdae540d0b8d7cb2c226952e734908f90a9ed
1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown -mattr=+mmx,+sse2 -fast-isel -O0 | FileCheck %s --check-prefixes=ALL,SSE,SSE2
3 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown -mattr=+mmx,+sse4a -fast-isel -O0 | FileCheck %s --check-prefixes=ALL,SSE,SSE4A
4 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown -mattr=+mmx,+sse4.1 -fast-isel -O0 | FileCheck %s --check-prefixes=ALL,SSE,SSE41
5 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown -mattr=+mmx,+avx -fast-isel -O0 | FileCheck %s --check-prefixes=ALL,AVX,AVX1
6 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown -mattr=+mmx,+avx2 -fast-isel -O0 | FileCheck %s --check-prefixes=ALL,AVX,AVX2
7 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown -mattr=+mmx,+avx512vl -fast-isel -O0 | FileCheck %s --check-prefixes=ALL,AVX512
8 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown -mattr=+mmx,+avx512f -fast-isel -O0 | FileCheck %s --check-prefixes=ALL,AVX512
9 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown -mattr=+mmx,+avx512bw -fast-isel -O0 | FileCheck %s --check-prefixes=ALL,AVX512
12 ; Scalar Stores
15 define void @test_nti32(ptr nocapture %ptr, i32 %X) {
16 ; ALL-LABEL: test_nti32:
17 ; ALL:       # %bb.0: # %entry
18 ; ALL-NEXT:    movntil %esi, (%rdi)
19 ; ALL-NEXT:    retq
20 entry:
21   store i32 %X, ptr %ptr, align 4, !nontemporal !1
22   ret void
25 define void @test_nti64(ptr nocapture %ptr, i64 %X) {
26 ; ALL-LABEL: test_nti64:
27 ; ALL:       # %bb.0: # %entry
28 ; ALL-NEXT:    movntiq %rsi, (%rdi)
29 ; ALL-NEXT:    retq
30 entry:
31   store i64 %X, ptr %ptr, align 8, !nontemporal !1
32   ret void
35 define void @test_ntfloat(ptr nocapture %ptr, float %X) {
36 ; SSE2-LABEL: test_ntfloat:
37 ; SSE2:       # %bb.0: # %entry
38 ; SSE2-NEXT:    movss %xmm0, (%rdi)
39 ; SSE2-NEXT:    retq
41 ; SSE4A-LABEL: test_ntfloat:
42 ; SSE4A:       # %bb.0: # %entry
43 ; SSE4A-NEXT:    movntss %xmm0, (%rdi)
44 ; SSE4A-NEXT:    retq
46 ; SSE41-LABEL: test_ntfloat:
47 ; SSE41:       # %bb.0: # %entry
48 ; SSE41-NEXT:    movss %xmm0, (%rdi)
49 ; SSE41-NEXT:    retq
51 ; AVX-LABEL: test_ntfloat:
52 ; AVX:       # %bb.0: # %entry
53 ; AVX-NEXT:    vmovss %xmm0, (%rdi)
54 ; AVX-NEXT:    retq
56 ; AVX512-LABEL: test_ntfloat:
57 ; AVX512:       # %bb.0: # %entry
58 ; AVX512-NEXT:    vmovss %xmm0, (%rdi)
59 ; AVX512-NEXT:    retq
60 entry:
61   store float %X, ptr %ptr, align 4, !nontemporal !1
62   ret void
65 define void @test_ntdouble(ptr nocapture %ptr, double %X) {
66 ; SSE2-LABEL: test_ntdouble:
67 ; SSE2:       # %bb.0: # %entry
68 ; SSE2-NEXT:    movsd %xmm0, (%rdi)
69 ; SSE2-NEXT:    retq
71 ; SSE4A-LABEL: test_ntdouble:
72 ; SSE4A:       # %bb.0: # %entry
73 ; SSE4A-NEXT:    movntsd %xmm0, (%rdi)
74 ; SSE4A-NEXT:    retq
76 ; SSE41-LABEL: test_ntdouble:
77 ; SSE41:       # %bb.0: # %entry
78 ; SSE41-NEXT:    movsd %xmm0, (%rdi)
79 ; SSE41-NEXT:    retq
81 ; AVX-LABEL: test_ntdouble:
82 ; AVX:       # %bb.0: # %entry
83 ; AVX-NEXT:    vmovsd %xmm0, (%rdi)
84 ; AVX-NEXT:    retq
86 ; AVX512-LABEL: test_ntdouble:
87 ; AVX512:       # %bb.0: # %entry
88 ; AVX512-NEXT:    vmovsd %xmm0, (%rdi)
89 ; AVX512-NEXT:    retq
90 entry:
91   store double %X, ptr %ptr, align 8, !nontemporal !1
92   ret void
96 ; MMX Store
99 define void @test_mmx(ptr nocapture %a0, ptr nocapture %a1) {
100 ; ALL-LABEL: test_mmx:
101 ; ALL:       # %bb.0: # %entry
102 ; ALL-NEXT:    movq (%rdi), %mm0
103 ; ALL-NEXT:    psrlq $3, %mm0
104 ; ALL-NEXT:    movntq %mm0, (%rsi)
105 ; ALL-NEXT:    retq
106 entry:
107   %0 = load x86_mmx, ptr %a0
108   %1 = call x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx %0, i32 3)
109   store x86_mmx %1, ptr %a1, align 8, !nontemporal !1
110   ret void
112 declare x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx, i32) nounwind readnone
115 ; 128-bit Vector Stores
118 define void @test_nt4xfloat(ptr nocapture %ptr, <4 x float> %X) {
119 ; SSE-LABEL: test_nt4xfloat:
120 ; SSE:       # %bb.0: # %entry
121 ; SSE-NEXT:    movntps %xmm0, (%rdi)
122 ; SSE-NEXT:    retq
124 ; AVX-LABEL: test_nt4xfloat:
125 ; AVX:       # %bb.0: # %entry
126 ; AVX-NEXT:    vmovntps %xmm0, (%rdi)
127 ; AVX-NEXT:    retq
129 ; AVX512-LABEL: test_nt4xfloat:
130 ; AVX512:       # %bb.0: # %entry
131 ; AVX512-NEXT:    vmovntps %xmm0, (%rdi)
132 ; AVX512-NEXT:    retq
133 entry:
134   store <4 x float> %X, ptr %ptr, align 16, !nontemporal !1
135   ret void
138 define void @test_nt2xdouble(ptr nocapture %ptr, <2 x double> %X) {
139 ; SSE-LABEL: test_nt2xdouble:
140 ; SSE:       # %bb.0: # %entry
141 ; SSE-NEXT:    movntpd %xmm0, (%rdi)
142 ; SSE-NEXT:    retq
144 ; AVX-LABEL: test_nt2xdouble:
145 ; AVX:       # %bb.0: # %entry
146 ; AVX-NEXT:    vmovntpd %xmm0, (%rdi)
147 ; AVX-NEXT:    retq
149 ; AVX512-LABEL: test_nt2xdouble:
150 ; AVX512:       # %bb.0: # %entry
151 ; AVX512-NEXT:    vmovntpd %xmm0, (%rdi)
152 ; AVX512-NEXT:    retq
153 entry:
154   store <2 x double> %X, ptr %ptr, align 16, !nontemporal !1
155   ret void
158 define void @test_nt16xi8(ptr nocapture %ptr, <16 x i8> %X) {
159 ; SSE-LABEL: test_nt16xi8:
160 ; SSE:       # %bb.0: # %entry
161 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
162 ; SSE-NEXT:    retq
164 ; AVX-LABEL: test_nt16xi8:
165 ; AVX:       # %bb.0: # %entry
166 ; AVX-NEXT:    vmovntdq %xmm0, (%rdi)
167 ; AVX-NEXT:    retq
169 ; AVX512-LABEL: test_nt16xi8:
170 ; AVX512:       # %bb.0: # %entry
171 ; AVX512-NEXT:    vmovntdq %xmm0, (%rdi)
172 ; AVX512-NEXT:    retq
173 entry:
174   store <16 x i8> %X, ptr %ptr, align 16, !nontemporal !1
175   ret void
178 define void @test_nt8xi16(ptr nocapture %ptr, <8 x i16> %X) {
179 ; SSE-LABEL: test_nt8xi16:
180 ; SSE:       # %bb.0: # %entry
181 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
182 ; SSE-NEXT:    retq
184 ; AVX-LABEL: test_nt8xi16:
185 ; AVX:       # %bb.0: # %entry
186 ; AVX-NEXT:    vmovntdq %xmm0, (%rdi)
187 ; AVX-NEXT:    retq
189 ; AVX512-LABEL: test_nt8xi16:
190 ; AVX512:       # %bb.0: # %entry
191 ; AVX512-NEXT:    vmovntdq %xmm0, (%rdi)
192 ; AVX512-NEXT:    retq
193 entry:
194   store <8 x i16> %X, ptr %ptr, align 16, !nontemporal !1
195   ret void
198 define void @test_nt4xi32(ptr nocapture %ptr, <4 x i32> %X) {
199 ; SSE-LABEL: test_nt4xi32:
200 ; SSE:       # %bb.0: # %entry
201 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
202 ; SSE-NEXT:    retq
204 ; AVX-LABEL: test_nt4xi32:
205 ; AVX:       # %bb.0: # %entry
206 ; AVX-NEXT:    vmovntdq %xmm0, (%rdi)
207 ; AVX-NEXT:    retq
209 ; AVX512-LABEL: test_nt4xi32:
210 ; AVX512:       # %bb.0: # %entry
211 ; AVX512-NEXT:    vmovntdq %xmm0, (%rdi)
212 ; AVX512-NEXT:    retq
213 entry:
214   store <4 x i32> %X, ptr %ptr, align 16, !nontemporal !1
215   ret void
218 define void @test_nt2xi64(ptr nocapture %ptr, <2 x i64> %X) {
219 ; SSE-LABEL: test_nt2xi64:
220 ; SSE:       # %bb.0: # %entry
221 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
222 ; SSE-NEXT:    retq
224 ; AVX-LABEL: test_nt2xi64:
225 ; AVX:       # %bb.0: # %entry
226 ; AVX-NEXT:    vmovntdq %xmm0, (%rdi)
227 ; AVX-NEXT:    retq
229 ; AVX512-LABEL: test_nt2xi64:
230 ; AVX512:       # %bb.0: # %entry
231 ; AVX512-NEXT:    vmovntdq %xmm0, (%rdi)
232 ; AVX512-NEXT:    retq
233 entry:
234   store <2 x i64> %X, ptr %ptr, align 16, !nontemporal !1
235   ret void
239 ; 128-bit Vector Loads
242 define <4 x float> @test_load_nt4xfloat(ptr nocapture %ptr) {
243 ; SSE2-LABEL: test_load_nt4xfloat:
244 ; SSE2:       # %bb.0: # %entry
245 ; SSE2-NEXT:    movaps (%rdi), %xmm0
246 ; SSE2-NEXT:    retq
248 ; SSE4A-LABEL: test_load_nt4xfloat:
249 ; SSE4A:       # %bb.0: # %entry
250 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
251 ; SSE4A-NEXT:    retq
253 ; SSE41-LABEL: test_load_nt4xfloat:
254 ; SSE41:       # %bb.0: # %entry
255 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
256 ; SSE41-NEXT:    retq
258 ; AVX-LABEL: test_load_nt4xfloat:
259 ; AVX:       # %bb.0: # %entry
260 ; AVX-NEXT:    vmovntdqa (%rdi), %xmm0
261 ; AVX-NEXT:    retq
263 ; AVX512-LABEL: test_load_nt4xfloat:
264 ; AVX512:       # %bb.0: # %entry
265 ; AVX512-NEXT:    vmovntdqa (%rdi), %xmm0
266 ; AVX512-NEXT:    retq
267 entry:
268   %0 = load <4 x float>, ptr %ptr, align 16, !nontemporal !1
269   ret <4 x float> %0
272 define <2 x double> @test_load_nt2xdouble(ptr nocapture %ptr) {
273 ; SSE2-LABEL: test_load_nt2xdouble:
274 ; SSE2:       # %bb.0: # %entry
275 ; SSE2-NEXT:    movapd (%rdi), %xmm0
276 ; SSE2-NEXT:    retq
278 ; SSE4A-LABEL: test_load_nt2xdouble:
279 ; SSE4A:       # %bb.0: # %entry
280 ; SSE4A-NEXT:    movapd (%rdi), %xmm0
281 ; SSE4A-NEXT:    retq
283 ; SSE41-LABEL: test_load_nt2xdouble:
284 ; SSE41:       # %bb.0: # %entry
285 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
286 ; SSE41-NEXT:    retq
288 ; AVX-LABEL: test_load_nt2xdouble:
289 ; AVX:       # %bb.0: # %entry
290 ; AVX-NEXT:    vmovntdqa (%rdi), %xmm0
291 ; AVX-NEXT:    retq
293 ; AVX512-LABEL: test_load_nt2xdouble:
294 ; AVX512:       # %bb.0: # %entry
295 ; AVX512-NEXT:    vmovntdqa (%rdi), %xmm0
296 ; AVX512-NEXT:    retq
297 entry:
298   %0 = load <2 x double>, ptr %ptr, align 16, !nontemporal !1
299   ret <2 x double> %0
302 define <16 x i8> @test_load_nt16xi8(ptr nocapture %ptr) {
303 ; SSE2-LABEL: test_load_nt16xi8:
304 ; SSE2:       # %bb.0: # %entry
305 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
306 ; SSE2-NEXT:    retq
308 ; SSE4A-LABEL: test_load_nt16xi8:
309 ; SSE4A:       # %bb.0: # %entry
310 ; SSE4A-NEXT:    movdqa (%rdi), %xmm0
311 ; SSE4A-NEXT:    retq
313 ; SSE41-LABEL: test_load_nt16xi8:
314 ; SSE41:       # %bb.0: # %entry
315 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
316 ; SSE41-NEXT:    retq
318 ; AVX-LABEL: test_load_nt16xi8:
319 ; AVX:       # %bb.0: # %entry
320 ; AVX-NEXT:    vmovntdqa (%rdi), %xmm0
321 ; AVX-NEXT:    retq
323 ; AVX512-LABEL: test_load_nt16xi8:
324 ; AVX512:       # %bb.0: # %entry
325 ; AVX512-NEXT:    vmovntdqa (%rdi), %xmm0
326 ; AVX512-NEXT:    retq
327 entry:
328   %0 = load <16 x i8>, ptr %ptr, align 16, !nontemporal !1
329   ret <16 x i8> %0
332 define <8 x i16> @test_load_nt8xi16(ptr nocapture %ptr) {
333 ; SSE2-LABEL: test_load_nt8xi16:
334 ; SSE2:       # %bb.0: # %entry
335 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
336 ; SSE2-NEXT:    retq
338 ; SSE4A-LABEL: test_load_nt8xi16:
339 ; SSE4A:       # %bb.0: # %entry
340 ; SSE4A-NEXT:    movdqa (%rdi), %xmm0
341 ; SSE4A-NEXT:    retq
343 ; SSE41-LABEL: test_load_nt8xi16:
344 ; SSE41:       # %bb.0: # %entry
345 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
346 ; SSE41-NEXT:    retq
348 ; AVX-LABEL: test_load_nt8xi16:
349 ; AVX:       # %bb.0: # %entry
350 ; AVX-NEXT:    vmovntdqa (%rdi), %xmm0
351 ; AVX-NEXT:    retq
353 ; AVX512-LABEL: test_load_nt8xi16:
354 ; AVX512:       # %bb.0: # %entry
355 ; AVX512-NEXT:    vmovntdqa (%rdi), %xmm0
356 ; AVX512-NEXT:    retq
357 entry:
358   %0 = load <8 x i16>, ptr %ptr, align 16, !nontemporal !1
359   ret <8 x i16> %0
362 define <4 x i32> @test_load_nt4xi32(ptr nocapture %ptr) {
363 ; SSE2-LABEL: test_load_nt4xi32:
364 ; SSE2:       # %bb.0: # %entry
365 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
366 ; SSE2-NEXT:    retq
368 ; SSE4A-LABEL: test_load_nt4xi32:
369 ; SSE4A:       # %bb.0: # %entry
370 ; SSE4A-NEXT:    movdqa (%rdi), %xmm0
371 ; SSE4A-NEXT:    retq
373 ; SSE41-LABEL: test_load_nt4xi32:
374 ; SSE41:       # %bb.0: # %entry
375 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
376 ; SSE41-NEXT:    retq
378 ; AVX-LABEL: test_load_nt4xi32:
379 ; AVX:       # %bb.0: # %entry
380 ; AVX-NEXT:    vmovntdqa (%rdi), %xmm0
381 ; AVX-NEXT:    retq
383 ; AVX512-LABEL: test_load_nt4xi32:
384 ; AVX512:       # %bb.0: # %entry
385 ; AVX512-NEXT:    vmovntdqa (%rdi), %xmm0
386 ; AVX512-NEXT:    retq
387 entry:
388   %0 = load <4 x i32>, ptr %ptr, align 16, !nontemporal !1
389   ret <4 x i32> %0
392 define <2 x i64> @test_load_nt2xi64(ptr nocapture %ptr) {
393 ; SSE2-LABEL: test_load_nt2xi64:
394 ; SSE2:       # %bb.0: # %entry
395 ; SSE2-NEXT:    movdqa (%rdi), %xmm0
396 ; SSE2-NEXT:    retq
398 ; SSE4A-LABEL: test_load_nt2xi64:
399 ; SSE4A:       # %bb.0: # %entry
400 ; SSE4A-NEXT:    movdqa (%rdi), %xmm0
401 ; SSE4A-NEXT:    retq
403 ; SSE41-LABEL: test_load_nt2xi64:
404 ; SSE41:       # %bb.0: # %entry
405 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
406 ; SSE41-NEXT:    retq
408 ; AVX-LABEL: test_load_nt2xi64:
409 ; AVX:       # %bb.0: # %entry
410 ; AVX-NEXT:    vmovntdqa (%rdi), %xmm0
411 ; AVX-NEXT:    retq
413 ; AVX512-LABEL: test_load_nt2xi64:
414 ; AVX512:       # %bb.0: # %entry
415 ; AVX512-NEXT:    vmovntdqa (%rdi), %xmm0
416 ; AVX512-NEXT:    retq
417 entry:
418   %0 = load <2 x i64>, ptr %ptr, align 16, !nontemporal !1
419   ret <2 x i64> %0
423 ; 256-bit Vector Stores
426 define void @test_nt8xfloat(ptr nocapture %ptr, <8 x float> %X) {
427 ; SSE-LABEL: test_nt8xfloat:
428 ; SSE:       # %bb.0: # %entry
429 ; SSE-NEXT:    movntps %xmm0, (%rdi)
430 ; SSE-NEXT:    movntps %xmm1, 16(%rdi)
431 ; SSE-NEXT:    retq
433 ; AVX-LABEL: test_nt8xfloat:
434 ; AVX:       # %bb.0: # %entry
435 ; AVX-NEXT:    vmovntps %ymm0, (%rdi)
436 ; AVX-NEXT:    vzeroupper
437 ; AVX-NEXT:    retq
439 ; AVX512-LABEL: test_nt8xfloat:
440 ; AVX512:       # %bb.0: # %entry
441 ; AVX512-NEXT:    vmovntps %ymm0, (%rdi)
442 ; AVX512-NEXT:    vzeroupper
443 ; AVX512-NEXT:    retq
444 entry:
445   store <8 x float> %X, ptr %ptr, align 32, !nontemporal !1
446   ret void
449 define void @test_nt4xdouble(ptr nocapture %ptr, <4 x double> %X) {
450 ; SSE-LABEL: test_nt4xdouble:
451 ; SSE:       # %bb.0: # %entry
452 ; SSE-NEXT:    movntpd %xmm0, (%rdi)
453 ; SSE-NEXT:    movntpd %xmm1, 16(%rdi)
454 ; SSE-NEXT:    retq
456 ; AVX-LABEL: test_nt4xdouble:
457 ; AVX:       # %bb.0: # %entry
458 ; AVX-NEXT:    vmovntpd %ymm0, (%rdi)
459 ; AVX-NEXT:    vzeroupper
460 ; AVX-NEXT:    retq
462 ; AVX512-LABEL: test_nt4xdouble:
463 ; AVX512:       # %bb.0: # %entry
464 ; AVX512-NEXT:    vmovntpd %ymm0, (%rdi)
465 ; AVX512-NEXT:    vzeroupper
466 ; AVX512-NEXT:    retq
467 entry:
468   store <4 x double> %X, ptr %ptr, align 32, !nontemporal !1
469   ret void
472 define void @test_nt32xi8(ptr nocapture %ptr, <32 x i8> %X) {
473 ; SSE-LABEL: test_nt32xi8:
474 ; SSE:       # %bb.0: # %entry
475 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
476 ; SSE-NEXT:    movntdq %xmm1, 16(%rdi)
477 ; SSE-NEXT:    retq
479 ; AVX-LABEL: test_nt32xi8:
480 ; AVX:       # %bb.0: # %entry
481 ; AVX-NEXT:    vmovntdq %ymm0, (%rdi)
482 ; AVX-NEXT:    vzeroupper
483 ; AVX-NEXT:    retq
485 ; AVX512-LABEL: test_nt32xi8:
486 ; AVX512:       # %bb.0: # %entry
487 ; AVX512-NEXT:    vmovntdq %ymm0, (%rdi)
488 ; AVX512-NEXT:    vzeroupper
489 ; AVX512-NEXT:    retq
490 entry:
491   store <32 x i8> %X, ptr %ptr, align 32, !nontemporal !1
492   ret void
495 define void @test_nt16xi16(ptr nocapture %ptr, <16 x i16> %X) {
496 ; SSE-LABEL: test_nt16xi16:
497 ; SSE:       # %bb.0: # %entry
498 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
499 ; SSE-NEXT:    movntdq %xmm1, 16(%rdi)
500 ; SSE-NEXT:    retq
502 ; AVX-LABEL: test_nt16xi16:
503 ; AVX:       # %bb.0: # %entry
504 ; AVX-NEXT:    vmovntdq %ymm0, (%rdi)
505 ; AVX-NEXT:    vzeroupper
506 ; AVX-NEXT:    retq
508 ; AVX512-LABEL: test_nt16xi16:
509 ; AVX512:       # %bb.0: # %entry
510 ; AVX512-NEXT:    vmovntdq %ymm0, (%rdi)
511 ; AVX512-NEXT:    vzeroupper
512 ; AVX512-NEXT:    retq
513 entry:
514   store <16 x i16> %X, ptr %ptr, align 32, !nontemporal !1
515   ret void
518 define void @test_nt8xi32(ptr nocapture %ptr, <8 x i32> %X) {
519 ; SSE-LABEL: test_nt8xi32:
520 ; SSE:       # %bb.0: # %entry
521 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
522 ; SSE-NEXT:    movntdq %xmm1, 16(%rdi)
523 ; SSE-NEXT:    retq
525 ; AVX-LABEL: test_nt8xi32:
526 ; AVX:       # %bb.0: # %entry
527 ; AVX-NEXT:    vmovntdq %ymm0, (%rdi)
528 ; AVX-NEXT:    vzeroupper
529 ; AVX-NEXT:    retq
531 ; AVX512-LABEL: test_nt8xi32:
532 ; AVX512:       # %bb.0: # %entry
533 ; AVX512-NEXT:    vmovntdq %ymm0, (%rdi)
534 ; AVX512-NEXT:    vzeroupper
535 ; AVX512-NEXT:    retq
536 entry:
537   store <8 x i32> %X, ptr %ptr, align 32, !nontemporal !1
538   ret void
541 define void @test_nt4xi64(ptr nocapture %ptr, <4 x i64> %X) {
542 ; SSE-LABEL: test_nt4xi64:
543 ; SSE:       # %bb.0: # %entry
544 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
545 ; SSE-NEXT:    movntdq %xmm1, 16(%rdi)
546 ; SSE-NEXT:    retq
548 ; AVX-LABEL: test_nt4xi64:
549 ; AVX:       # %bb.0: # %entry
550 ; AVX-NEXT:    vmovntdq %ymm0, (%rdi)
551 ; AVX-NEXT:    vzeroupper
552 ; AVX-NEXT:    retq
554 ; AVX512-LABEL: test_nt4xi64:
555 ; AVX512:       # %bb.0: # %entry
556 ; AVX512-NEXT:    vmovntdq %ymm0, (%rdi)
557 ; AVX512-NEXT:    vzeroupper
558 ; AVX512-NEXT:    retq
559 entry:
560   store <4 x i64> %X, ptr %ptr, align 32, !nontemporal !1
561   ret void
565 ; 256-bit Vector Loads
568 define <8 x float> @test_load_nt8xfloat(ptr nocapture %ptr) {
569 ; SSE2-LABEL: test_load_nt8xfloat:
570 ; SSE2:       # %bb.0: # %entry
571 ; SSE2-NEXT:    movaps (%rdi), %xmm0
572 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
573 ; SSE2-NEXT:    retq
575 ; SSE4A-LABEL: test_load_nt8xfloat:
576 ; SSE4A:       # %bb.0: # %entry
577 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
578 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
579 ; SSE4A-NEXT:    retq
581 ; SSE41-LABEL: test_load_nt8xfloat:
582 ; SSE41:       # %bb.0: # %entry
583 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
584 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
585 ; SSE41-NEXT:    retq
587 ; AVX1-LABEL: test_load_nt8xfloat:
588 ; AVX1:       # %bb.0: # %entry
589 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
590 ; AVX1-NEXT:    # implicit-def: $ymm0
591 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
592 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
593 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
594 ; AVX1-NEXT:    retq
596 ; AVX2-LABEL: test_load_nt8xfloat:
597 ; AVX2:       # %bb.0: # %entry
598 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
599 ; AVX2-NEXT:    retq
601 ; AVX512-LABEL: test_load_nt8xfloat:
602 ; AVX512:       # %bb.0: # %entry
603 ; AVX512-NEXT:    vmovntdqa (%rdi), %ymm0
604 ; AVX512-NEXT:    retq
605 entry:
606   %0 = load <8 x float>, ptr %ptr, align 32, !nontemporal !1
607   ret <8 x float> %0
610 define <4 x double> @test_load_nt4xdouble(ptr nocapture %ptr) {
611 ; SSE2-LABEL: test_load_nt4xdouble:
612 ; SSE2:       # %bb.0: # %entry
613 ; SSE2-NEXT:    movapd (%rdi), %xmm0
614 ; SSE2-NEXT:    movapd 16(%rdi), %xmm1
615 ; SSE2-NEXT:    retq
617 ; SSE4A-LABEL: test_load_nt4xdouble:
618 ; SSE4A:       # %bb.0: # %entry
619 ; SSE4A-NEXT:    movapd (%rdi), %xmm0
620 ; SSE4A-NEXT:    movapd 16(%rdi), %xmm1
621 ; SSE4A-NEXT:    retq
623 ; SSE41-LABEL: test_load_nt4xdouble:
624 ; SSE41:       # %bb.0: # %entry
625 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
626 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
627 ; SSE41-NEXT:    retq
629 ; AVX1-LABEL: test_load_nt4xdouble:
630 ; AVX1:       # %bb.0: # %entry
631 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
632 ; AVX1-NEXT:    # implicit-def: $ymm0
633 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
634 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
635 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
636 ; AVX1-NEXT:    retq
638 ; AVX2-LABEL: test_load_nt4xdouble:
639 ; AVX2:       # %bb.0: # %entry
640 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
641 ; AVX2-NEXT:    retq
643 ; AVX512-LABEL: test_load_nt4xdouble:
644 ; AVX512:       # %bb.0: # %entry
645 ; AVX512-NEXT:    vmovntdqa (%rdi), %ymm0
646 ; AVX512-NEXT:    retq
647 entry:
648   %0 = load <4 x double>, ptr %ptr, align 32, !nontemporal !1
649   ret <4 x double> %0
652 define <32 x i8> @test_load_nt32xi8(ptr nocapture %ptr) {
653 ; SSE2-LABEL: test_load_nt32xi8:
654 ; SSE2:       # %bb.0: # %entry
655 ; SSE2-NEXT:    movaps (%rdi), %xmm0
656 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
657 ; SSE2-NEXT:    retq
659 ; SSE4A-LABEL: test_load_nt32xi8:
660 ; SSE4A:       # %bb.0: # %entry
661 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
662 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
663 ; SSE4A-NEXT:    retq
665 ; SSE41-LABEL: test_load_nt32xi8:
666 ; SSE41:       # %bb.0: # %entry
667 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
668 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
669 ; SSE41-NEXT:    retq
671 ; AVX1-LABEL: test_load_nt32xi8:
672 ; AVX1:       # %bb.0: # %entry
673 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
674 ; AVX1-NEXT:    # implicit-def: $ymm0
675 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
676 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
677 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
678 ; AVX1-NEXT:    retq
680 ; AVX2-LABEL: test_load_nt32xi8:
681 ; AVX2:       # %bb.0: # %entry
682 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
683 ; AVX2-NEXT:    retq
685 ; AVX512-LABEL: test_load_nt32xi8:
686 ; AVX512:       # %bb.0: # %entry
687 ; AVX512-NEXT:    vmovntdqa (%rdi), %ymm0
688 ; AVX512-NEXT:    retq
689 entry:
690   %0 = load <32 x i8>, ptr %ptr, align 32, !nontemporal !1
691   ret <32 x i8> %0
694 define <16 x i16> @test_load_nt16xi16(ptr nocapture %ptr) {
695 ; SSE2-LABEL: test_load_nt16xi16:
696 ; SSE2:       # %bb.0: # %entry
697 ; SSE2-NEXT:    movaps (%rdi), %xmm0
698 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
699 ; SSE2-NEXT:    retq
701 ; SSE4A-LABEL: test_load_nt16xi16:
702 ; SSE4A:       # %bb.0: # %entry
703 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
704 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
705 ; SSE4A-NEXT:    retq
707 ; SSE41-LABEL: test_load_nt16xi16:
708 ; SSE41:       # %bb.0: # %entry
709 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
710 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
711 ; SSE41-NEXT:    retq
713 ; AVX1-LABEL: test_load_nt16xi16:
714 ; AVX1:       # %bb.0: # %entry
715 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
716 ; AVX1-NEXT:    # implicit-def: $ymm0
717 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
718 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
719 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
720 ; AVX1-NEXT:    retq
722 ; AVX2-LABEL: test_load_nt16xi16:
723 ; AVX2:       # %bb.0: # %entry
724 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
725 ; AVX2-NEXT:    retq
727 ; AVX512-LABEL: test_load_nt16xi16:
728 ; AVX512:       # %bb.0: # %entry
729 ; AVX512-NEXT:    vmovntdqa (%rdi), %ymm0
730 ; AVX512-NEXT:    retq
731 entry:
732   %0 = load <16 x i16>, ptr %ptr, align 32, !nontemporal !1
733   ret <16 x i16> %0
736 define <8 x i32> @test_load_nt8xi32(ptr nocapture %ptr) {
737 ; SSE2-LABEL: test_load_nt8xi32:
738 ; SSE2:       # %bb.0: # %entry
739 ; SSE2-NEXT:    movaps (%rdi), %xmm0
740 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
741 ; SSE2-NEXT:    retq
743 ; SSE4A-LABEL: test_load_nt8xi32:
744 ; SSE4A:       # %bb.0: # %entry
745 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
746 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
747 ; SSE4A-NEXT:    retq
749 ; SSE41-LABEL: test_load_nt8xi32:
750 ; SSE41:       # %bb.0: # %entry
751 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
752 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
753 ; SSE41-NEXT:    retq
755 ; AVX1-LABEL: test_load_nt8xi32:
756 ; AVX1:       # %bb.0: # %entry
757 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
758 ; AVX1-NEXT:    # implicit-def: $ymm0
759 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
760 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
761 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
762 ; AVX1-NEXT:    retq
764 ; AVX2-LABEL: test_load_nt8xi32:
765 ; AVX2:       # %bb.0: # %entry
766 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
767 ; AVX2-NEXT:    retq
769 ; AVX512-LABEL: test_load_nt8xi32:
770 ; AVX512:       # %bb.0: # %entry
771 ; AVX512-NEXT:    vmovntdqa (%rdi), %ymm0
772 ; AVX512-NEXT:    retq
773 entry:
774   %0 = load <8 x i32>, ptr %ptr, align 32, !nontemporal !1
775   ret <8 x i32> %0
778 define <4 x i64> @test_load_nt4xi64(ptr nocapture %ptr) {
779 ; SSE2-LABEL: test_load_nt4xi64:
780 ; SSE2:       # %bb.0: # %entry
781 ; SSE2-NEXT:    movaps (%rdi), %xmm0
782 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
783 ; SSE2-NEXT:    retq
785 ; SSE4A-LABEL: test_load_nt4xi64:
786 ; SSE4A:       # %bb.0: # %entry
787 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
788 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
789 ; SSE4A-NEXT:    retq
791 ; SSE41-LABEL: test_load_nt4xi64:
792 ; SSE41:       # %bb.0: # %entry
793 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
794 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
795 ; SSE41-NEXT:    retq
797 ; AVX1-LABEL: test_load_nt4xi64:
798 ; AVX1:       # %bb.0: # %entry
799 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
800 ; AVX1-NEXT:    # implicit-def: $ymm0
801 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
802 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
803 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
804 ; AVX1-NEXT:    retq
806 ; AVX2-LABEL: test_load_nt4xi64:
807 ; AVX2:       # %bb.0: # %entry
808 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
809 ; AVX2-NEXT:    retq
811 ; AVX512-LABEL: test_load_nt4xi64:
812 ; AVX512:       # %bb.0: # %entry
813 ; AVX512-NEXT:    vmovntdqa (%rdi), %ymm0
814 ; AVX512-NEXT:    retq
815 entry:
816   %0 = load <4 x i64>, ptr %ptr, align 32, !nontemporal !1
817   ret <4 x i64> %0
821 ; 512-bit Vector Stores
824 define void @test_nt16xfloat(ptr nocapture %ptr, <16 x float> %X) {
825 ; SSE-LABEL: test_nt16xfloat:
826 ; SSE:       # %bb.0: # %entry
827 ; SSE-NEXT:    movntps %xmm0, (%rdi)
828 ; SSE-NEXT:    movntps %xmm1, 16(%rdi)
829 ; SSE-NEXT:    movntps %xmm2, 32(%rdi)
830 ; SSE-NEXT:    movntps %xmm3, 48(%rdi)
831 ; SSE-NEXT:    retq
833 ; AVX-LABEL: test_nt16xfloat:
834 ; AVX:       # %bb.0: # %entry
835 ; AVX-NEXT:    vmovntps %ymm0, (%rdi)
836 ; AVX-NEXT:    vmovntps %ymm1, 32(%rdi)
837 ; AVX-NEXT:    vzeroupper
838 ; AVX-NEXT:    retq
840 ; AVX512-LABEL: test_nt16xfloat:
841 ; AVX512:       # %bb.0: # %entry
842 ; AVX512-NEXT:    vmovntps %zmm0, (%rdi)
843 ; AVX512-NEXT:    vzeroupper
844 ; AVX512-NEXT:    retq
845 entry:
846   store <16 x float> %X, ptr %ptr, align 64, !nontemporal !1
847   ret void
850 define void @test_nt8xdouble(ptr nocapture %ptr, <8 x double> %X) {
851 ; SSE-LABEL: test_nt8xdouble:
852 ; SSE:       # %bb.0: # %entry
853 ; SSE-NEXT:    movntpd %xmm0, (%rdi)
854 ; SSE-NEXT:    movntpd %xmm1, 16(%rdi)
855 ; SSE-NEXT:    movntpd %xmm2, 32(%rdi)
856 ; SSE-NEXT:    movntpd %xmm3, 48(%rdi)
857 ; SSE-NEXT:    retq
859 ; AVX-LABEL: test_nt8xdouble:
860 ; AVX:       # %bb.0: # %entry
861 ; AVX-NEXT:    vmovntpd %ymm0, (%rdi)
862 ; AVX-NEXT:    vmovntpd %ymm1, 32(%rdi)
863 ; AVX-NEXT:    vzeroupper
864 ; AVX-NEXT:    retq
866 ; AVX512-LABEL: test_nt8xdouble:
867 ; AVX512:       # %bb.0: # %entry
868 ; AVX512-NEXT:    vmovntpd %zmm0, (%rdi)
869 ; AVX512-NEXT:    vzeroupper
870 ; AVX512-NEXT:    retq
871 entry:
872   store <8 x double> %X, ptr %ptr, align 64, !nontemporal !1
873   ret void
876 define void @test_nt64xi8(ptr nocapture %ptr, <64 x i8> %X) {
877 ; SSE-LABEL: test_nt64xi8:
878 ; SSE:       # %bb.0: # %entry
879 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
880 ; SSE-NEXT:    movntdq %xmm1, 16(%rdi)
881 ; SSE-NEXT:    movntdq %xmm2, 32(%rdi)
882 ; SSE-NEXT:    movntdq %xmm3, 48(%rdi)
883 ; SSE-NEXT:    retq
885 ; AVX-LABEL: test_nt64xi8:
886 ; AVX:       # %bb.0: # %entry
887 ; AVX-NEXT:    vmovntdq %ymm0, (%rdi)
888 ; AVX-NEXT:    vmovntdq %ymm1, 32(%rdi)
889 ; AVX-NEXT:    vzeroupper
890 ; AVX-NEXT:    retq
892 ; AVX512-LABEL: test_nt64xi8:
893 ; AVX512:       # %bb.0: # %entry
894 ; AVX512-NEXT:    vmovntdq %zmm0, (%rdi)
895 ; AVX512-NEXT:    vzeroupper
896 ; AVX512-NEXT:    retq
898 entry:
899   store <64 x i8> %X, ptr %ptr, align 64, !nontemporal !1
900   ret void
903 define void @test_nt32xi16(ptr nocapture %ptr, <32 x i16> %X) {
904 ; SSE-LABEL: test_nt32xi16:
905 ; SSE:       # %bb.0: # %entry
906 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
907 ; SSE-NEXT:    movntdq %xmm1, 16(%rdi)
908 ; SSE-NEXT:    movntdq %xmm2, 32(%rdi)
909 ; SSE-NEXT:    movntdq %xmm3, 48(%rdi)
910 ; SSE-NEXT:    retq
912 ; AVX-LABEL: test_nt32xi16:
913 ; AVX:       # %bb.0: # %entry
914 ; AVX-NEXT:    vmovntdq %ymm0, (%rdi)
915 ; AVX-NEXT:    vmovntdq %ymm1, 32(%rdi)
916 ; AVX-NEXT:    vzeroupper
917 ; AVX-NEXT:    retq
919 ; AVX512-LABEL: test_nt32xi16:
920 ; AVX512:       # %bb.0: # %entry
921 ; AVX512-NEXT:    vmovntdq %zmm0, (%rdi)
922 ; AVX512-NEXT:    vzeroupper
923 ; AVX512-NEXT:    retq
925 entry:
926   store <32 x i16> %X, ptr %ptr, align 64, !nontemporal !1
927   ret void
930 define void @test_nt16xi32(ptr nocapture %ptr, <16 x i32> %X) {
931 ; SSE-LABEL: test_nt16xi32:
932 ; SSE:       # %bb.0: # %entry
933 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
934 ; SSE-NEXT:    movntdq %xmm1, 16(%rdi)
935 ; SSE-NEXT:    movntdq %xmm2, 32(%rdi)
936 ; SSE-NEXT:    movntdq %xmm3, 48(%rdi)
937 ; SSE-NEXT:    retq
939 ; AVX-LABEL: test_nt16xi32:
940 ; AVX:       # %bb.0: # %entry
941 ; AVX-NEXT:    vmovntdq %ymm0, (%rdi)
942 ; AVX-NEXT:    vmovntdq %ymm1, 32(%rdi)
943 ; AVX-NEXT:    vzeroupper
944 ; AVX-NEXT:    retq
946 ; AVX512-LABEL: test_nt16xi32:
947 ; AVX512:       # %bb.0: # %entry
948 ; AVX512-NEXT:    vmovntdq %zmm0, (%rdi)
949 ; AVX512-NEXT:    vzeroupper
950 ; AVX512-NEXT:    retq
951 entry:
952   store <16 x i32> %X, ptr %ptr, align 64, !nontemporal !1
953   ret void
956 define void @test_nt8xi64(ptr nocapture %ptr, <8 x i64> %X) {
957 ; SSE-LABEL: test_nt8xi64:
958 ; SSE:       # %bb.0: # %entry
959 ; SSE-NEXT:    movntdq %xmm0, (%rdi)
960 ; SSE-NEXT:    movntdq %xmm1, 16(%rdi)
961 ; SSE-NEXT:    movntdq %xmm2, 32(%rdi)
962 ; SSE-NEXT:    movntdq %xmm3, 48(%rdi)
963 ; SSE-NEXT:    retq
965 ; AVX-LABEL: test_nt8xi64:
966 ; AVX:       # %bb.0: # %entry
967 ; AVX-NEXT:    vmovntdq %ymm0, (%rdi)
968 ; AVX-NEXT:    vmovntdq %ymm1, 32(%rdi)
969 ; AVX-NEXT:    vzeroupper
970 ; AVX-NEXT:    retq
972 ; AVX512-LABEL: test_nt8xi64:
973 ; AVX512:       # %bb.0: # %entry
974 ; AVX512-NEXT:    vmovntdq %zmm0, (%rdi)
975 ; AVX512-NEXT:    vzeroupper
976 ; AVX512-NEXT:    retq
977 entry:
978   store <8 x i64> %X, ptr %ptr, align 64, !nontemporal !1
979   ret void
983 ; 512-bit Vector Loads
986 define <16 x float> @test_load_nt16xfloat(ptr nocapture %ptr) {
987 ; SSE2-LABEL: test_load_nt16xfloat:
988 ; SSE2:       # %bb.0: # %entry
989 ; SSE2-NEXT:    movaps (%rdi), %xmm0
990 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
991 ; SSE2-NEXT:    movaps 32(%rdi), %xmm2
992 ; SSE2-NEXT:    movaps 48(%rdi), %xmm3
993 ; SSE2-NEXT:    retq
995 ; SSE4A-LABEL: test_load_nt16xfloat:
996 ; SSE4A:       # %bb.0: # %entry
997 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
998 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
999 ; SSE4A-NEXT:    movaps 32(%rdi), %xmm2
1000 ; SSE4A-NEXT:    movaps 48(%rdi), %xmm3
1001 ; SSE4A-NEXT:    retq
1003 ; SSE41-LABEL: test_load_nt16xfloat:
1004 ; SSE41:       # %bb.0: # %entry
1005 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
1006 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
1007 ; SSE41-NEXT:    movntdqa 32(%rdi), %xmm2
1008 ; SSE41-NEXT:    movntdqa 48(%rdi), %xmm3
1009 ; SSE41-NEXT:    retq
1011 ; AVX1-LABEL: test_load_nt16xfloat:
1012 ; AVX1:       # %bb.0: # %entry
1013 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
1014 ; AVX1-NEXT:    # implicit-def: $ymm0
1015 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
1016 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
1017 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
1018 ; AVX1-NEXT:    vmovntdqa 32(%rdi), %xmm2
1019 ; AVX1-NEXT:    # implicit-def: $ymm1
1020 ; AVX1-NEXT:    vmovaps %xmm2, %xmm1
1021 ; AVX1-NEXT:    vmovntdqa 48(%rdi), %xmm2
1022 ; AVX1-NEXT:    vinsertf128 $1, %xmm2, %ymm1, %ymm1
1023 ; AVX1-NEXT:    retq
1025 ; AVX2-LABEL: test_load_nt16xfloat:
1026 ; AVX2:       # %bb.0: # %entry
1027 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
1028 ; AVX2-NEXT:    vmovntdqa 32(%rdi), %ymm1
1029 ; AVX2-NEXT:    retq
1031 ; AVX512-LABEL: test_load_nt16xfloat:
1032 ; AVX512:       # %bb.0: # %entry
1033 ; AVX512-NEXT:    vmovntdqa (%rdi), %zmm0
1034 ; AVX512-NEXT:    retq
1035 entry:
1036   %0 = load <16 x float>, ptr %ptr, align 64, !nontemporal !1
1037   ret <16 x float> %0
1040 define <8 x double> @test_load_nt8xdouble(ptr nocapture %ptr) {
1041 ; SSE2-LABEL: test_load_nt8xdouble:
1042 ; SSE2:       # %bb.0: # %entry
1043 ; SSE2-NEXT:    movapd (%rdi), %xmm0
1044 ; SSE2-NEXT:    movapd 16(%rdi), %xmm1
1045 ; SSE2-NEXT:    movapd 32(%rdi), %xmm2
1046 ; SSE2-NEXT:    movapd 48(%rdi), %xmm3
1047 ; SSE2-NEXT:    retq
1049 ; SSE4A-LABEL: test_load_nt8xdouble:
1050 ; SSE4A:       # %bb.0: # %entry
1051 ; SSE4A-NEXT:    movapd (%rdi), %xmm0
1052 ; SSE4A-NEXT:    movapd 16(%rdi), %xmm1
1053 ; SSE4A-NEXT:    movapd 32(%rdi), %xmm2
1054 ; SSE4A-NEXT:    movapd 48(%rdi), %xmm3
1055 ; SSE4A-NEXT:    retq
1057 ; SSE41-LABEL: test_load_nt8xdouble:
1058 ; SSE41:       # %bb.0: # %entry
1059 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
1060 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
1061 ; SSE41-NEXT:    movntdqa 32(%rdi), %xmm2
1062 ; SSE41-NEXT:    movntdqa 48(%rdi), %xmm3
1063 ; SSE41-NEXT:    retq
1065 ; AVX1-LABEL: test_load_nt8xdouble:
1066 ; AVX1:       # %bb.0: # %entry
1067 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
1068 ; AVX1-NEXT:    # implicit-def: $ymm0
1069 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
1070 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
1071 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
1072 ; AVX1-NEXT:    vmovntdqa 32(%rdi), %xmm2
1073 ; AVX1-NEXT:    # implicit-def: $ymm1
1074 ; AVX1-NEXT:    vmovaps %xmm2, %xmm1
1075 ; AVX1-NEXT:    vmovntdqa 48(%rdi), %xmm2
1076 ; AVX1-NEXT:    vinsertf128 $1, %xmm2, %ymm1, %ymm1
1077 ; AVX1-NEXT:    retq
1079 ; AVX2-LABEL: test_load_nt8xdouble:
1080 ; AVX2:       # %bb.0: # %entry
1081 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
1082 ; AVX2-NEXT:    vmovntdqa 32(%rdi), %ymm1
1083 ; AVX2-NEXT:    retq
1085 ; AVX512-LABEL: test_load_nt8xdouble:
1086 ; AVX512:       # %bb.0: # %entry
1087 ; AVX512-NEXT:    vmovntdqa (%rdi), %zmm0
1088 ; AVX512-NEXT:    retq
1089 entry:
1090   %0 = load <8 x double>, ptr %ptr, align 64, !nontemporal !1
1091   ret <8 x double> %0
1094 define <64 x i8> @test_load_nt64xi8(ptr nocapture %ptr) {
1095 ; SSE2-LABEL: test_load_nt64xi8:
1096 ; SSE2:       # %bb.0: # %entry
1097 ; SSE2-NEXT:    movaps (%rdi), %xmm0
1098 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
1099 ; SSE2-NEXT:    movaps 32(%rdi), %xmm2
1100 ; SSE2-NEXT:    movaps 48(%rdi), %xmm3
1101 ; SSE2-NEXT:    retq
1103 ; SSE4A-LABEL: test_load_nt64xi8:
1104 ; SSE4A:       # %bb.0: # %entry
1105 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
1106 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
1107 ; SSE4A-NEXT:    movaps 32(%rdi), %xmm2
1108 ; SSE4A-NEXT:    movaps 48(%rdi), %xmm3
1109 ; SSE4A-NEXT:    retq
1111 ; SSE41-LABEL: test_load_nt64xi8:
1112 ; SSE41:       # %bb.0: # %entry
1113 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
1114 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
1115 ; SSE41-NEXT:    movntdqa 32(%rdi), %xmm2
1116 ; SSE41-NEXT:    movntdqa 48(%rdi), %xmm3
1117 ; SSE41-NEXT:    retq
1119 ; AVX1-LABEL: test_load_nt64xi8:
1120 ; AVX1:       # %bb.0: # %entry
1121 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
1122 ; AVX1-NEXT:    # implicit-def: $ymm0
1123 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
1124 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
1125 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
1126 ; AVX1-NEXT:    vmovntdqa 32(%rdi), %xmm2
1127 ; AVX1-NEXT:    # implicit-def: $ymm1
1128 ; AVX1-NEXT:    vmovaps %xmm2, %xmm1
1129 ; AVX1-NEXT:    vmovntdqa 48(%rdi), %xmm2
1130 ; AVX1-NEXT:    vinsertf128 $1, %xmm2, %ymm1, %ymm1
1131 ; AVX1-NEXT:    retq
1133 ; AVX2-LABEL: test_load_nt64xi8:
1134 ; AVX2:       # %bb.0: # %entry
1135 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
1136 ; AVX2-NEXT:    vmovntdqa 32(%rdi), %ymm1
1137 ; AVX2-NEXT:    retq
1139 ; AVX512-LABEL: test_load_nt64xi8:
1140 ; AVX512:       # %bb.0: # %entry
1141 ; AVX512-NEXT:    vmovntdqa (%rdi), %zmm0
1142 ; AVX512-NEXT:    retq
1143 entry:
1144   %0 = load <64 x i8>, ptr %ptr, align 64, !nontemporal !1
1145   ret <64 x i8> %0
1148 define <32 x i16> @test_load_nt32xi16(ptr nocapture %ptr) {
1149 ; SSE2-LABEL: test_load_nt32xi16:
1150 ; SSE2:       # %bb.0: # %entry
1151 ; SSE2-NEXT:    movaps (%rdi), %xmm0
1152 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
1153 ; SSE2-NEXT:    movaps 32(%rdi), %xmm2
1154 ; SSE2-NEXT:    movaps 48(%rdi), %xmm3
1155 ; SSE2-NEXT:    retq
1157 ; SSE4A-LABEL: test_load_nt32xi16:
1158 ; SSE4A:       # %bb.0: # %entry
1159 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
1160 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
1161 ; SSE4A-NEXT:    movaps 32(%rdi), %xmm2
1162 ; SSE4A-NEXT:    movaps 48(%rdi), %xmm3
1163 ; SSE4A-NEXT:    retq
1165 ; SSE41-LABEL: test_load_nt32xi16:
1166 ; SSE41:       # %bb.0: # %entry
1167 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
1168 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
1169 ; SSE41-NEXT:    movntdqa 32(%rdi), %xmm2
1170 ; SSE41-NEXT:    movntdqa 48(%rdi), %xmm3
1171 ; SSE41-NEXT:    retq
1173 ; AVX1-LABEL: test_load_nt32xi16:
1174 ; AVX1:       # %bb.0: # %entry
1175 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
1176 ; AVX1-NEXT:    # implicit-def: $ymm0
1177 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
1178 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
1179 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
1180 ; AVX1-NEXT:    vmovntdqa 32(%rdi), %xmm2
1181 ; AVX1-NEXT:    # implicit-def: $ymm1
1182 ; AVX1-NEXT:    vmovaps %xmm2, %xmm1
1183 ; AVX1-NEXT:    vmovntdqa 48(%rdi), %xmm2
1184 ; AVX1-NEXT:    vinsertf128 $1, %xmm2, %ymm1, %ymm1
1185 ; AVX1-NEXT:    retq
1187 ; AVX2-LABEL: test_load_nt32xi16:
1188 ; AVX2:       # %bb.0: # %entry
1189 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
1190 ; AVX2-NEXT:    vmovntdqa 32(%rdi), %ymm1
1191 ; AVX2-NEXT:    retq
1193 ; AVX512-LABEL: test_load_nt32xi16:
1194 ; AVX512:       # %bb.0: # %entry
1195 ; AVX512-NEXT:    vmovntdqa (%rdi), %zmm0
1196 ; AVX512-NEXT:    retq
1197 entry:
1198   %0 = load <32 x i16>, ptr %ptr, align 64, !nontemporal !1
1199   ret <32 x i16> %0
1202 define <16 x i32> @test_load_nt16xi32(ptr nocapture %ptr) {
1203 ; SSE2-LABEL: test_load_nt16xi32:
1204 ; SSE2:       # %bb.0: # %entry
1205 ; SSE2-NEXT:    movaps (%rdi), %xmm0
1206 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
1207 ; SSE2-NEXT:    movaps 32(%rdi), %xmm2
1208 ; SSE2-NEXT:    movaps 48(%rdi), %xmm3
1209 ; SSE2-NEXT:    retq
1211 ; SSE4A-LABEL: test_load_nt16xi32:
1212 ; SSE4A:       # %bb.0: # %entry
1213 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
1214 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
1215 ; SSE4A-NEXT:    movaps 32(%rdi), %xmm2
1216 ; SSE4A-NEXT:    movaps 48(%rdi), %xmm3
1217 ; SSE4A-NEXT:    retq
1219 ; SSE41-LABEL: test_load_nt16xi32:
1220 ; SSE41:       # %bb.0: # %entry
1221 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
1222 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
1223 ; SSE41-NEXT:    movntdqa 32(%rdi), %xmm2
1224 ; SSE41-NEXT:    movntdqa 48(%rdi), %xmm3
1225 ; SSE41-NEXT:    retq
1227 ; AVX1-LABEL: test_load_nt16xi32:
1228 ; AVX1:       # %bb.0: # %entry
1229 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
1230 ; AVX1-NEXT:    # implicit-def: $ymm0
1231 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
1232 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
1233 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
1234 ; AVX1-NEXT:    vmovntdqa 32(%rdi), %xmm2
1235 ; AVX1-NEXT:    # implicit-def: $ymm1
1236 ; AVX1-NEXT:    vmovaps %xmm2, %xmm1
1237 ; AVX1-NEXT:    vmovntdqa 48(%rdi), %xmm2
1238 ; AVX1-NEXT:    vinsertf128 $1, %xmm2, %ymm1, %ymm1
1239 ; AVX1-NEXT:    retq
1241 ; AVX2-LABEL: test_load_nt16xi32:
1242 ; AVX2:       # %bb.0: # %entry
1243 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
1244 ; AVX2-NEXT:    vmovntdqa 32(%rdi), %ymm1
1245 ; AVX2-NEXT:    retq
1247 ; AVX512-LABEL: test_load_nt16xi32:
1248 ; AVX512:       # %bb.0: # %entry
1249 ; AVX512-NEXT:    vmovntdqa (%rdi), %zmm0
1250 ; AVX512-NEXT:    retq
1251 entry:
1252   %0 = load <16 x i32>, ptr %ptr, align 64, !nontemporal !1
1253   ret <16 x i32> %0
1256 define <8 x i64> @test_load_nt8xi64(ptr nocapture %ptr) {
1257 ; SSE2-LABEL: test_load_nt8xi64:
1258 ; SSE2:       # %bb.0: # %entry
1259 ; SSE2-NEXT:    movaps (%rdi), %xmm0
1260 ; SSE2-NEXT:    movaps 16(%rdi), %xmm1
1261 ; SSE2-NEXT:    movaps 32(%rdi), %xmm2
1262 ; SSE2-NEXT:    movaps 48(%rdi), %xmm3
1263 ; SSE2-NEXT:    retq
1265 ; SSE4A-LABEL: test_load_nt8xi64:
1266 ; SSE4A:       # %bb.0: # %entry
1267 ; SSE4A-NEXT:    movaps (%rdi), %xmm0
1268 ; SSE4A-NEXT:    movaps 16(%rdi), %xmm1
1269 ; SSE4A-NEXT:    movaps 32(%rdi), %xmm2
1270 ; SSE4A-NEXT:    movaps 48(%rdi), %xmm3
1271 ; SSE4A-NEXT:    retq
1273 ; SSE41-LABEL: test_load_nt8xi64:
1274 ; SSE41:       # %bb.0: # %entry
1275 ; SSE41-NEXT:    movntdqa (%rdi), %xmm0
1276 ; SSE41-NEXT:    movntdqa 16(%rdi), %xmm1
1277 ; SSE41-NEXT:    movntdqa 32(%rdi), %xmm2
1278 ; SSE41-NEXT:    movntdqa 48(%rdi), %xmm3
1279 ; SSE41-NEXT:    retq
1281 ; AVX1-LABEL: test_load_nt8xi64:
1282 ; AVX1:       # %bb.0: # %entry
1283 ; AVX1-NEXT:    vmovntdqa (%rdi), %xmm1
1284 ; AVX1-NEXT:    # implicit-def: $ymm0
1285 ; AVX1-NEXT:    vmovaps %xmm1, %xmm0
1286 ; AVX1-NEXT:    vmovntdqa 16(%rdi), %xmm1
1287 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
1288 ; AVX1-NEXT:    vmovntdqa 32(%rdi), %xmm2
1289 ; AVX1-NEXT:    # implicit-def: $ymm1
1290 ; AVX1-NEXT:    vmovaps %xmm2, %xmm1
1291 ; AVX1-NEXT:    vmovntdqa 48(%rdi), %xmm2
1292 ; AVX1-NEXT:    vinsertf128 $1, %xmm2, %ymm1, %ymm1
1293 ; AVX1-NEXT:    retq
1295 ; AVX2-LABEL: test_load_nt8xi64:
1296 ; AVX2:       # %bb.0: # %entry
1297 ; AVX2-NEXT:    vmovntdqa (%rdi), %ymm0
1298 ; AVX2-NEXT:    vmovntdqa 32(%rdi), %ymm1
1299 ; AVX2-NEXT:    retq
1301 ; AVX512-LABEL: test_load_nt8xi64:
1302 ; AVX512:       # %bb.0: # %entry
1303 ; AVX512-NEXT:    vmovntdqa (%rdi), %zmm0
1304 ; AVX512-NEXT:    retq
1305 entry:
1306   %0 = load <8 x i64>, ptr %ptr, align 64, !nontemporal !1
1307   ret <8 x i64> %0
1310 !1 = !{i32 1}