1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
4 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx | FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
5 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
6 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw | FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW
7 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl | FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL
13 define i64 @test_v2i64(<2 x i64> %a0) {
14 ; SSE2-LABEL: test_v2i64:
16 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
17 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
18 ; SSE2-NEXT: movdqa %xmm0, %xmm3
19 ; SSE2-NEXT: pxor %xmm2, %xmm3
20 ; SSE2-NEXT: pxor %xmm1, %xmm2
21 ; SSE2-NEXT: movdqa %xmm3, %xmm4
22 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
23 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
24 ; SSE2-NEXT: pcmpeqd %xmm3, %xmm2
25 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
26 ; SSE2-NEXT: pand %xmm5, %xmm2
27 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
28 ; SSE2-NEXT: por %xmm2, %xmm3
29 ; SSE2-NEXT: pand %xmm3, %xmm0
30 ; SSE2-NEXT: pandn %xmm1, %xmm3
31 ; SSE2-NEXT: por %xmm0, %xmm3
32 ; SSE2-NEXT: movq %xmm3, %rax
35 ; SSE41-LABEL: test_v2i64:
37 ; SSE41-NEXT: movdqa %xmm0, %xmm1
38 ; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
39 ; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
40 ; SSE41-NEXT: movdqa %xmm0, %xmm4
41 ; SSE41-NEXT: pxor %xmm3, %xmm4
42 ; SSE41-NEXT: pxor %xmm2, %xmm3
43 ; SSE41-NEXT: movdqa %xmm4, %xmm0
44 ; SSE41-NEXT: pcmpgtd %xmm3, %xmm0
45 ; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,0,2,2]
46 ; SSE41-NEXT: pcmpeqd %xmm4, %xmm3
47 ; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
48 ; SSE41-NEXT: pand %xmm5, %xmm3
49 ; SSE41-NEXT: por %xmm3, %xmm0
50 ; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
51 ; SSE41-NEXT: movq %xmm2, %rax
54 ; AVX-LABEL: test_v2i64:
56 ; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
57 ; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
58 ; AVX-NEXT: vpxor %xmm2, %xmm0, %xmm3
59 ; AVX-NEXT: vpxor %xmm2, %xmm1, %xmm2
60 ; AVX-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
61 ; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
62 ; AVX-NEXT: vmovq %xmm0, %rax
65 ; AVX512BW-LABEL: test_v2i64:
67 ; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
68 ; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
69 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
70 ; AVX512BW-NEXT: vmovq %xmm0, %rax
71 ; AVX512BW-NEXT: vzeroupper
74 ; AVX512VL-LABEL: test_v2i64:
76 ; AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
77 ; AVX512VL-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
78 ; AVX512VL-NEXT: vmovq %xmm0, %rax
80 %1 = call i64 @llvm.experimental.vector.reduce.umax.v2i64(<2 x i64> %a0)
84 define i64 @test_v4i64(<4 x i64> %a0) {
85 ; SSE2-LABEL: test_v4i64:
87 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
88 ; SSE2-NEXT: movdqa %xmm1, %xmm3
89 ; SSE2-NEXT: pxor %xmm2, %xmm3
90 ; SSE2-NEXT: movdqa %xmm0, %xmm4
91 ; SSE2-NEXT: pxor %xmm2, %xmm4
92 ; SSE2-NEXT: movdqa %xmm4, %xmm5
93 ; SSE2-NEXT: pcmpgtd %xmm3, %xmm5
94 ; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
95 ; SSE2-NEXT: pcmpeqd %xmm3, %xmm4
96 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
97 ; SSE2-NEXT: pand %xmm6, %xmm3
98 ; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
99 ; SSE2-NEXT: por %xmm3, %xmm4
100 ; SSE2-NEXT: pand %xmm4, %xmm0
101 ; SSE2-NEXT: pandn %xmm1, %xmm4
102 ; SSE2-NEXT: por %xmm0, %xmm4
103 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[2,3,0,1]
104 ; SSE2-NEXT: movdqa %xmm4, %xmm1
105 ; SSE2-NEXT: pxor %xmm2, %xmm1
106 ; SSE2-NEXT: pxor %xmm0, %xmm2
107 ; SSE2-NEXT: movdqa %xmm1, %xmm3
108 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm3
109 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]
110 ; SSE2-NEXT: pcmpeqd %xmm1, %xmm2
111 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
112 ; SSE2-NEXT: pand %xmm5, %xmm1
113 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
114 ; SSE2-NEXT: por %xmm1, %xmm2
115 ; SSE2-NEXT: pand %xmm2, %xmm4
116 ; SSE2-NEXT: pandn %xmm0, %xmm2
117 ; SSE2-NEXT: por %xmm4, %xmm2
118 ; SSE2-NEXT: movq %xmm2, %rax
121 ; SSE41-LABEL: test_v4i64:
123 ; SSE41-NEXT: movdqa %xmm0, %xmm2
124 ; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
125 ; SSE41-NEXT: movdqa %xmm1, %xmm4
126 ; SSE41-NEXT: pxor %xmm3, %xmm4
127 ; SSE41-NEXT: movdqa %xmm0, %xmm5
128 ; SSE41-NEXT: pxor %xmm3, %xmm5
129 ; SSE41-NEXT: movdqa %xmm5, %xmm0
130 ; SSE41-NEXT: pcmpgtd %xmm4, %xmm0
131 ; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,0,2,2]
132 ; SSE41-NEXT: pcmpeqd %xmm4, %xmm5
133 ; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
134 ; SSE41-NEXT: pand %xmm6, %xmm4
135 ; SSE41-NEXT: por %xmm4, %xmm0
136 ; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
137 ; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
138 ; SSE41-NEXT: movdqa %xmm1, %xmm0
139 ; SSE41-NEXT: pxor %xmm3, %xmm0
140 ; SSE41-NEXT: pxor %xmm2, %xmm3
141 ; SSE41-NEXT: movdqa %xmm0, %xmm4
142 ; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
143 ; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
144 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
145 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
146 ; SSE41-NEXT: pand %xmm5, %xmm0
147 ; SSE41-NEXT: por %xmm4, %xmm0
148 ; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
149 ; SSE41-NEXT: movq %xmm2, %rax
152 ; AVX1-LABEL: test_v4i64:
154 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
155 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
156 ; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
157 ; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm4
158 ; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
159 ; AVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm0
160 ; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
161 ; AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm3
162 ; AVX1-NEXT: vxorpd %xmm2, %xmm1, %xmm2
163 ; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
164 ; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
165 ; AVX1-NEXT: vmovq %xmm0, %rax
166 ; AVX1-NEXT: vzeroupper
169 ; AVX2-LABEL: test_v4i64:
171 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
172 ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
173 ; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3
174 ; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm4
175 ; AVX2-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
176 ; AVX2-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm0
177 ; AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
178 ; AVX2-NEXT: vxorpd %xmm2, %xmm0, %xmm3
179 ; AVX2-NEXT: vxorpd %xmm2, %xmm1, %xmm2
180 ; AVX2-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
181 ; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
182 ; AVX2-NEXT: vmovq %xmm0, %rax
183 ; AVX2-NEXT: vzeroupper
186 ; AVX512BW-LABEL: test_v4i64:
188 ; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
189 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
190 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
191 ; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
192 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
193 ; AVX512BW-NEXT: vmovq %xmm0, %rax
194 ; AVX512BW-NEXT: vzeroupper
195 ; AVX512BW-NEXT: retq
197 ; AVX512VL-LABEL: test_v4i64:
199 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
200 ; AVX512VL-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
201 ; AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
202 ; AVX512VL-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
203 ; AVX512VL-NEXT: vmovq %xmm0, %rax
204 ; AVX512VL-NEXT: vzeroupper
205 ; AVX512VL-NEXT: retq
206 %1 = call i64 @llvm.experimental.vector.reduce.umax.v4i64(<4 x i64> %a0)
210 define i64 @test_v8i64(<8 x i64> %a0) {
211 ; SSE2-LABEL: test_v8i64:
213 ; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
214 ; SSE2-NEXT: movdqa %xmm2, %xmm5
215 ; SSE2-NEXT: pxor %xmm4, %xmm5
216 ; SSE2-NEXT: movdqa %xmm0, %xmm6
217 ; SSE2-NEXT: pxor %xmm4, %xmm6
218 ; SSE2-NEXT: movdqa %xmm6, %xmm7
219 ; SSE2-NEXT: pcmpgtd %xmm5, %xmm7
220 ; SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]
221 ; SSE2-NEXT: pcmpeqd %xmm5, %xmm6
222 ; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
223 ; SSE2-NEXT: pand %xmm8, %xmm6
224 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]
225 ; SSE2-NEXT: por %xmm6, %xmm5
226 ; SSE2-NEXT: pand %xmm5, %xmm0
227 ; SSE2-NEXT: pandn %xmm2, %xmm5
228 ; SSE2-NEXT: por %xmm0, %xmm5
229 ; SSE2-NEXT: movdqa %xmm3, %xmm0
230 ; SSE2-NEXT: pxor %xmm4, %xmm0
231 ; SSE2-NEXT: movdqa %xmm1, %xmm2
232 ; SSE2-NEXT: pxor %xmm4, %xmm2
233 ; SSE2-NEXT: movdqa %xmm2, %xmm6
234 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm6
235 ; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
236 ; SSE2-NEXT: pcmpeqd %xmm0, %xmm2
237 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]
238 ; SSE2-NEXT: pand %xmm7, %xmm0
239 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm6[1,1,3,3]
240 ; SSE2-NEXT: por %xmm0, %xmm2
241 ; SSE2-NEXT: pand %xmm2, %xmm1
242 ; SSE2-NEXT: pandn %xmm3, %xmm2
243 ; SSE2-NEXT: por %xmm1, %xmm2
244 ; SSE2-NEXT: movdqa %xmm2, %xmm0
245 ; SSE2-NEXT: pxor %xmm4, %xmm0
246 ; SSE2-NEXT: movdqa %xmm5, %xmm1
247 ; SSE2-NEXT: pxor %xmm4, %xmm1
248 ; SSE2-NEXT: movdqa %xmm1, %xmm3
249 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm3
250 ; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm3[0,0,2,2]
251 ; SSE2-NEXT: pcmpeqd %xmm0, %xmm1
252 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
253 ; SSE2-NEXT: pand %xmm6, %xmm0
254 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
255 ; SSE2-NEXT: por %xmm0, %xmm1
256 ; SSE2-NEXT: pand %xmm1, %xmm5
257 ; SSE2-NEXT: pandn %xmm2, %xmm1
258 ; SSE2-NEXT: por %xmm5, %xmm1
259 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
260 ; SSE2-NEXT: movdqa %xmm1, %xmm2
261 ; SSE2-NEXT: pxor %xmm4, %xmm2
262 ; SSE2-NEXT: pxor %xmm0, %xmm4
263 ; SSE2-NEXT: movdqa %xmm2, %xmm3
264 ; SSE2-NEXT: pcmpgtd %xmm4, %xmm3
265 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]
266 ; SSE2-NEXT: pcmpeqd %xmm2, %xmm4
267 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]
268 ; SSE2-NEXT: pand %xmm5, %xmm2
269 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
270 ; SSE2-NEXT: por %xmm2, %xmm3
271 ; SSE2-NEXT: pand %xmm3, %xmm1
272 ; SSE2-NEXT: pandn %xmm0, %xmm3
273 ; SSE2-NEXT: por %xmm1, %xmm3
274 ; SSE2-NEXT: movq %xmm3, %rax
277 ; SSE41-LABEL: test_v8i64:
279 ; SSE41-NEXT: movdqa %xmm0, %xmm4
280 ; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
281 ; SSE41-NEXT: movdqa %xmm2, %xmm6
282 ; SSE41-NEXT: pxor %xmm5, %xmm6
283 ; SSE41-NEXT: movdqa %xmm0, %xmm7
284 ; SSE41-NEXT: pxor %xmm5, %xmm7
285 ; SSE41-NEXT: movdqa %xmm7, %xmm0
286 ; SSE41-NEXT: pcmpgtd %xmm6, %xmm0
287 ; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]
288 ; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
289 ; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]
290 ; SSE41-NEXT: pand %xmm8, %xmm6
291 ; SSE41-NEXT: por %xmm6, %xmm0
292 ; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
293 ; SSE41-NEXT: movdqa %xmm3, %xmm0
294 ; SSE41-NEXT: pxor %xmm5, %xmm0
295 ; SSE41-NEXT: movdqa %xmm1, %xmm4
296 ; SSE41-NEXT: pxor %xmm5, %xmm4
297 ; SSE41-NEXT: movdqa %xmm4, %xmm6
298 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
299 ; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
300 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
301 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
302 ; SSE41-NEXT: pand %xmm7, %xmm0
303 ; SSE41-NEXT: por %xmm6, %xmm0
304 ; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
305 ; SSE41-NEXT: movapd %xmm3, %xmm0
306 ; SSE41-NEXT: xorpd %xmm5, %xmm0
307 ; SSE41-NEXT: movapd %xmm2, %xmm1
308 ; SSE41-NEXT: xorpd %xmm5, %xmm1
309 ; SSE41-NEXT: movapd %xmm1, %xmm4
310 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
311 ; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]
312 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
313 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
314 ; SSE41-NEXT: pand %xmm6, %xmm0
315 ; SSE41-NEXT: por %xmm4, %xmm0
316 ; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
317 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
318 ; SSE41-NEXT: movdqa %xmm3, %xmm0
319 ; SSE41-NEXT: pxor %xmm5, %xmm0
320 ; SSE41-NEXT: pxor %xmm1, %xmm5
321 ; SSE41-NEXT: movdqa %xmm0, %xmm2
322 ; SSE41-NEXT: pcmpgtd %xmm5, %xmm2
323 ; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
324 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
325 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
326 ; SSE41-NEXT: pand %xmm4, %xmm0
327 ; SSE41-NEXT: por %xmm2, %xmm0
328 ; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
329 ; SSE41-NEXT: movq %xmm1, %rax
332 ; AVX1-LABEL: test_v8i64:
334 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
335 ; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
336 ; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm4
337 ; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
338 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
339 ; AVX1-NEXT: vpxor %xmm2, %xmm4, %xmm5
340 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6
341 ; AVX1-NEXT: vpxor %xmm2, %xmm6, %xmm7
342 ; AVX1-NEXT: vpcmpgtq %xmm5, %xmm7, %xmm5
343 ; AVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm4, %xmm4
344 ; AVX1-NEXT: vxorpd %xmm2, %xmm4, %xmm5
345 ; AVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm0
346 ; AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm1
347 ; AVX1-NEXT: vpcmpgtq %xmm5, %xmm1, %xmm1
348 ; AVX1-NEXT: vblendvpd %xmm1, %xmm0, %xmm4, %xmm0
349 ; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
350 ; AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm3
351 ; AVX1-NEXT: vxorpd %xmm2, %xmm1, %xmm2
352 ; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
353 ; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
354 ; AVX1-NEXT: vmovq %xmm0, %rax
355 ; AVX1-NEXT: vzeroupper
358 ; AVX2-LABEL: test_v8i64:
360 ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
361 ; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3
362 ; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm4
363 ; AVX2-NEXT: vpcmpgtq %ymm3, %ymm4, %ymm3
364 ; AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
365 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
366 ; AVX2-NEXT: vxorpd %xmm2, %xmm1, %xmm3
367 ; AVX2-NEXT: vxorpd %xmm2, %xmm0, %xmm4
368 ; AVX2-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
369 ; AVX2-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm0
370 ; AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
371 ; AVX2-NEXT: vxorpd %xmm2, %xmm0, %xmm3
372 ; AVX2-NEXT: vxorpd %xmm2, %xmm1, %xmm2
373 ; AVX2-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
374 ; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
375 ; AVX2-NEXT: vmovq %xmm0, %rax
376 ; AVX2-NEXT: vzeroupper
379 ; AVX512BW-LABEL: test_v8i64:
381 ; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
382 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
383 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
384 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
385 ; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
386 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
387 ; AVX512BW-NEXT: vmovq %xmm0, %rax
388 ; AVX512BW-NEXT: vzeroupper
389 ; AVX512BW-NEXT: retq
391 ; AVX512VL-LABEL: test_v8i64:
393 ; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
394 ; AVX512VL-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
395 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
396 ; AVX512VL-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
397 ; AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
398 ; AVX512VL-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
399 ; AVX512VL-NEXT: vmovq %xmm0, %rax
400 ; AVX512VL-NEXT: vzeroupper
401 ; AVX512VL-NEXT: retq
402 %1 = call i64 @llvm.experimental.vector.reduce.umax.v8i64(<8 x i64> %a0)
406 define i64 @test_v16i64(<16 x i64> %a0) {
407 ; SSE2-LABEL: test_v16i64:
409 ; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
410 ; SSE2-NEXT: movdqa %xmm5, %xmm9
411 ; SSE2-NEXT: pxor %xmm8, %xmm9
412 ; SSE2-NEXT: movdqa %xmm1, %xmm10
413 ; SSE2-NEXT: pxor %xmm8, %xmm10
414 ; SSE2-NEXT: movdqa %xmm10, %xmm11
415 ; SSE2-NEXT: pcmpgtd %xmm9, %xmm11
416 ; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]
417 ; SSE2-NEXT: pcmpeqd %xmm9, %xmm10
418 ; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm10[1,1,3,3]
419 ; SSE2-NEXT: pand %xmm12, %xmm10
420 ; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm11[1,1,3,3]
421 ; SSE2-NEXT: por %xmm10, %xmm9
422 ; SSE2-NEXT: pand %xmm9, %xmm1
423 ; SSE2-NEXT: pandn %xmm5, %xmm9
424 ; SSE2-NEXT: por %xmm1, %xmm9
425 ; SSE2-NEXT: movdqa %xmm7, %xmm1
426 ; SSE2-NEXT: pxor %xmm8, %xmm1
427 ; SSE2-NEXT: movdqa %xmm3, %xmm5
428 ; SSE2-NEXT: pxor %xmm8, %xmm5
429 ; SSE2-NEXT: movdqa %xmm5, %xmm10
430 ; SSE2-NEXT: pcmpgtd %xmm1, %xmm10
431 ; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
432 ; SSE2-NEXT: pcmpeqd %xmm1, %xmm5
433 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
434 ; SSE2-NEXT: pand %xmm11, %xmm5
435 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm10[1,1,3,3]
436 ; SSE2-NEXT: por %xmm5, %xmm1
437 ; SSE2-NEXT: pand %xmm1, %xmm3
438 ; SSE2-NEXT: pandn %xmm7, %xmm1
439 ; SSE2-NEXT: por %xmm3, %xmm1
440 ; SSE2-NEXT: movdqa %xmm4, %xmm3
441 ; SSE2-NEXT: pxor %xmm8, %xmm3
442 ; SSE2-NEXT: movdqa %xmm0, %xmm5
443 ; SSE2-NEXT: pxor %xmm8, %xmm5
444 ; SSE2-NEXT: movdqa %xmm5, %xmm7
445 ; SSE2-NEXT: pcmpgtd %xmm3, %xmm7
446 ; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm7[0,0,2,2]
447 ; SSE2-NEXT: pcmpeqd %xmm3, %xmm5
448 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
449 ; SSE2-NEXT: pand %xmm10, %xmm5
450 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm7[1,1,3,3]
451 ; SSE2-NEXT: por %xmm5, %xmm3
452 ; SSE2-NEXT: pand %xmm3, %xmm0
453 ; SSE2-NEXT: pandn %xmm4, %xmm3
454 ; SSE2-NEXT: por %xmm0, %xmm3
455 ; SSE2-NEXT: movdqa %xmm6, %xmm0
456 ; SSE2-NEXT: pxor %xmm8, %xmm0
457 ; SSE2-NEXT: movdqa %xmm2, %xmm4
458 ; SSE2-NEXT: pxor %xmm8, %xmm4
459 ; SSE2-NEXT: movdqa %xmm4, %xmm5
460 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
461 ; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,0,2,2]
462 ; SSE2-NEXT: pcmpeqd %xmm0, %xmm4
463 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
464 ; SSE2-NEXT: pand %xmm7, %xmm0
465 ; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
466 ; SSE2-NEXT: por %xmm0, %xmm4
467 ; SSE2-NEXT: pand %xmm4, %xmm2
468 ; SSE2-NEXT: pandn %xmm6, %xmm4
469 ; SSE2-NEXT: por %xmm2, %xmm4
470 ; SSE2-NEXT: movdqa %xmm4, %xmm0
471 ; SSE2-NEXT: pxor %xmm8, %xmm0
472 ; SSE2-NEXT: movdqa %xmm3, %xmm2
473 ; SSE2-NEXT: pxor %xmm8, %xmm2
474 ; SSE2-NEXT: movdqa %xmm2, %xmm5
475 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
476 ; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
477 ; SSE2-NEXT: pcmpeqd %xmm0, %xmm2
478 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
479 ; SSE2-NEXT: pand %xmm6, %xmm2
480 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
481 ; SSE2-NEXT: por %xmm2, %xmm0
482 ; SSE2-NEXT: pand %xmm0, %xmm3
483 ; SSE2-NEXT: pandn %xmm4, %xmm0
484 ; SSE2-NEXT: por %xmm3, %xmm0
485 ; SSE2-NEXT: movdqa %xmm1, %xmm2
486 ; SSE2-NEXT: pxor %xmm8, %xmm2
487 ; SSE2-NEXT: movdqa %xmm9, %xmm3
488 ; SSE2-NEXT: pxor %xmm8, %xmm3
489 ; SSE2-NEXT: movdqa %xmm3, %xmm4
490 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
491 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
492 ; SSE2-NEXT: pcmpeqd %xmm2, %xmm3
493 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
494 ; SSE2-NEXT: pand %xmm5, %xmm2
495 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
496 ; SSE2-NEXT: por %xmm2, %xmm3
497 ; SSE2-NEXT: pand %xmm3, %xmm9
498 ; SSE2-NEXT: pandn %xmm1, %xmm3
499 ; SSE2-NEXT: por %xmm9, %xmm3
500 ; SSE2-NEXT: movdqa %xmm3, %xmm1
501 ; SSE2-NEXT: pxor %xmm8, %xmm1
502 ; SSE2-NEXT: movdqa %xmm0, %xmm2
503 ; SSE2-NEXT: pxor %xmm8, %xmm2
504 ; SSE2-NEXT: movdqa %xmm2, %xmm4
505 ; SSE2-NEXT: pcmpgtd %xmm1, %xmm4
506 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
507 ; SSE2-NEXT: pcmpeqd %xmm1, %xmm2
508 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
509 ; SSE2-NEXT: pand %xmm5, %xmm1
510 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]
511 ; SSE2-NEXT: por %xmm1, %xmm2
512 ; SSE2-NEXT: pand %xmm2, %xmm0
513 ; SSE2-NEXT: pandn %xmm3, %xmm2
514 ; SSE2-NEXT: por %xmm0, %xmm2
515 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
516 ; SSE2-NEXT: movdqa %xmm2, %xmm1
517 ; SSE2-NEXT: pxor %xmm8, %xmm1
518 ; SSE2-NEXT: pxor %xmm0, %xmm8
519 ; SSE2-NEXT: movdqa %xmm1, %xmm3
520 ; SSE2-NEXT: pcmpgtd %xmm8, %xmm3
521 ; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
522 ; SSE2-NEXT: pcmpeqd %xmm1, %xmm8
523 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm8[1,1,3,3]
524 ; SSE2-NEXT: pand %xmm4, %xmm1
525 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
526 ; SSE2-NEXT: por %xmm1, %xmm3
527 ; SSE2-NEXT: pand %xmm3, %xmm2
528 ; SSE2-NEXT: pandn %xmm0, %xmm3
529 ; SSE2-NEXT: por %xmm2, %xmm3
530 ; SSE2-NEXT: movq %xmm3, %rax
533 ; SSE41-LABEL: test_v16i64:
535 ; SSE41-NEXT: movdqa %xmm0, %xmm8
536 ; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]
537 ; SSE41-NEXT: movdqa %xmm5, %xmm10
538 ; SSE41-NEXT: pxor %xmm9, %xmm10
539 ; SSE41-NEXT: movdqa %xmm1, %xmm0
540 ; SSE41-NEXT: pxor %xmm9, %xmm0
541 ; SSE41-NEXT: movdqa %xmm0, %xmm11
542 ; SSE41-NEXT: pcmpgtd %xmm10, %xmm11
543 ; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]
544 ; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
545 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
546 ; SSE41-NEXT: pand %xmm12, %xmm0
547 ; SSE41-NEXT: por %xmm11, %xmm0
548 ; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
549 ; SSE41-NEXT: movdqa %xmm7, %xmm0
550 ; SSE41-NEXT: pxor %xmm9, %xmm0
551 ; SSE41-NEXT: movdqa %xmm3, %xmm1
552 ; SSE41-NEXT: pxor %xmm9, %xmm1
553 ; SSE41-NEXT: movdqa %xmm1, %xmm10
554 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
555 ; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
556 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
557 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
558 ; SSE41-NEXT: pand %xmm11, %xmm0
559 ; SSE41-NEXT: por %xmm10, %xmm0
560 ; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
561 ; SSE41-NEXT: movdqa %xmm4, %xmm1
562 ; SSE41-NEXT: pxor %xmm9, %xmm1
563 ; SSE41-NEXT: movdqa %xmm8, %xmm3
564 ; SSE41-NEXT: pxor %xmm9, %xmm3
565 ; SSE41-NEXT: movdqa %xmm3, %xmm0
566 ; SSE41-NEXT: pcmpgtd %xmm1, %xmm0
567 ; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm0[0,0,2,2]
568 ; SSE41-NEXT: pcmpeqd %xmm1, %xmm3
569 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
570 ; SSE41-NEXT: pand %xmm10, %xmm1
571 ; SSE41-NEXT: por %xmm1, %xmm0
572 ; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
573 ; SSE41-NEXT: movdqa %xmm6, %xmm0
574 ; SSE41-NEXT: pxor %xmm9, %xmm0
575 ; SSE41-NEXT: movdqa %xmm2, %xmm1
576 ; SSE41-NEXT: pxor %xmm9, %xmm1
577 ; SSE41-NEXT: movdqa %xmm1, %xmm3
578 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
579 ; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]
580 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
581 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
582 ; SSE41-NEXT: pand %xmm8, %xmm0
583 ; SSE41-NEXT: por %xmm3, %xmm0
584 ; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
585 ; SSE41-NEXT: movapd %xmm6, %xmm0
586 ; SSE41-NEXT: xorpd %xmm9, %xmm0
587 ; SSE41-NEXT: movapd %xmm4, %xmm1
588 ; SSE41-NEXT: xorpd %xmm9, %xmm1
589 ; SSE41-NEXT: movapd %xmm1, %xmm2
590 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
591 ; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
592 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
593 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
594 ; SSE41-NEXT: pand %xmm3, %xmm0
595 ; SSE41-NEXT: por %xmm2, %xmm0
596 ; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
597 ; SSE41-NEXT: movapd %xmm7, %xmm0
598 ; SSE41-NEXT: xorpd %xmm9, %xmm0
599 ; SSE41-NEXT: movapd %xmm5, %xmm1
600 ; SSE41-NEXT: xorpd %xmm9, %xmm1
601 ; SSE41-NEXT: movapd %xmm1, %xmm2
602 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
603 ; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
604 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
605 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
606 ; SSE41-NEXT: pand %xmm3, %xmm0
607 ; SSE41-NEXT: por %xmm2, %xmm0
608 ; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
609 ; SSE41-NEXT: movapd %xmm7, %xmm0
610 ; SSE41-NEXT: xorpd %xmm9, %xmm0
611 ; SSE41-NEXT: movapd %xmm6, %xmm1
612 ; SSE41-NEXT: xorpd %xmm9, %xmm1
613 ; SSE41-NEXT: movapd %xmm1, %xmm2
614 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
615 ; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
616 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
617 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
618 ; SSE41-NEXT: pand %xmm3, %xmm0
619 ; SSE41-NEXT: por %xmm2, %xmm0
620 ; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
621 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
622 ; SSE41-NEXT: movdqa %xmm7, %xmm0
623 ; SSE41-NEXT: pxor %xmm9, %xmm0
624 ; SSE41-NEXT: pxor %xmm1, %xmm9
625 ; SSE41-NEXT: movdqa %xmm0, %xmm2
626 ; SSE41-NEXT: pcmpgtd %xmm9, %xmm2
627 ; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
628 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm9
629 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]
630 ; SSE41-NEXT: pand %xmm3, %xmm0
631 ; SSE41-NEXT: por %xmm2, %xmm0
632 ; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
633 ; SSE41-NEXT: movq %xmm1, %rax
636 ; AVX1-LABEL: test_v16i64:
638 ; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm8
639 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
640 ; AVX1-NEXT: vpxor %xmm4, %xmm8, %xmm6
641 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm10
642 ; AVX1-NEXT: vpxor %xmm4, %xmm10, %xmm5
643 ; AVX1-NEXT: vpcmpgtq %xmm6, %xmm5, %xmm9
644 ; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm11
645 ; AVX1-NEXT: vpxor %xmm4, %xmm11, %xmm5
646 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm7
647 ; AVX1-NEXT: vpxor %xmm4, %xmm7, %xmm6
648 ; AVX1-NEXT: vpcmpgtq %xmm5, %xmm6, %xmm12
649 ; AVX1-NEXT: vpxor %xmm4, %xmm2, %xmm6
650 ; AVX1-NEXT: vpxor %xmm4, %xmm0, %xmm5
651 ; AVX1-NEXT: vpcmpgtq %xmm6, %xmm5, %xmm13
652 ; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm6
653 ; AVX1-NEXT: vpxor %xmm4, %xmm1, %xmm5
654 ; AVX1-NEXT: vpcmpgtq %xmm6, %xmm5, %xmm5
655 ; AVX1-NEXT: vblendvpd %xmm5, %xmm1, %xmm3, %xmm1
656 ; AVX1-NEXT: vxorpd %xmm4, %xmm1, %xmm3
657 ; AVX1-NEXT: vblendvpd %xmm13, %xmm0, %xmm2, %xmm0
658 ; AVX1-NEXT: vxorpd %xmm4, %xmm0, %xmm2
659 ; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
660 ; AVX1-NEXT: vblendvpd %xmm12, %xmm7, %xmm11, %xmm3
661 ; AVX1-NEXT: vxorpd %xmm4, %xmm3, %xmm5
662 ; AVX1-NEXT: vblendvpd %xmm9, %xmm10, %xmm8, %xmm6
663 ; AVX1-NEXT: vxorpd %xmm4, %xmm6, %xmm7
664 ; AVX1-NEXT: vpcmpgtq %xmm5, %xmm7, %xmm5
665 ; AVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm3, %xmm3
666 ; AVX1-NEXT: vxorpd %xmm4, %xmm3, %xmm5
667 ; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
668 ; AVX1-NEXT: vxorpd %xmm4, %xmm0, %xmm1
669 ; AVX1-NEXT: vpcmpgtq %xmm5, %xmm1, %xmm1
670 ; AVX1-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
671 ; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
672 ; AVX1-NEXT: vxorpd %xmm4, %xmm0, %xmm2
673 ; AVX1-NEXT: vxorpd %xmm4, %xmm1, %xmm3
674 ; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
675 ; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
676 ; AVX1-NEXT: vmovq %xmm0, %rax
677 ; AVX1-NEXT: vzeroupper
680 ; AVX2-LABEL: test_v16i64:
682 ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
683 ; AVX2-NEXT: vpxor %ymm4, %ymm2, %ymm5
684 ; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm6
685 ; AVX2-NEXT: vpcmpgtq %ymm5, %ymm6, %ymm5
686 ; AVX2-NEXT: vblendvpd %ymm5, %ymm0, %ymm2, %ymm0
687 ; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm2
688 ; AVX2-NEXT: vpxor %ymm4, %ymm1, %ymm5
689 ; AVX2-NEXT: vpcmpgtq %ymm2, %ymm5, %ymm2
690 ; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm3, %ymm1
691 ; AVX2-NEXT: vxorpd %ymm4, %ymm1, %ymm2
692 ; AVX2-NEXT: vxorpd %ymm4, %ymm0, %ymm3
693 ; AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
694 ; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
695 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
696 ; AVX2-NEXT: vxorpd %xmm4, %xmm1, %xmm2
697 ; AVX2-NEXT: vxorpd %xmm4, %xmm0, %xmm3
698 ; AVX2-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
699 ; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
700 ; AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
701 ; AVX2-NEXT: vxorpd %xmm4, %xmm0, %xmm2
702 ; AVX2-NEXT: vxorpd %xmm4, %xmm1, %xmm3
703 ; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
704 ; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
705 ; AVX2-NEXT: vmovq %xmm0, %rax
706 ; AVX2-NEXT: vzeroupper
709 ; AVX512BW-LABEL: test_v16i64:
711 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
712 ; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
713 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
714 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
715 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
716 ; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
717 ; AVX512BW-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
718 ; AVX512BW-NEXT: vmovq %xmm0, %rax
719 ; AVX512BW-NEXT: vzeroupper
720 ; AVX512BW-NEXT: retq
722 ; AVX512VL-LABEL: test_v16i64:
724 ; AVX512VL-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
725 ; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
726 ; AVX512VL-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
727 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
728 ; AVX512VL-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
729 ; AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
730 ; AVX512VL-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
731 ; AVX512VL-NEXT: vmovq %xmm0, %rax
732 ; AVX512VL-NEXT: vzeroupper
733 ; AVX512VL-NEXT: retq
734 %1 = call i64 @llvm.experimental.vector.reduce.umax.v16i64(<16 x i64> %a0)
742 define i32 @test_v2i32(<2 x i32> %a0) {
743 ; SSE2-LABEL: test_v2i32:
745 ; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [4294967295,0,4294967295,0]
746 ; SSE2-NEXT: pand %xmm0, %xmm1
747 ; SSE2-NEXT: pxor %xmm2, %xmm2
748 ; SSE2-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]
749 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
750 ; SSE2-NEXT: movdqa %xmm0, %xmm3
751 ; SSE2-NEXT: pxor %xmm2, %xmm3
752 ; SSE2-NEXT: pxor %xmm1, %xmm2
753 ; SSE2-NEXT: movdqa %xmm2, %xmm4
754 ; SSE2-NEXT: pcmpgtd %xmm3, %xmm4
755 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
756 ; SSE2-NEXT: pcmpeqd %xmm3, %xmm2
757 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
758 ; SSE2-NEXT: pand %xmm5, %xmm2
759 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
760 ; SSE2-NEXT: por %xmm2, %xmm3
761 ; SSE2-NEXT: pand %xmm3, %xmm1
762 ; SSE2-NEXT: pandn %xmm0, %xmm3
763 ; SSE2-NEXT: por %xmm1, %xmm3
764 ; SSE2-NEXT: movd %xmm3, %eax
767 ; SSE41-LABEL: test_v2i32:
769 ; SSE41-NEXT: pxor %xmm1, %xmm1
770 ; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
771 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
772 ; SSE41-NEXT: pmovzxdq {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero
773 ; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
774 ; SSE41-NEXT: movdqa %xmm1, %xmm3
775 ; SSE41-NEXT: pxor %xmm0, %xmm3
776 ; SSE41-NEXT: pxor %xmm2, %xmm0
777 ; SSE41-NEXT: movdqa %xmm3, %xmm4
778 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
779 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
780 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
781 ; SSE41-NEXT: pand %xmm4, %xmm0
782 ; SSE41-NEXT: por %xmm3, %xmm0
783 ; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
784 ; SSE41-NEXT: movd %xmm2, %eax
787 ; AVX1-LABEL: test_v2i32:
789 ; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
790 ; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
791 ; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm0 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
792 ; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm1
793 ; AVX1-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0
794 ; AVX1-NEXT: vmovd %xmm0, %eax
797 ; AVX2-LABEL: test_v2i32:
799 ; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
800 ; AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
801 ; AVX2-NEXT: vpunpckhdq {{.*#+}} xmm0 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
802 ; AVX2-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm1
803 ; AVX2-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0
804 ; AVX2-NEXT: vmovd %xmm0, %eax
807 ; AVX512BW-LABEL: test_v2i32:
809 ; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
810 ; AVX512BW-NEXT: vpblendd {{.*#+}} xmm2 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
811 ; AVX512BW-NEXT: vpunpckhdq {{.*#+}} xmm0 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
812 ; AVX512BW-NEXT: vpmaxuq %zmm0, %zmm2, %zmm0
813 ; AVX512BW-NEXT: vmovd %xmm0, %eax
814 ; AVX512BW-NEXT: vzeroupper
815 ; AVX512BW-NEXT: retq
817 ; AVX512VL-LABEL: test_v2i32:
819 ; AVX512VL-NEXT: vpxor %xmm1, %xmm1, %xmm1
820 ; AVX512VL-NEXT: vpblendd {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
821 ; AVX512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
822 ; AVX512VL-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
823 ; AVX512VL-NEXT: vpmaxuq %xmm0, %xmm1, %xmm0
824 ; AVX512VL-NEXT: vmovd %xmm0, %eax
825 ; AVX512VL-NEXT: retq
826 %1 = call i32 @llvm.experimental.vector.reduce.umax.v2i32(<2 x i32> %a0)
830 define i32 @test_v4i32(<4 x i32> %a0) {
831 ; SSE2-LABEL: test_v4i32:
833 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
834 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
835 ; SSE2-NEXT: movdqa %xmm0, %xmm3
836 ; SSE2-NEXT: pxor %xmm2, %xmm3
837 ; SSE2-NEXT: movdqa %xmm1, %xmm4
838 ; SSE2-NEXT: pxor %xmm2, %xmm4
839 ; SSE2-NEXT: pcmpgtd %xmm4, %xmm3
840 ; SSE2-NEXT: pand %xmm3, %xmm0
841 ; SSE2-NEXT: pandn %xmm1, %xmm3
842 ; SSE2-NEXT: por %xmm0, %xmm3
843 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]
844 ; SSE2-NEXT: movdqa %xmm3, %xmm1
845 ; SSE2-NEXT: pxor %xmm2, %xmm1
846 ; SSE2-NEXT: pxor %xmm0, %xmm2
847 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm1
848 ; SSE2-NEXT: pand %xmm1, %xmm3
849 ; SSE2-NEXT: pandn %xmm0, %xmm1
850 ; SSE2-NEXT: por %xmm3, %xmm1
851 ; SSE2-NEXT: movd %xmm1, %eax
854 ; SSE41-LABEL: test_v4i32:
856 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
857 ; SSE41-NEXT: pmaxud %xmm0, %xmm1
858 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
859 ; SSE41-NEXT: pmaxud %xmm1, %xmm0
860 ; SSE41-NEXT: movd %xmm0, %eax
863 ; AVX-LABEL: test_v4i32:
865 ; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
866 ; AVX-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
867 ; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
868 ; AVX-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
869 ; AVX-NEXT: vmovd %xmm0, %eax
872 ; AVX512-LABEL: test_v4i32:
874 ; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
875 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
876 ; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
877 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
878 ; AVX512-NEXT: vmovd %xmm0, %eax
880 %1 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %a0)
884 define i32 @test_v8i32(<8 x i32> %a0) {
885 ; SSE2-LABEL: test_v8i32:
887 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
888 ; SSE2-NEXT: movdqa %xmm1, %xmm3
889 ; SSE2-NEXT: pxor %xmm2, %xmm3
890 ; SSE2-NEXT: movdqa %xmm0, %xmm4
891 ; SSE2-NEXT: pxor %xmm2, %xmm4
892 ; SSE2-NEXT: pcmpgtd %xmm3, %xmm4
893 ; SSE2-NEXT: pand %xmm4, %xmm0
894 ; SSE2-NEXT: pandn %xmm1, %xmm4
895 ; SSE2-NEXT: por %xmm0, %xmm4
896 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[2,3,0,1]
897 ; SSE2-NEXT: movdqa %xmm4, %xmm1
898 ; SSE2-NEXT: pxor %xmm2, %xmm1
899 ; SSE2-NEXT: movdqa %xmm0, %xmm3
900 ; SSE2-NEXT: pxor %xmm2, %xmm3
901 ; SSE2-NEXT: pcmpgtd %xmm3, %xmm1
902 ; SSE2-NEXT: pand %xmm1, %xmm4
903 ; SSE2-NEXT: pandn %xmm0, %xmm1
904 ; SSE2-NEXT: por %xmm4, %xmm1
905 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
906 ; SSE2-NEXT: movdqa %xmm1, %xmm3
907 ; SSE2-NEXT: pxor %xmm2, %xmm3
908 ; SSE2-NEXT: pxor %xmm0, %xmm2
909 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm3
910 ; SSE2-NEXT: pand %xmm3, %xmm1
911 ; SSE2-NEXT: pandn %xmm0, %xmm3
912 ; SSE2-NEXT: por %xmm1, %xmm3
913 ; SSE2-NEXT: movd %xmm3, %eax
916 ; SSE41-LABEL: test_v8i32:
918 ; SSE41-NEXT: pmaxud %xmm1, %xmm0
919 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
920 ; SSE41-NEXT: pmaxud %xmm0, %xmm1
921 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
922 ; SSE41-NEXT: pmaxud %xmm1, %xmm0
923 ; SSE41-NEXT: movd %xmm0, %eax
926 ; AVX1-LABEL: test_v8i32:
928 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
929 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
930 ; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
931 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
932 ; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
933 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
934 ; AVX1-NEXT: vmovd %xmm0, %eax
935 ; AVX1-NEXT: vzeroupper
938 ; AVX2-LABEL: test_v8i32:
940 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
941 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
942 ; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
943 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
944 ; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
945 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
946 ; AVX2-NEXT: vmovd %xmm0, %eax
947 ; AVX2-NEXT: vzeroupper
950 ; AVX512-LABEL: test_v8i32:
952 ; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
953 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
954 ; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
955 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
956 ; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
957 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
958 ; AVX512-NEXT: vmovd %xmm0, %eax
959 ; AVX512-NEXT: vzeroupper
961 %1 = call i32 @llvm.experimental.vector.reduce.umax.v8i32(<8 x i32> %a0)
965 define i32 @test_v16i32(<16 x i32> %a0) {
966 ; SSE2-LABEL: test_v16i32:
968 ; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
969 ; SSE2-NEXT: movdqa %xmm2, %xmm6
970 ; SSE2-NEXT: pxor %xmm4, %xmm6
971 ; SSE2-NEXT: movdqa %xmm0, %xmm5
972 ; SSE2-NEXT: pxor %xmm4, %xmm5
973 ; SSE2-NEXT: pcmpgtd %xmm6, %xmm5
974 ; SSE2-NEXT: pand %xmm5, %xmm0
975 ; SSE2-NEXT: pandn %xmm2, %xmm5
976 ; SSE2-NEXT: por %xmm0, %xmm5
977 ; SSE2-NEXT: movdqa %xmm3, %xmm0
978 ; SSE2-NEXT: pxor %xmm4, %xmm0
979 ; SSE2-NEXT: movdqa %xmm1, %xmm2
980 ; SSE2-NEXT: pxor %xmm4, %xmm2
981 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm2
982 ; SSE2-NEXT: pand %xmm2, %xmm1
983 ; SSE2-NEXT: pandn %xmm3, %xmm2
984 ; SSE2-NEXT: por %xmm1, %xmm2
985 ; SSE2-NEXT: movdqa %xmm2, %xmm0
986 ; SSE2-NEXT: pxor %xmm4, %xmm0
987 ; SSE2-NEXT: movdqa %xmm5, %xmm1
988 ; SSE2-NEXT: pxor %xmm4, %xmm1
989 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm1
990 ; SSE2-NEXT: pand %xmm1, %xmm5
991 ; SSE2-NEXT: pandn %xmm2, %xmm1
992 ; SSE2-NEXT: por %xmm5, %xmm1
993 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
994 ; SSE2-NEXT: movdqa %xmm1, %xmm2
995 ; SSE2-NEXT: pxor %xmm4, %xmm2
996 ; SSE2-NEXT: movdqa %xmm0, %xmm3
997 ; SSE2-NEXT: pxor %xmm4, %xmm3
998 ; SSE2-NEXT: pcmpgtd %xmm3, %xmm2
999 ; SSE2-NEXT: pand %xmm2, %xmm1
1000 ; SSE2-NEXT: pandn %xmm0, %xmm2
1001 ; SSE2-NEXT: por %xmm1, %xmm2
1002 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]
1003 ; SSE2-NEXT: movdqa %xmm2, %xmm1
1004 ; SSE2-NEXT: pxor %xmm4, %xmm1
1005 ; SSE2-NEXT: pxor %xmm0, %xmm4
1006 ; SSE2-NEXT: pcmpgtd %xmm4, %xmm1
1007 ; SSE2-NEXT: pand %xmm1, %xmm2
1008 ; SSE2-NEXT: pandn %xmm0, %xmm1
1009 ; SSE2-NEXT: por %xmm2, %xmm1
1010 ; SSE2-NEXT: movd %xmm1, %eax
1013 ; SSE41-LABEL: test_v16i32:
1015 ; SSE41-NEXT: pmaxud %xmm3, %xmm1
1016 ; SSE41-NEXT: pmaxud %xmm2, %xmm1
1017 ; SSE41-NEXT: pmaxud %xmm0, %xmm1
1018 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
1019 ; SSE41-NEXT: pmaxud %xmm1, %xmm0
1020 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
1021 ; SSE41-NEXT: pmaxud %xmm0, %xmm1
1022 ; SSE41-NEXT: movd %xmm1, %eax
1025 ; AVX1-LABEL: test_v16i32:
1027 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
1028 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
1029 ; AVX1-NEXT: vpmaxud %xmm2, %xmm3, %xmm2
1030 ; AVX1-NEXT: vpmaxud %xmm2, %xmm1, %xmm1
1031 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1032 ; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
1033 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1034 ; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
1035 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1036 ; AVX1-NEXT: vmovd %xmm0, %eax
1037 ; AVX1-NEXT: vzeroupper
1040 ; AVX2-LABEL: test_v16i32:
1042 ; AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
1043 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
1044 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1045 ; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
1046 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1047 ; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
1048 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1049 ; AVX2-NEXT: vmovd %xmm0, %eax
1050 ; AVX2-NEXT: vzeroupper
1053 ; AVX512-LABEL: test_v16i32:
1055 ; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
1056 ; AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0
1057 ; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
1058 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1059 ; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
1060 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1061 ; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
1062 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1063 ; AVX512-NEXT: vmovd %xmm0, %eax
1064 ; AVX512-NEXT: vzeroupper
1066 %1 = call i32 @llvm.experimental.vector.reduce.umax.v16i32(<16 x i32> %a0)
1070 define i32 @test_v32i32(<32 x i32> %a0) {
1071 ; SSE2-LABEL: test_v32i32:
1073 ; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
1074 ; SSE2-NEXT: movdqa %xmm5, %xmm10
1075 ; SSE2-NEXT: pxor %xmm8, %xmm10
1076 ; SSE2-NEXT: movdqa %xmm1, %xmm9
1077 ; SSE2-NEXT: pxor %xmm8, %xmm9
1078 ; SSE2-NEXT: pcmpgtd %xmm10, %xmm9
1079 ; SSE2-NEXT: pand %xmm9, %xmm1
1080 ; SSE2-NEXT: pandn %xmm5, %xmm9
1081 ; SSE2-NEXT: por %xmm1, %xmm9
1082 ; SSE2-NEXT: movdqa %xmm7, %xmm5
1083 ; SSE2-NEXT: pxor %xmm8, %xmm5
1084 ; SSE2-NEXT: movdqa %xmm3, %xmm1
1085 ; SSE2-NEXT: pxor %xmm8, %xmm1
1086 ; SSE2-NEXT: pcmpgtd %xmm5, %xmm1
1087 ; SSE2-NEXT: pand %xmm1, %xmm3
1088 ; SSE2-NEXT: pandn %xmm7, %xmm1
1089 ; SSE2-NEXT: por %xmm3, %xmm1
1090 ; SSE2-NEXT: movdqa %xmm4, %xmm5
1091 ; SSE2-NEXT: pxor %xmm8, %xmm5
1092 ; SSE2-NEXT: movdqa %xmm0, %xmm3
1093 ; SSE2-NEXT: pxor %xmm8, %xmm3
1094 ; SSE2-NEXT: pcmpgtd %xmm5, %xmm3
1095 ; SSE2-NEXT: pand %xmm3, %xmm0
1096 ; SSE2-NEXT: pandn %xmm4, %xmm3
1097 ; SSE2-NEXT: por %xmm0, %xmm3
1098 ; SSE2-NEXT: movdqa %xmm6, %xmm0
1099 ; SSE2-NEXT: pxor %xmm8, %xmm0
1100 ; SSE2-NEXT: movdqa %xmm2, %xmm4
1101 ; SSE2-NEXT: pxor %xmm8, %xmm4
1102 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm4
1103 ; SSE2-NEXT: pand %xmm4, %xmm2
1104 ; SSE2-NEXT: pandn %xmm6, %xmm4
1105 ; SSE2-NEXT: por %xmm2, %xmm4
1106 ; SSE2-NEXT: movdqa %xmm4, %xmm2
1107 ; SSE2-NEXT: pxor %xmm8, %xmm2
1108 ; SSE2-NEXT: movdqa %xmm3, %xmm0
1109 ; SSE2-NEXT: pxor %xmm8, %xmm0
1110 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm0
1111 ; SSE2-NEXT: pand %xmm0, %xmm3
1112 ; SSE2-NEXT: pandn %xmm4, %xmm0
1113 ; SSE2-NEXT: por %xmm3, %xmm0
1114 ; SSE2-NEXT: movdqa %xmm1, %xmm2
1115 ; SSE2-NEXT: pxor %xmm8, %xmm2
1116 ; SSE2-NEXT: movdqa %xmm9, %xmm3
1117 ; SSE2-NEXT: pxor %xmm8, %xmm3
1118 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm3
1119 ; SSE2-NEXT: pand %xmm3, %xmm9
1120 ; SSE2-NEXT: pandn %xmm1, %xmm3
1121 ; SSE2-NEXT: por %xmm9, %xmm3
1122 ; SSE2-NEXT: movdqa %xmm3, %xmm1
1123 ; SSE2-NEXT: pxor %xmm8, %xmm1
1124 ; SSE2-NEXT: movdqa %xmm0, %xmm2
1125 ; SSE2-NEXT: pxor %xmm8, %xmm2
1126 ; SSE2-NEXT: pcmpgtd %xmm1, %xmm2
1127 ; SSE2-NEXT: pand %xmm2, %xmm0
1128 ; SSE2-NEXT: pandn %xmm3, %xmm2
1129 ; SSE2-NEXT: por %xmm0, %xmm2
1130 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
1131 ; SSE2-NEXT: movdqa %xmm2, %xmm1
1132 ; SSE2-NEXT: pxor %xmm8, %xmm1
1133 ; SSE2-NEXT: movdqa %xmm0, %xmm3
1134 ; SSE2-NEXT: pxor %xmm8, %xmm3
1135 ; SSE2-NEXT: pcmpgtd %xmm3, %xmm1
1136 ; SSE2-NEXT: pand %xmm1, %xmm2
1137 ; SSE2-NEXT: pandn %xmm0, %xmm1
1138 ; SSE2-NEXT: por %xmm2, %xmm1
1139 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
1140 ; SSE2-NEXT: movdqa %xmm1, %xmm2
1141 ; SSE2-NEXT: pxor %xmm8, %xmm2
1142 ; SSE2-NEXT: pxor %xmm0, %xmm8
1143 ; SSE2-NEXT: pcmpgtd %xmm8, %xmm2
1144 ; SSE2-NEXT: pand %xmm2, %xmm1
1145 ; SSE2-NEXT: pandn %xmm0, %xmm2
1146 ; SSE2-NEXT: por %xmm1, %xmm2
1147 ; SSE2-NEXT: movd %xmm2, %eax
1150 ; SSE41-LABEL: test_v32i32:
1152 ; SSE41-NEXT: pmaxud %xmm6, %xmm2
1153 ; SSE41-NEXT: pmaxud %xmm7, %xmm3
1154 ; SSE41-NEXT: pmaxud %xmm5, %xmm3
1155 ; SSE41-NEXT: pmaxud %xmm1, %xmm3
1156 ; SSE41-NEXT: pmaxud %xmm4, %xmm2
1157 ; SSE41-NEXT: pmaxud %xmm3, %xmm2
1158 ; SSE41-NEXT: pmaxud %xmm0, %xmm2
1159 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
1160 ; SSE41-NEXT: pmaxud %xmm2, %xmm0
1161 ; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
1162 ; SSE41-NEXT: pmaxud %xmm0, %xmm1
1163 ; SSE41-NEXT: movd %xmm1, %eax
1166 ; AVX1-LABEL: test_v32i32:
1168 ; AVX1-NEXT: vpmaxud %xmm3, %xmm1, %xmm4
1169 ; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
1170 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
1171 ; AVX1-NEXT: vpmaxud %xmm3, %xmm1, %xmm1
1172 ; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
1173 ; AVX1-NEXT: vpmaxud %xmm1, %xmm3, %xmm1
1174 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
1175 ; AVX1-NEXT: vpmaxud %xmm1, %xmm3, %xmm1
1176 ; AVX1-NEXT: vpmaxud %xmm4, %xmm2, %xmm2
1177 ; AVX1-NEXT: vpmaxud %xmm1, %xmm2, %xmm1
1178 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1179 ; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
1180 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1181 ; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
1182 ; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1183 ; AVX1-NEXT: vmovd %xmm0, %eax
1184 ; AVX1-NEXT: vzeroupper
1187 ; AVX2-LABEL: test_v32i32:
1189 ; AVX2-NEXT: vpmaxud %ymm3, %ymm1, %ymm1
1190 ; AVX2-NEXT: vpmaxud %ymm1, %ymm2, %ymm1
1191 ; AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
1192 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
1193 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1194 ; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
1195 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1196 ; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
1197 ; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1198 ; AVX2-NEXT: vmovd %xmm0, %eax
1199 ; AVX2-NEXT: vzeroupper
1202 ; AVX512-LABEL: test_v32i32:
1204 ; AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0
1205 ; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
1206 ; AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0
1207 ; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
1208 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1209 ; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
1210 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1211 ; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
1212 ; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
1213 ; AVX512-NEXT: vmovd %xmm0, %eax
1214 ; AVX512-NEXT: vzeroupper
1216 %1 = call i32 @llvm.experimental.vector.reduce.umax.v32i32(<32 x i32> %a0)
1224 define i16 @test_v2i16(<2 x i16> %a0) {
1225 ; SSE2-LABEL: test_v2i16:
1227 ; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,0,0,65535,0,0,0]
1228 ; SSE2-NEXT: pand %xmm0, %xmm1
1229 ; SSE2-NEXT: pxor %xmm2, %xmm2
1230 ; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
1231 ; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
1232 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
1233 ; SSE2-NEXT: movdqa %xmm1, %xmm3
1234 ; SSE2-NEXT: por %xmm2, %xmm3
1235 ; SSE2-NEXT: por %xmm0, %xmm2
1236 ; SSE2-NEXT: movdqa %xmm3, %xmm4
1237 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
1238 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
1239 ; SSE2-NEXT: pcmpeqd %xmm3, %xmm2
1240 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
1241 ; SSE2-NEXT: pand %xmm5, %xmm2
1242 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
1243 ; SSE2-NEXT: por %xmm2, %xmm3
1244 ; SSE2-NEXT: pand %xmm3, %xmm1
1245 ; SSE2-NEXT: pandn %xmm0, %xmm3
1246 ; SSE2-NEXT: por %xmm1, %xmm3
1247 ; SSE2-NEXT: movd %xmm3, %eax
1248 ; SSE2-NEXT: # kill: def $ax killed $ax killed $eax
1251 ; SSE41-LABEL: test_v2i16:
1253 ; SSE41-NEXT: pxor %xmm1, %xmm1
1254 ; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3],xmm0[4],xmm1[5,6,7]
1255 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1256 ; SSE41-NEXT: pmovzxwq {{.*#+}} xmm2 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
1257 ; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
1258 ; SSE41-NEXT: movdqa %xmm1, %xmm3
1259 ; SSE41-NEXT: por %xmm0, %xmm3
1260 ; SSE41-NEXT: por %xmm2, %xmm0
1261 ; SSE41-NEXT: movdqa %xmm3, %xmm4
1262 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
1263 ; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
1264 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
1265 ; SSE41-NEXT: pand %xmm4, %xmm0
1266 ; SSE41-NEXT: por %xmm3, %xmm0
1267 ; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
1268 ; SSE41-NEXT: movd %xmm2, %eax
1269 ; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
1272 ; AVX-LABEL: test_v2i16:
1274 ; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
1275 ; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3],xmm0[4],xmm1[5,6,7]
1276 ; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1277 ; AVX-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
1278 ; AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
1279 ; AVX-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
1280 ; AVX-NEXT: vmovd %xmm0, %eax
1281 ; AVX-NEXT: # kill: def $ax killed $ax killed $eax
1284 ; AVX512BW-LABEL: test_v2i16:
1285 ; AVX512BW: # %bb.0:
1286 ; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
1287 ; AVX512BW-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3],xmm0[4],xmm1[5,6,7]
1288 ; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1289 ; AVX512BW-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
1290 ; AVX512BW-NEXT: vpmaxuq %zmm0, %zmm1, %zmm0
1291 ; AVX512BW-NEXT: vmovd %xmm0, %eax
1292 ; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
1293 ; AVX512BW-NEXT: vzeroupper
1294 ; AVX512BW-NEXT: retq
1296 ; AVX512VL-LABEL: test_v2i16:
1297 ; AVX512VL: # %bb.0:
1298 ; AVX512VL-NEXT: vpxor %xmm1, %xmm1, %xmm1
1299 ; AVX512VL-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3],xmm0[4],xmm1[5,6,7]
1300 ; AVX512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1301 ; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
1302 ; AVX512VL-NEXT: vpmaxuq %xmm0, %xmm1, %xmm0
1303 ; AVX512VL-NEXT: vmovd %xmm0, %eax
1304 ; AVX512VL-NEXT: # kill: def $ax killed $ax killed $eax
1305 ; AVX512VL-NEXT: retq
1306 %1 = call i16 @llvm.experimental.vector.reduce.umax.v2i16(<2 x i16> %a0)
1310 define i16 @test_v4i16(<4 x i16> %a0) {
1311 ; SSE2-LABEL: test_v4i16:
1313 ; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,65535,0,65535,0]
1314 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
1315 ; SSE2-NEXT: pand %xmm1, %xmm0
1316 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
1317 ; SSE2-NEXT: movdqa %xmm0, %xmm3
1318 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm3
1319 ; SSE2-NEXT: pand %xmm3, %xmm0
1320 ; SSE2-NEXT: pandn %xmm2, %xmm3
1321 ; SSE2-NEXT: por %xmm0, %xmm3
1322 ; SSE2-NEXT: pand %xmm3, %xmm1
1323 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]
1324 ; SSE2-NEXT: pxor %xmm2, %xmm2
1325 ; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
1326 ; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
1327 ; SSE2-NEXT: movdqa %xmm1, %xmm2
1328 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm2
1329 ; SSE2-NEXT: pand %xmm2, %xmm1
1330 ; SSE2-NEXT: pandn %xmm0, %xmm2
1331 ; SSE2-NEXT: por %xmm1, %xmm2
1332 ; SSE2-NEXT: movd %xmm2, %eax
1333 ; SSE2-NEXT: # kill: def $ax killed $ax killed $eax
1336 ; SSE41-LABEL: test_v4i16:
1338 ; SSE41-NEXT: pxor %xmm1, %xmm1
1339 ; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
1340 ; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
1341 ; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0],xmm1[1],xmm2[2],xmm1[3,4,5,6,7]
1342 ; SSE41-NEXT: pmaxud %xmm0, %xmm2
1343 ; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3],xmm2[4],xmm1[5],xmm2[6],xmm1[7]
1344 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]
1345 ; SSE41-NEXT: pmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
1346 ; SSE41-NEXT: pmaxud %xmm1, %xmm0
1347 ; SSE41-NEXT: movd %xmm0, %eax
1348 ; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
1351 ; AVX-LABEL: test_v4i16:
1353 ; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
1354 ; AVX-NEXT: vpblendw {{.*#+}} xmm2 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
1355 ; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1356 ; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3,4,5,6,7]
1357 ; AVX-NEXT: vpmaxud %xmm0, %xmm2, %xmm0
1358 ; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
1359 ; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1360 ; AVX-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
1361 ; AVX-NEXT: vpmaxud %xmm0, %xmm1, %xmm0
1362 ; AVX-NEXT: vmovd %xmm0, %eax
1363 ; AVX-NEXT: # kill: def $ax killed $ax killed $eax
1366 ; AVX512-LABEL: test_v4i16:
1368 ; AVX512-NEXT: vpxor %xmm1, %xmm1, %xmm1
1369 ; AVX512-NEXT: vpblendw {{.*#+}} xmm2 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
1370 ; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1371 ; AVX512-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3,4,5,6,7]
1372 ; AVX512-NEXT: vpmaxud %xmm0, %xmm2, %xmm0
1373 ; AVX512-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
1374 ; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1375 ; AVX512-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
1376 ; AVX512-NEXT: vpmaxud %xmm0, %xmm1, %xmm0
1377 ; AVX512-NEXT: vmovd %xmm0, %eax
1378 ; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
1380 %1 = call i16 @llvm.experimental.vector.reduce.umax.v4i16(<4 x i16> %a0)
1384 define i16 @test_v8i16(<8 x i16> %a0) {
1385 ; SSE2-LABEL: test_v8i16:
1387 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
1388 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
1389 ; SSE2-NEXT: pxor %xmm2, %xmm0
1390 ; SSE2-NEXT: pxor %xmm2, %xmm1
1391 ; SSE2-NEXT: pmaxsw %xmm0, %xmm1
1392 ; SSE2-NEXT: movdqa %xmm1, %xmm0
1393 ; SSE2-NEXT: pxor %xmm2, %xmm0
1394 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1395 ; SSE2-NEXT: pxor %xmm2, %xmm0
1396 ; SSE2-NEXT: pmaxsw %xmm1, %xmm0
1397 ; SSE2-NEXT: movdqa %xmm0, %xmm1
1398 ; SSE2-NEXT: pxor %xmm2, %xmm1
1399 ; SSE2-NEXT: psrld $16, %xmm1
1400 ; SSE2-NEXT: pxor %xmm2, %xmm1
1401 ; SSE2-NEXT: pmaxsw %xmm0, %xmm1
1402 ; SSE2-NEXT: movd %xmm1, %eax
1403 ; SSE2-NEXT: xorl $32768, %eax # imm = 0x8000
1404 ; SSE2-NEXT: # kill: def $ax killed $ax killed $eax
1407 ; SSE41-LABEL: test_v8i16:
1409 ; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
1410 ; SSE41-NEXT: pxor %xmm0, %xmm1
1411 ; SSE41-NEXT: phminposuw %xmm1, %xmm0
1412 ; SSE41-NEXT: movd %xmm0, %eax
1413 ; SSE41-NEXT: notl %eax
1414 ; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
1417 ; AVX-LABEL: test_v8i16:
1419 ; AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
1420 ; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0
1421 ; AVX-NEXT: vphminposuw %xmm0, %xmm0
1422 ; AVX-NEXT: vmovd %xmm0, %eax
1423 ; AVX-NEXT: notl %eax
1424 ; AVX-NEXT: # kill: def $ax killed $ax killed $eax
1427 ; AVX512BW-LABEL: test_v8i16:
1428 ; AVX512BW: # %bb.0:
1429 ; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
1430 ; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
1431 ; AVX512BW-NEXT: vphminposuw %xmm0, %xmm0
1432 ; AVX512BW-NEXT: vmovd %xmm0, %eax
1433 ; AVX512BW-NEXT: notl %eax
1434 ; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
1435 ; AVX512BW-NEXT: vzeroupper
1436 ; AVX512BW-NEXT: retq
1438 ; AVX512VL-LABEL: test_v8i16:
1439 ; AVX512VL: # %bb.0:
1440 ; AVX512VL-NEXT: vpternlogq $15, %xmm0, %xmm0, %xmm0
1441 ; AVX512VL-NEXT: vphminposuw %xmm0, %xmm0
1442 ; AVX512VL-NEXT: vmovd %xmm0, %eax
1443 ; AVX512VL-NEXT: notl %eax
1444 ; AVX512VL-NEXT: # kill: def $ax killed $ax killed $eax
1445 ; AVX512VL-NEXT: retq
1446 %1 = call i16 @llvm.experimental.vector.reduce.umax.v8i16(<8 x i16> %a0)
1450 define i16 @test_v16i16(<16 x i16> %a0) {
1451 ; SSE2-LABEL: test_v16i16:
1453 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
1454 ; SSE2-NEXT: pxor %xmm2, %xmm1
1455 ; SSE2-NEXT: pxor %xmm2, %xmm0
1456 ; SSE2-NEXT: pmaxsw %xmm1, %xmm0
1457 ; SSE2-NEXT: movdqa %xmm0, %xmm1
1458 ; SSE2-NEXT: pxor %xmm2, %xmm1
1459 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
1460 ; SSE2-NEXT: pxor %xmm2, %xmm1
1461 ; SSE2-NEXT: pmaxsw %xmm0, %xmm1
1462 ; SSE2-NEXT: movdqa %xmm1, %xmm0
1463 ; SSE2-NEXT: pxor %xmm2, %xmm0
1464 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1465 ; SSE2-NEXT: pxor %xmm2, %xmm0
1466 ; SSE2-NEXT: pmaxsw %xmm1, %xmm0
1467 ; SSE2-NEXT: movdqa %xmm0, %xmm1
1468 ; SSE2-NEXT: pxor %xmm2, %xmm1
1469 ; SSE2-NEXT: psrld $16, %xmm1
1470 ; SSE2-NEXT: pxor %xmm2, %xmm1
1471 ; SSE2-NEXT: pmaxsw %xmm0, %xmm1
1472 ; SSE2-NEXT: movd %xmm1, %eax
1473 ; SSE2-NEXT: xorl $32768, %eax # imm = 0x8000
1474 ; SSE2-NEXT: # kill: def $ax killed $ax killed $eax
1477 ; SSE41-LABEL: test_v16i16:
1479 ; SSE41-NEXT: pmaxuw %xmm1, %xmm0
1480 ; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
1481 ; SSE41-NEXT: pxor %xmm0, %xmm1
1482 ; SSE41-NEXT: phminposuw %xmm1, %xmm0
1483 ; SSE41-NEXT: movd %xmm0, %eax
1484 ; SSE41-NEXT: notl %eax
1485 ; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
1488 ; AVX1-LABEL: test_v16i16:
1490 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
1491 ; AVX1-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1492 ; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
1493 ; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
1494 ; AVX1-NEXT: vphminposuw %xmm0, %xmm0
1495 ; AVX1-NEXT: vmovd %xmm0, %eax
1496 ; AVX1-NEXT: notl %eax
1497 ; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
1498 ; AVX1-NEXT: vzeroupper
1501 ; AVX2-LABEL: test_v16i16:
1503 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
1504 ; AVX2-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1505 ; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
1506 ; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
1507 ; AVX2-NEXT: vphminposuw %xmm0, %xmm0
1508 ; AVX2-NEXT: vmovd %xmm0, %eax
1509 ; AVX2-NEXT: notl %eax
1510 ; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
1511 ; AVX2-NEXT: vzeroupper
1514 ; AVX512BW-LABEL: test_v16i16:
1515 ; AVX512BW: # %bb.0:
1516 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
1517 ; AVX512BW-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1518 ; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
1519 ; AVX512BW-NEXT: vphminposuw %xmm0, %xmm0
1520 ; AVX512BW-NEXT: vmovd %xmm0, %eax
1521 ; AVX512BW-NEXT: notl %eax
1522 ; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
1523 ; AVX512BW-NEXT: vzeroupper
1524 ; AVX512BW-NEXT: retq
1526 ; AVX512VL-LABEL: test_v16i16:
1527 ; AVX512VL: # %bb.0:
1528 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
1529 ; AVX512VL-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1530 ; AVX512VL-NEXT: vpternlogq $15, %xmm0, %xmm0, %xmm0
1531 ; AVX512VL-NEXT: vphminposuw %xmm0, %xmm0
1532 ; AVX512VL-NEXT: vmovd %xmm0, %eax
1533 ; AVX512VL-NEXT: notl %eax
1534 ; AVX512VL-NEXT: # kill: def $ax killed $ax killed $eax
1535 ; AVX512VL-NEXT: vzeroupper
1536 ; AVX512VL-NEXT: retq
1537 %1 = call i16 @llvm.experimental.vector.reduce.umax.v16i16(<16 x i16> %a0)
1541 define i16 @test_v32i16(<32 x i16> %a0) {
1542 ; SSE2-LABEL: test_v32i16:
1544 ; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32768,32768,32768,32768,32768,32768,32768,32768]
1545 ; SSE2-NEXT: pxor %xmm4, %xmm3
1546 ; SSE2-NEXT: pxor %xmm4, %xmm1
1547 ; SSE2-NEXT: pmaxsw %xmm3, %xmm1
1548 ; SSE2-NEXT: pxor %xmm4, %xmm2
1549 ; SSE2-NEXT: pmaxsw %xmm1, %xmm2
1550 ; SSE2-NEXT: pxor %xmm4, %xmm0
1551 ; SSE2-NEXT: pmaxsw %xmm2, %xmm0
1552 ; SSE2-NEXT: movdqa %xmm0, %xmm1
1553 ; SSE2-NEXT: pxor %xmm4, %xmm1
1554 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
1555 ; SSE2-NEXT: pxor %xmm4, %xmm1
1556 ; SSE2-NEXT: pmaxsw %xmm0, %xmm1
1557 ; SSE2-NEXT: movdqa %xmm1, %xmm0
1558 ; SSE2-NEXT: pxor %xmm4, %xmm0
1559 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1560 ; SSE2-NEXT: pxor %xmm4, %xmm0
1561 ; SSE2-NEXT: pmaxsw %xmm1, %xmm0
1562 ; SSE2-NEXT: movdqa %xmm0, %xmm1
1563 ; SSE2-NEXT: pxor %xmm4, %xmm1
1564 ; SSE2-NEXT: psrld $16, %xmm1
1565 ; SSE2-NEXT: pxor %xmm4, %xmm1
1566 ; SSE2-NEXT: pmaxsw %xmm0, %xmm1
1567 ; SSE2-NEXT: movd %xmm1, %eax
1568 ; SSE2-NEXT: xorl $32768, %eax # imm = 0x8000
1569 ; SSE2-NEXT: # kill: def $ax killed $ax killed $eax
1572 ; SSE41-LABEL: test_v32i16:
1574 ; SSE41-NEXT: pmaxuw %xmm3, %xmm1
1575 ; SSE41-NEXT: pmaxuw %xmm2, %xmm1
1576 ; SSE41-NEXT: pmaxuw %xmm0, %xmm1
1577 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm0
1578 ; SSE41-NEXT: pxor %xmm1, %xmm0
1579 ; SSE41-NEXT: phminposuw %xmm0, %xmm0
1580 ; SSE41-NEXT: movd %xmm0, %eax
1581 ; SSE41-NEXT: notl %eax
1582 ; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
1585 ; AVX1-LABEL: test_v32i16:
1587 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
1588 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
1589 ; AVX1-NEXT: vpmaxuw %xmm2, %xmm3, %xmm2
1590 ; AVX1-NEXT: vpmaxuw %xmm2, %xmm1, %xmm1
1591 ; AVX1-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1592 ; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
1593 ; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
1594 ; AVX1-NEXT: vphminposuw %xmm0, %xmm0
1595 ; AVX1-NEXT: vmovd %xmm0, %eax
1596 ; AVX1-NEXT: notl %eax
1597 ; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
1598 ; AVX1-NEXT: vzeroupper
1601 ; AVX2-LABEL: test_v32i16:
1603 ; AVX2-NEXT: vpmaxuw %ymm1, %ymm0, %ymm0
1604 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
1605 ; AVX2-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1606 ; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
1607 ; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
1608 ; AVX2-NEXT: vphminposuw %xmm0, %xmm0
1609 ; AVX2-NEXT: vmovd %xmm0, %eax
1610 ; AVX2-NEXT: notl %eax
1611 ; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
1612 ; AVX2-NEXT: vzeroupper
1615 ; AVX512BW-LABEL: test_v32i16:
1616 ; AVX512BW: # %bb.0:
1617 ; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
1618 ; AVX512BW-NEXT: vpmaxuw %ymm1, %ymm0, %ymm0
1619 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
1620 ; AVX512BW-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1621 ; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
1622 ; AVX512BW-NEXT: vphminposuw %xmm0, %xmm0
1623 ; AVX512BW-NEXT: vmovd %xmm0, %eax
1624 ; AVX512BW-NEXT: notl %eax
1625 ; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
1626 ; AVX512BW-NEXT: vzeroupper
1627 ; AVX512BW-NEXT: retq
1629 ; AVX512VL-LABEL: test_v32i16:
1630 ; AVX512VL: # %bb.0:
1631 ; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
1632 ; AVX512VL-NEXT: vpmaxuw %ymm1, %ymm0, %ymm0
1633 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
1634 ; AVX512VL-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1635 ; AVX512VL-NEXT: vpternlogq $15, %xmm0, %xmm0, %xmm0
1636 ; AVX512VL-NEXT: vphminposuw %xmm0, %xmm0
1637 ; AVX512VL-NEXT: vmovd %xmm0, %eax
1638 ; AVX512VL-NEXT: notl %eax
1639 ; AVX512VL-NEXT: # kill: def $ax killed $ax killed $eax
1640 ; AVX512VL-NEXT: vzeroupper
1641 ; AVX512VL-NEXT: retq
1642 %1 = call i16 @llvm.experimental.vector.reduce.umax.v32i16(<32 x i16> %a0)
1646 define i16 @test_v64i16(<64 x i16> %a0) {
1647 ; SSE2-LABEL: test_v64i16:
1649 ; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [32768,32768,32768,32768,32768,32768,32768,32768]
1650 ; SSE2-NEXT: pxor %xmm8, %xmm6
1651 ; SSE2-NEXT: pxor %xmm8, %xmm2
1652 ; SSE2-NEXT: pmaxsw %xmm6, %xmm2
1653 ; SSE2-NEXT: pxor %xmm8, %xmm4
1654 ; SSE2-NEXT: pmaxsw %xmm2, %xmm4
1655 ; SSE2-NEXT: pxor %xmm8, %xmm0
1656 ; SSE2-NEXT: pxor %xmm8, %xmm7
1657 ; SSE2-NEXT: pxor %xmm8, %xmm3
1658 ; SSE2-NEXT: pmaxsw %xmm7, %xmm3
1659 ; SSE2-NEXT: pxor %xmm8, %xmm5
1660 ; SSE2-NEXT: pmaxsw %xmm3, %xmm5
1661 ; SSE2-NEXT: pxor %xmm8, %xmm1
1662 ; SSE2-NEXT: pmaxsw %xmm5, %xmm1
1663 ; SSE2-NEXT: pmaxsw %xmm4, %xmm1
1664 ; SSE2-NEXT: pmaxsw %xmm0, %xmm1
1665 ; SSE2-NEXT: movdqa %xmm1, %xmm0
1666 ; SSE2-NEXT: pxor %xmm8, %xmm0
1667 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1668 ; SSE2-NEXT: pxor %xmm8, %xmm0
1669 ; SSE2-NEXT: pmaxsw %xmm1, %xmm0
1670 ; SSE2-NEXT: movdqa %xmm0, %xmm1
1671 ; SSE2-NEXT: pxor %xmm8, %xmm1
1672 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,2,3]
1673 ; SSE2-NEXT: pxor %xmm8, %xmm1
1674 ; SSE2-NEXT: pmaxsw %xmm0, %xmm1
1675 ; SSE2-NEXT: movdqa %xmm1, %xmm0
1676 ; SSE2-NEXT: pxor %xmm8, %xmm0
1677 ; SSE2-NEXT: psrld $16, %xmm0
1678 ; SSE2-NEXT: pxor %xmm8, %xmm0
1679 ; SSE2-NEXT: pmaxsw %xmm1, %xmm0
1680 ; SSE2-NEXT: movd %xmm0, %eax
1681 ; SSE2-NEXT: xorl $32768, %eax # imm = 0x8000
1682 ; SSE2-NEXT: # kill: def $ax killed $ax killed $eax
1685 ; SSE41-LABEL: test_v64i16:
1687 ; SSE41-NEXT: pmaxuw %xmm7, %xmm3
1688 ; SSE41-NEXT: pmaxuw %xmm5, %xmm3
1689 ; SSE41-NEXT: pmaxuw %xmm1, %xmm3
1690 ; SSE41-NEXT: pmaxuw %xmm6, %xmm2
1691 ; SSE41-NEXT: pmaxuw %xmm4, %xmm2
1692 ; SSE41-NEXT: pmaxuw %xmm3, %xmm2
1693 ; SSE41-NEXT: pmaxuw %xmm0, %xmm2
1694 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm0
1695 ; SSE41-NEXT: pxor %xmm2, %xmm0
1696 ; SSE41-NEXT: phminposuw %xmm0, %xmm0
1697 ; SSE41-NEXT: movd %xmm0, %eax
1698 ; SSE41-NEXT: notl %eax
1699 ; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
1702 ; AVX1-LABEL: test_v64i16:
1704 ; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4
1705 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
1706 ; AVX1-NEXT: vpmaxuw %xmm4, %xmm5, %xmm4
1707 ; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
1708 ; AVX1-NEXT: vpmaxuw %xmm4, %xmm5, %xmm4
1709 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
1710 ; AVX1-NEXT: vpmaxuw %xmm4, %xmm5, %xmm4
1711 ; AVX1-NEXT: vpmaxuw %xmm3, %xmm1, %xmm1
1712 ; AVX1-NEXT: vpmaxuw %xmm1, %xmm2, %xmm1
1713 ; AVX1-NEXT: vpmaxuw %xmm4, %xmm1, %xmm1
1714 ; AVX1-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1715 ; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
1716 ; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
1717 ; AVX1-NEXT: vphminposuw %xmm0, %xmm0
1718 ; AVX1-NEXT: vmovd %xmm0, %eax
1719 ; AVX1-NEXT: notl %eax
1720 ; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
1721 ; AVX1-NEXT: vzeroupper
1724 ; AVX2-LABEL: test_v64i16:
1726 ; AVX2-NEXT: vpmaxuw %ymm3, %ymm1, %ymm1
1727 ; AVX2-NEXT: vpmaxuw %ymm1, %ymm2, %ymm1
1728 ; AVX2-NEXT: vpmaxuw %ymm1, %ymm0, %ymm0
1729 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
1730 ; AVX2-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1731 ; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
1732 ; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
1733 ; AVX2-NEXT: vphminposuw %xmm0, %xmm0
1734 ; AVX2-NEXT: vmovd %xmm0, %eax
1735 ; AVX2-NEXT: notl %eax
1736 ; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
1737 ; AVX2-NEXT: vzeroupper
1740 ; AVX512BW-LABEL: test_v64i16:
1741 ; AVX512BW: # %bb.0:
1742 ; AVX512BW-NEXT: vpmaxuw %zmm1, %zmm0, %zmm0
1743 ; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
1744 ; AVX512BW-NEXT: vpmaxuw %ymm1, %ymm0, %ymm0
1745 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
1746 ; AVX512BW-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1747 ; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
1748 ; AVX512BW-NEXT: vphminposuw %xmm0, %xmm0
1749 ; AVX512BW-NEXT: vmovd %xmm0, %eax
1750 ; AVX512BW-NEXT: notl %eax
1751 ; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
1752 ; AVX512BW-NEXT: vzeroupper
1753 ; AVX512BW-NEXT: retq
1755 ; AVX512VL-LABEL: test_v64i16:
1756 ; AVX512VL: # %bb.0:
1757 ; AVX512VL-NEXT: vpmaxuw %zmm1, %zmm0, %zmm0
1758 ; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
1759 ; AVX512VL-NEXT: vpmaxuw %ymm1, %ymm0, %ymm0
1760 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
1761 ; AVX512VL-NEXT: vpmaxuw %xmm1, %xmm0, %xmm0
1762 ; AVX512VL-NEXT: vpternlogq $15, %xmm0, %xmm0, %xmm0
1763 ; AVX512VL-NEXT: vphminposuw %xmm0, %xmm0
1764 ; AVX512VL-NEXT: vmovd %xmm0, %eax
1765 ; AVX512VL-NEXT: notl %eax
1766 ; AVX512VL-NEXT: # kill: def $ax killed $ax killed $eax
1767 ; AVX512VL-NEXT: vzeroupper
1768 ; AVX512VL-NEXT: retq
1769 %1 = call i16 @llvm.experimental.vector.reduce.umax.v64i16(<64 x i16> %a0)
1777 define i8 @test_v2i8(<2 x i8> %a0) {
1778 ; SSE2-LABEL: test_v2i8:
1780 ; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
1781 ; SSE2-NEXT: pand %xmm0, %xmm1
1782 ; SSE2-NEXT: pxor %xmm2, %xmm2
1783 ; SSE2-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8],xmm2[8],xmm0[9],xmm2[9],xmm0[10],xmm2[10],xmm0[11],xmm2[11],xmm0[12],xmm2[12],xmm0[13],xmm2[13],xmm0[14],xmm2[14],xmm0[15],xmm2[15]
1784 ; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
1785 ; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
1786 ; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]
1787 ; SSE2-NEXT: movdqa %xmm1, %xmm3
1788 ; SSE2-NEXT: por %xmm2, %xmm3
1789 ; SSE2-NEXT: por %xmm0, %xmm2
1790 ; SSE2-NEXT: movdqa %xmm3, %xmm4
1791 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
1792 ; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
1793 ; SSE2-NEXT: pcmpeqd %xmm3, %xmm2
1794 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
1795 ; SSE2-NEXT: pand %xmm5, %xmm2
1796 ; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
1797 ; SSE2-NEXT: por %xmm2, %xmm3
1798 ; SSE2-NEXT: pand %xmm3, %xmm1
1799 ; SSE2-NEXT: pandn %xmm0, %xmm3
1800 ; SSE2-NEXT: por %xmm1, %xmm3
1801 ; SSE2-NEXT: movd %xmm3, %eax
1802 ; SSE2-NEXT: # kill: def $al killed $al killed $eax
1805 ; SSE41-LABEL: test_v2i8:
1807 ; SSE41-NEXT: movdqa %xmm0, %xmm1
1808 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1809 ; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
1810 ; SSE41-NEXT: pmovzxbq {{.*#+}} xmm2 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1811 ; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
1812 ; SSE41-NEXT: movdqa %xmm1, %xmm4
1813 ; SSE41-NEXT: por %xmm3, %xmm4
1814 ; SSE41-NEXT: por %xmm2, %xmm3
1815 ; SSE41-NEXT: movdqa %xmm4, %xmm0
1816 ; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
1817 ; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
1818 ; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,0,2,2]
1819 ; SSE41-NEXT: pand %xmm3, %xmm0
1820 ; SSE41-NEXT: por %xmm4, %xmm0
1821 ; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
1822 ; SSE41-NEXT: pextrb $0, %xmm2, %eax
1823 ; SSE41-NEXT: # kill: def $al killed $al killed $eax
1826 ; AVX-LABEL: test_v2i8:
1828 ; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm1
1829 ; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1830 ; AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1831 ; AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
1832 ; AVX-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
1833 ; AVX-NEXT: vpextrb $0, %xmm0, %eax
1834 ; AVX-NEXT: # kill: def $al killed $al killed $eax
1837 ; AVX512BW-LABEL: test_v2i8:
1838 ; AVX512BW: # %bb.0:
1839 ; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm1
1840 ; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1841 ; AVX512BW-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1842 ; AVX512BW-NEXT: vpmaxuq %zmm0, %zmm1, %zmm0
1843 ; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
1844 ; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
1845 ; AVX512BW-NEXT: vzeroupper
1846 ; AVX512BW-NEXT: retq
1848 ; AVX512VL-LABEL: test_v2i8:
1849 ; AVX512VL: # %bb.0:
1850 ; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm1
1851 ; AVX512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
1852 ; AVX512VL-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1853 ; AVX512VL-NEXT: vpmaxuq %xmm0, %xmm1, %xmm0
1854 ; AVX512VL-NEXT: vpextrb $0, %xmm0, %eax
1855 ; AVX512VL-NEXT: # kill: def $al killed $al killed $eax
1856 ; AVX512VL-NEXT: retq
1857 %1 = call i8 @llvm.experimental.vector.reduce.umax.v2i8(<2 x i8> %a0)
1861 define i8 @test_v4i8(<4 x i8> %a0) {
1862 ; SSE2-LABEL: test_v4i8:
1864 ; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
1865 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
1866 ; SSE2-NEXT: pand %xmm1, %xmm0
1867 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
1868 ; SSE2-NEXT: movdqa %xmm0, %xmm3
1869 ; SSE2-NEXT: pcmpgtd %xmm2, %xmm3
1870 ; SSE2-NEXT: pand %xmm3, %xmm0
1871 ; SSE2-NEXT: pandn %xmm2, %xmm3
1872 ; SSE2-NEXT: por %xmm0, %xmm3
1873 ; SSE2-NEXT: pand %xmm3, %xmm1
1874 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,2,3]
1875 ; SSE2-NEXT: pxor %xmm2, %xmm2
1876 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
1877 ; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
1878 ; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
1879 ; SSE2-NEXT: movdqa %xmm1, %xmm2
1880 ; SSE2-NEXT: pcmpgtd %xmm0, %xmm2
1881 ; SSE2-NEXT: pand %xmm2, %xmm1
1882 ; SSE2-NEXT: pandn %xmm0, %xmm2
1883 ; SSE2-NEXT: por %xmm1, %xmm2
1884 ; SSE2-NEXT: movd %xmm2, %eax
1885 ; SSE2-NEXT: # kill: def $al killed $al killed $eax
1888 ; SSE41-LABEL: test_v4i8:
1890 ; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
1891 ; SSE41-NEXT: movdqa %xmm0, %xmm2
1892 ; SSE41-NEXT: pand %xmm1, %xmm2
1893 ; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[8],zero,zero,zero,xmm0[12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
1894 ; SSE41-NEXT: pmaxud %xmm2, %xmm0
1895 ; SSE41-NEXT: pand %xmm0, %xmm1
1896 ; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1897 ; SSE41-NEXT: pmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1898 ; SSE41-NEXT: pmaxud %xmm1, %xmm0
1899 ; SSE41-NEXT: pextrb $0, %xmm0, %eax
1900 ; SSE41-NEXT: # kill: def $al killed $al killed $eax
1903 ; AVX1-LABEL: test_v4i8:
1905 ; AVX1-NEXT: vbroadcastss {{.*#+}} xmm1 = [3.57331108E-43,3.57331108E-43,3.57331108E-43,3.57331108E-43]
1906 ; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm2
1907 ; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[8],zero,zero,zero,xmm0[12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
1908 ; AVX1-NEXT: vpmaxud %xmm0, %xmm2, %xmm0
1909 ; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm1
1910 ; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1911 ; AVX1-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1912 ; AVX1-NEXT: vpmaxud %xmm0, %xmm1, %xmm0
1913 ; AVX1-NEXT: vpextrb $0, %xmm0, %eax
1914 ; AVX1-NEXT: # kill: def $al killed $al killed $eax
1917 ; AVX2-LABEL: test_v4i8:
1919 ; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [255,255,255,255]
1920 ; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm2
1921 ; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[8],zero,zero,zero,xmm0[12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
1922 ; AVX2-NEXT: vpmaxud %xmm0, %xmm2, %xmm0
1923 ; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm1
1924 ; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1925 ; AVX2-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1926 ; AVX2-NEXT: vpmaxud %xmm0, %xmm1, %xmm0
1927 ; AVX2-NEXT: vpextrb $0, %xmm0, %eax
1928 ; AVX2-NEXT: # kill: def $al killed $al killed $eax
1931 ; AVX512-LABEL: test_v4i8:
1933 ; AVX512-NEXT: vpbroadcastd {{.*#+}} xmm1 = [255,255,255,255]
1934 ; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm2
1935 ; AVX512-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[8],zero,zero,zero,xmm0[12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
1936 ; AVX512-NEXT: vpmaxud %xmm0, %xmm2, %xmm0
1937 ; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm1
1938 ; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
1939 ; AVX512-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1940 ; AVX512-NEXT: vpmaxud %xmm0, %xmm1, %xmm0
1941 ; AVX512-NEXT: vpextrb $0, %xmm0, %eax
1942 ; AVX512-NEXT: # kill: def $al killed $al killed $eax
1944 %1 = call i8 @llvm.experimental.vector.reduce.umax.v4i8(<4 x i8> %a0)
1948 define i8 @test_v8i8(<8 x i8> %a0) {
1949 ; SSE2-LABEL: test_v8i8:
1951 ; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
1952 ; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
1953 ; SSE2-NEXT: pand %xmm1, %xmm0
1954 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
1955 ; SSE2-NEXT: pmaxsw %xmm0, %xmm2
1956 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,2,3]
1957 ; SSE2-NEXT: pand %xmm1, %xmm2
1958 ; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
1959 ; SSE2-NEXT: pmaxsw %xmm2, %xmm0
1960 ; SSE2-NEXT: pand %xmm0, %xmm1
1961 ; SSE2-NEXT: psrld $16, %xmm0
1962 ; SSE2-NEXT: pxor %xmm2, %xmm2
1963 ; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
1964 ; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
1965 ; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
1966 ; SSE2-NEXT: pmaxsw %xmm1, %xmm0
1967 ; SSE2-NEXT: movd %xmm0, %eax
1968 ; SSE2-NEXT: # kill: def $al killed $al killed $eax
1971 ; SSE41-LABEL: test_v8i8:
1973 ; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
1974 ; SSE41-NEXT: movdqa %xmm0, %xmm2
1975 ; SSE41-NEXT: pand %xmm1, %xmm2
1976 ; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[8],zero,xmm0[10],zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero,zero,zero,zero,zero
1977 ; SSE41-NEXT: pmaxuw %xmm2, %xmm0
1978 ; SSE41-NEXT: movdqa %xmm0, %xmm2
1979 ; SSE41-NEXT: pand %xmm1, %xmm2
1980 ; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
1981 ; SSE41-NEXT: pmaxuw %xmm2, %xmm0
1982 ; SSE41-NEXT: pand %xmm0, %xmm1
1983 ; SSE41-NEXT: psrld $16, %xmm0
1984 ; SSE41-NEXT: pmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
1985 ; SSE41-NEXT: pmaxuw %xmm1, %xmm0
1986 ; SSE41-NEXT: pextrb $0, %xmm0, %eax
1987 ; SSE41-NEXT: # kill: def $al killed $al killed $eax
1990 ; AVX1-LABEL: test_v8i8:
1992 ; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
1993 ; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm2
1994 ; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[8],zero,xmm0[10],zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero,zero,zero,zero,zero
1995 ; AVX1-NEXT: vpmaxuw %xmm0, %xmm2, %xmm0
1996 ; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm2
1997 ; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
1998 ; AVX1-NEXT: vpmaxuw %xmm0, %xmm2, %xmm0
1999 ; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm1
2000 ; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
2001 ; AVX1-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
2002 ; AVX1-NEXT: vpmaxuw %xmm0, %xmm1, %xmm0
2003 ; AVX1-NEXT: vpextrb $0, %xmm0, %eax
2004 ; AVX1-NEXT: # kill: def $al killed $al killed $eax
2007 ; AVX2-LABEL: test_v8i8:
2009 ; AVX2-NEXT: vpbroadcastw {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
2010 ; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm2
2011 ; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[8],zero,xmm0[10],zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero,zero,zero,zero,zero
2012 ; AVX2-NEXT: vpmaxuw %xmm0, %xmm2, %xmm0
2013 ; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm2
2014 ; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
2015 ; AVX2-NEXT: vpmaxuw %xmm0, %xmm2, %xmm0
2016 ; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm1
2017 ; AVX2-NEXT: vpsrld $16, %xmm0, %xmm0
2018 ; AVX2-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
2019 ; AVX2-NEXT: vpmaxuw %xmm0, %xmm1, %xmm0
2020 ; AVX2-NEXT: vpextrb $0, %xmm0, %eax
2021 ; AVX2-NEXT: # kill: def $al killed $al killed $eax
2024 ; AVX512-LABEL: test_v8i8:
2026 ; AVX512-NEXT: vpbroadcastw {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
2027 ; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm2
2028 ; AVX512-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[8],zero,xmm0[10],zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero,zero,zero,zero,zero
2029 ; AVX512-NEXT: vpmaxuw %xmm0, %xmm2, %xmm0
2030 ; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm2
2031 ; AVX512-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
2032 ; AVX512-NEXT: vpmaxuw %xmm0, %xmm2, %xmm0
2033 ; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm1
2034 ; AVX512-NEXT: vpsrld $16, %xmm0, %xmm0
2035 ; AVX512-NEXT: vpmovzxbq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
2036 ; AVX512-NEXT: vpmaxuw %xmm0, %xmm1, %xmm0
2037 ; AVX512-NEXT: vpextrb $0, %xmm0, %eax
2038 ; AVX512-NEXT: # kill: def $al killed $al killed $eax
2040 %1 = call i8 @llvm.experimental.vector.reduce.umax.v8i8(<8 x i8> %a0)
2044 define i8 @test_v16i8(<16 x i8> %a0) {
2045 ; SSE2-LABEL: test_v16i8:
2047 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
2048 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2049 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
2050 ; SSE2-NEXT: pmaxub %xmm1, %xmm0
2051 ; SSE2-NEXT: movdqa %xmm0, %xmm1
2052 ; SSE2-NEXT: psrld $16, %xmm1
2053 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2054 ; SSE2-NEXT: movdqa %xmm1, %xmm0
2055 ; SSE2-NEXT: psrlw $8, %xmm0
2056 ; SSE2-NEXT: pmaxub %xmm1, %xmm0
2057 ; SSE2-NEXT: movd %xmm0, %eax
2058 ; SSE2-NEXT: # kill: def $al killed $al killed $eax
2061 ; SSE41-LABEL: test_v16i8:
2063 ; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
2064 ; SSE41-NEXT: pxor %xmm0, %xmm1
2065 ; SSE41-NEXT: movdqa %xmm1, %xmm0
2066 ; SSE41-NEXT: psrlw $8, %xmm0
2067 ; SSE41-NEXT: pminub %xmm1, %xmm0
2068 ; SSE41-NEXT: phminposuw %xmm0, %xmm0
2069 ; SSE41-NEXT: pextrb $0, %xmm0, %eax
2070 ; SSE41-NEXT: notb %al
2071 ; SSE41-NEXT: # kill: def $al killed $al killed $eax
2074 ; AVX-LABEL: test_v16i8:
2076 ; AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
2077 ; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0
2078 ; AVX-NEXT: vpsrlw $8, %xmm0, %xmm1
2079 ; AVX-NEXT: vpminub %xmm1, %xmm0, %xmm0
2080 ; AVX-NEXT: vphminposuw %xmm0, %xmm0
2081 ; AVX-NEXT: vpextrb $0, %xmm0, %eax
2082 ; AVX-NEXT: notb %al
2083 ; AVX-NEXT: # kill: def $al killed $al killed $eax
2086 ; AVX512BW-LABEL: test_v16i8:
2087 ; AVX512BW: # %bb.0:
2088 ; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
2089 ; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
2090 ; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm1
2091 ; AVX512BW-NEXT: vpminub %xmm1, %xmm0, %xmm0
2092 ; AVX512BW-NEXT: vphminposuw %xmm0, %xmm0
2093 ; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
2094 ; AVX512BW-NEXT: notb %al
2095 ; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
2096 ; AVX512BW-NEXT: vzeroupper
2097 ; AVX512BW-NEXT: retq
2099 ; AVX512VL-LABEL: test_v16i8:
2100 ; AVX512VL: # %bb.0:
2101 ; AVX512VL-NEXT: vpternlogq $15, %xmm0, %xmm0, %xmm0
2102 ; AVX512VL-NEXT: vpsrlw $8, %xmm0, %xmm1
2103 ; AVX512VL-NEXT: vpminub %xmm1, %xmm0, %xmm0
2104 ; AVX512VL-NEXT: vphminposuw %xmm0, %xmm0
2105 ; AVX512VL-NEXT: vpextrb $0, %xmm0, %eax
2106 ; AVX512VL-NEXT: notb %al
2107 ; AVX512VL-NEXT: # kill: def $al killed $al killed $eax
2108 ; AVX512VL-NEXT: retq
2109 %1 = call i8 @llvm.experimental.vector.reduce.umax.v16i8(<16 x i8> %a0)
2113 define i8 @test_v32i8(<32 x i8> %a0) {
2114 ; SSE2-LABEL: test_v32i8:
2116 ; SSE2-NEXT: pmaxub %xmm1, %xmm0
2117 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
2118 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2119 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
2120 ; SSE2-NEXT: pmaxub %xmm1, %xmm0
2121 ; SSE2-NEXT: movdqa %xmm0, %xmm1
2122 ; SSE2-NEXT: psrld $16, %xmm1
2123 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2124 ; SSE2-NEXT: movdqa %xmm1, %xmm0
2125 ; SSE2-NEXT: psrlw $8, %xmm0
2126 ; SSE2-NEXT: pmaxub %xmm1, %xmm0
2127 ; SSE2-NEXT: movd %xmm0, %eax
2128 ; SSE2-NEXT: # kill: def $al killed $al killed $eax
2131 ; SSE41-LABEL: test_v32i8:
2133 ; SSE41-NEXT: pmaxub %xmm1, %xmm0
2134 ; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
2135 ; SSE41-NEXT: pxor %xmm0, %xmm1
2136 ; SSE41-NEXT: movdqa %xmm1, %xmm0
2137 ; SSE41-NEXT: psrlw $8, %xmm0
2138 ; SSE41-NEXT: pminub %xmm1, %xmm0
2139 ; SSE41-NEXT: phminposuw %xmm0, %xmm0
2140 ; SSE41-NEXT: pextrb $0, %xmm0, %eax
2141 ; SSE41-NEXT: notb %al
2142 ; SSE41-NEXT: # kill: def $al killed $al killed $eax
2145 ; AVX1-LABEL: test_v32i8:
2147 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
2148 ; AVX1-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2149 ; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
2150 ; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
2151 ; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
2152 ; AVX1-NEXT: vpminub %xmm1, %xmm0, %xmm0
2153 ; AVX1-NEXT: vphminposuw %xmm0, %xmm0
2154 ; AVX1-NEXT: vpextrb $0, %xmm0, %eax
2155 ; AVX1-NEXT: notb %al
2156 ; AVX1-NEXT: # kill: def $al killed $al killed $eax
2157 ; AVX1-NEXT: vzeroupper
2160 ; AVX2-LABEL: test_v32i8:
2162 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
2163 ; AVX2-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2164 ; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
2165 ; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
2166 ; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
2167 ; AVX2-NEXT: vpminub %xmm1, %xmm0, %xmm0
2168 ; AVX2-NEXT: vphminposuw %xmm0, %xmm0
2169 ; AVX2-NEXT: vpextrb $0, %xmm0, %eax
2170 ; AVX2-NEXT: notb %al
2171 ; AVX2-NEXT: # kill: def $al killed $al killed $eax
2172 ; AVX2-NEXT: vzeroupper
2175 ; AVX512BW-LABEL: test_v32i8:
2176 ; AVX512BW: # %bb.0:
2177 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
2178 ; AVX512BW-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2179 ; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
2180 ; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm1
2181 ; AVX512BW-NEXT: vpminub %xmm1, %xmm0, %xmm0
2182 ; AVX512BW-NEXT: vphminposuw %xmm0, %xmm0
2183 ; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
2184 ; AVX512BW-NEXT: notb %al
2185 ; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
2186 ; AVX512BW-NEXT: vzeroupper
2187 ; AVX512BW-NEXT: retq
2189 ; AVX512VL-LABEL: test_v32i8:
2190 ; AVX512VL: # %bb.0:
2191 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
2192 ; AVX512VL-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2193 ; AVX512VL-NEXT: vpternlogq $15, %xmm0, %xmm0, %xmm0
2194 ; AVX512VL-NEXT: vpsrlw $8, %xmm0, %xmm1
2195 ; AVX512VL-NEXT: vpminub %xmm1, %xmm0, %xmm0
2196 ; AVX512VL-NEXT: vphminposuw %xmm0, %xmm0
2197 ; AVX512VL-NEXT: vpextrb $0, %xmm0, %eax
2198 ; AVX512VL-NEXT: notb %al
2199 ; AVX512VL-NEXT: # kill: def $al killed $al killed $eax
2200 ; AVX512VL-NEXT: vzeroupper
2201 ; AVX512VL-NEXT: retq
2202 %1 = call i8 @llvm.experimental.vector.reduce.umax.v32i8(<32 x i8> %a0)
2206 define i8 @test_v64i8(<64 x i8> %a0) {
2207 ; SSE2-LABEL: test_v64i8:
2209 ; SSE2-NEXT: pmaxub %xmm3, %xmm1
2210 ; SSE2-NEXT: pmaxub %xmm2, %xmm1
2211 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2212 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
2213 ; SSE2-NEXT: pmaxub %xmm1, %xmm0
2214 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
2215 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2216 ; SSE2-NEXT: movdqa %xmm1, %xmm0
2217 ; SSE2-NEXT: psrld $16, %xmm0
2218 ; SSE2-NEXT: pmaxub %xmm1, %xmm0
2219 ; SSE2-NEXT: movdqa %xmm0, %xmm1
2220 ; SSE2-NEXT: psrlw $8, %xmm1
2221 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2222 ; SSE2-NEXT: movd %xmm1, %eax
2223 ; SSE2-NEXT: # kill: def $al killed $al killed $eax
2226 ; SSE41-LABEL: test_v64i8:
2228 ; SSE41-NEXT: pmaxub %xmm3, %xmm1
2229 ; SSE41-NEXT: pmaxub %xmm2, %xmm1
2230 ; SSE41-NEXT: pmaxub %xmm0, %xmm1
2231 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm0
2232 ; SSE41-NEXT: pxor %xmm1, %xmm0
2233 ; SSE41-NEXT: movdqa %xmm0, %xmm1
2234 ; SSE41-NEXT: psrlw $8, %xmm1
2235 ; SSE41-NEXT: pminub %xmm0, %xmm1
2236 ; SSE41-NEXT: phminposuw %xmm1, %xmm0
2237 ; SSE41-NEXT: pextrb $0, %xmm0, %eax
2238 ; SSE41-NEXT: notb %al
2239 ; SSE41-NEXT: # kill: def $al killed $al killed $eax
2242 ; AVX1-LABEL: test_v64i8:
2244 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
2245 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
2246 ; AVX1-NEXT: vpmaxub %xmm2, %xmm3, %xmm2
2247 ; AVX1-NEXT: vpmaxub %xmm2, %xmm1, %xmm1
2248 ; AVX1-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2249 ; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
2250 ; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
2251 ; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
2252 ; AVX1-NEXT: vpminub %xmm1, %xmm0, %xmm0
2253 ; AVX1-NEXT: vphminposuw %xmm0, %xmm0
2254 ; AVX1-NEXT: vpextrb $0, %xmm0, %eax
2255 ; AVX1-NEXT: notb %al
2256 ; AVX1-NEXT: # kill: def $al killed $al killed $eax
2257 ; AVX1-NEXT: vzeroupper
2260 ; AVX2-LABEL: test_v64i8:
2262 ; AVX2-NEXT: vpmaxub %ymm1, %ymm0, %ymm0
2263 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
2264 ; AVX2-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2265 ; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
2266 ; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
2267 ; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
2268 ; AVX2-NEXT: vpminub %xmm1, %xmm0, %xmm0
2269 ; AVX2-NEXT: vphminposuw %xmm0, %xmm0
2270 ; AVX2-NEXT: vpextrb $0, %xmm0, %eax
2271 ; AVX2-NEXT: notb %al
2272 ; AVX2-NEXT: # kill: def $al killed $al killed $eax
2273 ; AVX2-NEXT: vzeroupper
2276 ; AVX512BW-LABEL: test_v64i8:
2277 ; AVX512BW: # %bb.0:
2278 ; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
2279 ; AVX512BW-NEXT: vpmaxub %ymm1, %ymm0, %ymm0
2280 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
2281 ; AVX512BW-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2282 ; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
2283 ; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm1
2284 ; AVX512BW-NEXT: vpminub %xmm1, %xmm0, %xmm0
2285 ; AVX512BW-NEXT: vphminposuw %xmm0, %xmm0
2286 ; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
2287 ; AVX512BW-NEXT: notb %al
2288 ; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
2289 ; AVX512BW-NEXT: vzeroupper
2290 ; AVX512BW-NEXT: retq
2292 ; AVX512VL-LABEL: test_v64i8:
2293 ; AVX512VL: # %bb.0:
2294 ; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
2295 ; AVX512VL-NEXT: vpmaxub %ymm1, %ymm0, %ymm0
2296 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
2297 ; AVX512VL-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2298 ; AVX512VL-NEXT: vpternlogq $15, %xmm0, %xmm0, %xmm0
2299 ; AVX512VL-NEXT: vpsrlw $8, %xmm0, %xmm1
2300 ; AVX512VL-NEXT: vpminub %xmm1, %xmm0, %xmm0
2301 ; AVX512VL-NEXT: vphminposuw %xmm0, %xmm0
2302 ; AVX512VL-NEXT: vpextrb $0, %xmm0, %eax
2303 ; AVX512VL-NEXT: notb %al
2304 ; AVX512VL-NEXT: # kill: def $al killed $al killed $eax
2305 ; AVX512VL-NEXT: vzeroupper
2306 ; AVX512VL-NEXT: retq
2307 %1 = call i8 @llvm.experimental.vector.reduce.umax.v64i8(<64 x i8> %a0)
2311 define i8 @test_v128i8(<128 x i8> %a0) {
2312 ; SSE2-LABEL: test_v128i8:
2314 ; SSE2-NEXT: pmaxub %xmm6, %xmm2
2315 ; SSE2-NEXT: pmaxub %xmm7, %xmm3
2316 ; SSE2-NEXT: pmaxub %xmm5, %xmm3
2317 ; SSE2-NEXT: pmaxub %xmm1, %xmm3
2318 ; SSE2-NEXT: pmaxub %xmm4, %xmm2
2319 ; SSE2-NEXT: pmaxub %xmm3, %xmm2
2320 ; SSE2-NEXT: pmaxub %xmm0, %xmm2
2321 ; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
2322 ; SSE2-NEXT: pmaxub %xmm2, %xmm0
2323 ; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
2324 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2325 ; SSE2-NEXT: movdqa %xmm1, %xmm0
2326 ; SSE2-NEXT: psrld $16, %xmm0
2327 ; SSE2-NEXT: pmaxub %xmm1, %xmm0
2328 ; SSE2-NEXT: movdqa %xmm0, %xmm1
2329 ; SSE2-NEXT: psrlw $8, %xmm1
2330 ; SSE2-NEXT: pmaxub %xmm0, %xmm1
2331 ; SSE2-NEXT: movd %xmm1, %eax
2332 ; SSE2-NEXT: # kill: def $al killed $al killed $eax
2335 ; SSE41-LABEL: test_v128i8:
2337 ; SSE41-NEXT: pmaxub %xmm7, %xmm3
2338 ; SSE41-NEXT: pmaxub %xmm5, %xmm3
2339 ; SSE41-NEXT: pmaxub %xmm1, %xmm3
2340 ; SSE41-NEXT: pmaxub %xmm6, %xmm2
2341 ; SSE41-NEXT: pmaxub %xmm4, %xmm2
2342 ; SSE41-NEXT: pmaxub %xmm3, %xmm2
2343 ; SSE41-NEXT: pmaxub %xmm0, %xmm2
2344 ; SSE41-NEXT: pcmpeqd %xmm0, %xmm0
2345 ; SSE41-NEXT: pxor %xmm2, %xmm0
2346 ; SSE41-NEXT: movdqa %xmm0, %xmm1
2347 ; SSE41-NEXT: psrlw $8, %xmm1
2348 ; SSE41-NEXT: pminub %xmm0, %xmm1
2349 ; SSE41-NEXT: phminposuw %xmm1, %xmm0
2350 ; SSE41-NEXT: pextrb $0, %xmm0, %eax
2351 ; SSE41-NEXT: notb %al
2352 ; SSE41-NEXT: # kill: def $al killed $al killed $eax
2355 ; AVX1-LABEL: test_v128i8:
2357 ; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4
2358 ; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
2359 ; AVX1-NEXT: vpmaxub %xmm4, %xmm5, %xmm4
2360 ; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
2361 ; AVX1-NEXT: vpmaxub %xmm4, %xmm5, %xmm4
2362 ; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
2363 ; AVX1-NEXT: vpmaxub %xmm4, %xmm5, %xmm4
2364 ; AVX1-NEXT: vpmaxub %xmm3, %xmm1, %xmm1
2365 ; AVX1-NEXT: vpmaxub %xmm1, %xmm2, %xmm1
2366 ; AVX1-NEXT: vpmaxub %xmm4, %xmm1, %xmm1
2367 ; AVX1-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2368 ; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
2369 ; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
2370 ; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
2371 ; AVX1-NEXT: vpminub %xmm1, %xmm0, %xmm0
2372 ; AVX1-NEXT: vphminposuw %xmm0, %xmm0
2373 ; AVX1-NEXT: vpextrb $0, %xmm0, %eax
2374 ; AVX1-NEXT: notb %al
2375 ; AVX1-NEXT: # kill: def $al killed $al killed $eax
2376 ; AVX1-NEXT: vzeroupper
2379 ; AVX2-LABEL: test_v128i8:
2381 ; AVX2-NEXT: vpmaxub %ymm3, %ymm1, %ymm1
2382 ; AVX2-NEXT: vpmaxub %ymm1, %ymm2, %ymm1
2383 ; AVX2-NEXT: vpmaxub %ymm1, %ymm0, %ymm0
2384 ; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
2385 ; AVX2-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2386 ; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
2387 ; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
2388 ; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
2389 ; AVX2-NEXT: vpminub %xmm1, %xmm0, %xmm0
2390 ; AVX2-NEXT: vphminposuw %xmm0, %xmm0
2391 ; AVX2-NEXT: vpextrb $0, %xmm0, %eax
2392 ; AVX2-NEXT: notb %al
2393 ; AVX2-NEXT: # kill: def $al killed $al killed $eax
2394 ; AVX2-NEXT: vzeroupper
2397 ; AVX512BW-LABEL: test_v128i8:
2398 ; AVX512BW: # %bb.0:
2399 ; AVX512BW-NEXT: vpmaxub %zmm1, %zmm0, %zmm0
2400 ; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
2401 ; AVX512BW-NEXT: vpmaxub %ymm1, %ymm0, %ymm0
2402 ; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
2403 ; AVX512BW-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2404 ; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
2405 ; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm1
2406 ; AVX512BW-NEXT: vpminub %xmm1, %xmm0, %xmm0
2407 ; AVX512BW-NEXT: vphminposuw %xmm0, %xmm0
2408 ; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
2409 ; AVX512BW-NEXT: notb %al
2410 ; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
2411 ; AVX512BW-NEXT: vzeroupper
2412 ; AVX512BW-NEXT: retq
2414 ; AVX512VL-LABEL: test_v128i8:
2415 ; AVX512VL: # %bb.0:
2416 ; AVX512VL-NEXT: vpmaxub %zmm1, %zmm0, %zmm0
2417 ; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
2418 ; AVX512VL-NEXT: vpmaxub %ymm1, %ymm0, %ymm0
2419 ; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
2420 ; AVX512VL-NEXT: vpmaxub %xmm1, %xmm0, %xmm0
2421 ; AVX512VL-NEXT: vpternlogq $15, %xmm0, %xmm0, %xmm0
2422 ; AVX512VL-NEXT: vpsrlw $8, %xmm0, %xmm1
2423 ; AVX512VL-NEXT: vpminub %xmm1, %xmm0, %xmm0
2424 ; AVX512VL-NEXT: vphminposuw %xmm0, %xmm0
2425 ; AVX512VL-NEXT: vpextrb $0, %xmm0, %eax
2426 ; AVX512VL-NEXT: notb %al
2427 ; AVX512VL-NEXT: # kill: def $al killed $al killed $eax
2428 ; AVX512VL-NEXT: vzeroupper
2429 ; AVX512VL-NEXT: retq
2430 %1 = call i8 @llvm.experimental.vector.reduce.umax.v128i8(<128 x i8> %a0)
2434 declare i64 @llvm.experimental.vector.reduce.umax.v2i64(<2 x i64>)
2435 declare i64 @llvm.experimental.vector.reduce.umax.v4i64(<4 x i64>)
2436 declare i64 @llvm.experimental.vector.reduce.umax.v8i64(<8 x i64>)
2437 declare i64 @llvm.experimental.vector.reduce.umax.v16i64(<16 x i64>)
2439 declare i32 @llvm.experimental.vector.reduce.umax.v2i32(<2 x i32>)
2440 declare i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32>)
2441 declare i32 @llvm.experimental.vector.reduce.umax.v8i32(<8 x i32>)
2442 declare i32 @llvm.experimental.vector.reduce.umax.v16i32(<16 x i32>)
2443 declare i32 @llvm.experimental.vector.reduce.umax.v32i32(<32 x i32>)
2445 declare i16 @llvm.experimental.vector.reduce.umax.v2i16(<2 x i16>)
2446 declare i16 @llvm.experimental.vector.reduce.umax.v4i16(<4 x i16>)
2447 declare i16 @llvm.experimental.vector.reduce.umax.v8i16(<8 x i16>)
2448 declare i16 @llvm.experimental.vector.reduce.umax.v16i16(<16 x i16>)
2449 declare i16 @llvm.experimental.vector.reduce.umax.v32i16(<32 x i16>)
2450 declare i16 @llvm.experimental.vector.reduce.umax.v64i16(<64 x i16>)
2452 declare i8 @llvm.experimental.vector.reduce.umax.v2i8(<2 x i8>)
2453 declare i8 @llvm.experimental.vector.reduce.umax.v4i8(<4 x i8>)
2454 declare i8 @llvm.experimental.vector.reduce.umax.v8i8(<8 x i8>)
2455 declare i8 @llvm.experimental.vector.reduce.umax.v16i8(<16 x i8>)
2456 declare i8 @llvm.experimental.vector.reduce.umax.v32i8(<32 x i8>)
2457 declare i8 @llvm.experimental.vector.reduce.umax.v64i8(<64 x i8>)
2458 declare i8 @llvm.experimental.vector.reduce.umax.v128i8(<128 x i8>)