llvm/test/CodeGen/X86/mmx-fold-load.ll

   1 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
   2 ; RUN: llc < %s -disable-peephole -mtriple=i686-unknown -mattr=+mmx,+sse2 | FileCheck %s --check-prefix=X86
   3 ; RUN: llc < %s -disable-peephole -mtriple=x86_64-unknown -mattr=+mmx,+sse2 | FileCheck %s --check-prefix=X64
   4
   5 define i64 @t0(ptr %a, ptr %b) nounwind {
   6 ; X86-LABEL: t0:
   7 ; X86:       # %bb.0: # %entry
   8 ; X86-NEXT:    pushl %ebp
   9 ; X86-NEXT:    movl %esp, %ebp
  10 ; X86-NEXT:    andl $-8, %esp
  11 ; X86-NEXT:    subl $8, %esp
  12 ; X86-NEXT:    movl 12(%ebp), %eax
  13 ; X86-NEXT:    movl 8(%ebp), %ecx
  14 ; X86-NEXT:    movq (%ecx), %mm0
  15 ; X86-NEXT:    movd (%eax), %mm1
  16 ; X86-NEXT:    psllq %mm1, %mm0
  17 ; X86-NEXT:    movq %mm0, (%esp)
  18 ; X86-NEXT:    movl (%esp), %eax
  19 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
  20 ; X86-NEXT:    movl %ebp, %esp
  21 ; X86-NEXT:    popl %ebp
  22 ; X86-NEXT:    retl
  23 ;
  24 ; X64-LABEL: t0:
  25 ; X64:       # %bb.0: # %entry
  26 ; X64-NEXT:    movq (%rdi), %mm0
  27 ; X64-NEXT:    movd (%rsi), %mm1
  28 ; X64-NEXT:    psllq %mm1, %mm0
  29 ; X64-NEXT:    movq %mm0, %rax
  30 ; X64-NEXT:    retq
  31 entry:
  32   %0 = load x86_mmx, ptr %a, align 8
  33   %1 = load i32, ptr %b, align 4
  34   %2 = tail call x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx %0, i32 %1)
  35   %3 = bitcast x86_mmx %2 to i64
  36   ret i64 %3
  37 }
  38 declare x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx, i32)
  39
  40 define i64 @t1(ptr %a, ptr %b) nounwind {
  41 ; X86-LABEL: t1:
  42 ; X86:       # %bb.0: # %entry
  43 ; X86-NEXT:    pushl %ebp
  44 ; X86-NEXT:    movl %esp, %ebp
  45 ; X86-NEXT:    andl $-8, %esp
  46 ; X86-NEXT:    subl $8, %esp
  47 ; X86-NEXT:    movl 12(%ebp), %eax
  48 ; X86-NEXT:    movl 8(%ebp), %ecx
  49 ; X86-NEXT:    movq (%ecx), %mm0
  50 ; X86-NEXT:    movd (%eax), %mm1
  51 ; X86-NEXT:    psrlq %mm1, %mm0
  52 ; X86-NEXT:    movq %mm0, (%esp)
  53 ; X86-NEXT:    movl (%esp), %eax
  54 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
  55 ; X86-NEXT:    movl %ebp, %esp
  56 ; X86-NEXT:    popl %ebp
  57 ; X86-NEXT:    retl
  58 ;
  59 ; X64-LABEL: t1:
  60 ; X64:       # %bb.0: # %entry
  61 ; X64-NEXT:    movq (%rdi), %mm0
  62 ; X64-NEXT:    movd (%rsi), %mm1
  63 ; X64-NEXT:    psrlq %mm1, %mm0
  64 ; X64-NEXT:    movq %mm0, %rax
  65 ; X64-NEXT:    retq
  66 entry:
  67   %0 = load x86_mmx, ptr %a, align 8
  68   %1 = load i32, ptr %b, align 4
  69   %2 = tail call x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx %0, i32 %1)
  70   %3 = bitcast x86_mmx %2 to i64
  71   ret i64 %3
  72 }
  73 declare x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx, i32)
  74
  75 define i64 @t2(ptr %a, ptr %b) nounwind {
  76 ; X86-LABEL: t2:
  77 ; X86:       # %bb.0: # %entry
  78 ; X86-NEXT:    pushl %ebp
  79 ; X86-NEXT:    movl %esp, %ebp
  80 ; X86-NEXT:    andl $-8, %esp
  81 ; X86-NEXT:    subl $8, %esp
  82 ; X86-NEXT:    movl 12(%ebp), %eax
  83 ; X86-NEXT:    movl 8(%ebp), %ecx
  84 ; X86-NEXT:    movq (%ecx), %mm0
  85 ; X86-NEXT:    movd (%eax), %mm1
  86 ; X86-NEXT:    psllw %mm1, %mm0
  87 ; X86-NEXT:    movq %mm0, (%esp)
  88 ; X86-NEXT:    movl (%esp), %eax
  89 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
  90 ; X86-NEXT:    movl %ebp, %esp
  91 ; X86-NEXT:    popl %ebp
  92 ; X86-NEXT:    retl
  93 ;
  94 ; X64-LABEL: t2:
  95 ; X64:       # %bb.0: # %entry
  96 ; X64-NEXT:    movq (%rdi), %mm0
  97 ; X64-NEXT:    movd (%rsi), %mm1
  98 ; X64-NEXT:    psllw %mm1, %mm0
  99 ; X64-NEXT:    movq %mm0, %rax
 100 ; X64-NEXT:    retq
 101 entry:
 102   %0 = load x86_mmx, ptr %a, align 8
 103   %1 = load i32, ptr %b, align 4
 104   %2 = tail call x86_mmx @llvm.x86.mmx.pslli.w(x86_mmx %0, i32 %1)
 105   %3 = bitcast x86_mmx %2 to i64
 106   ret i64 %3
 107 }
 108 declare x86_mmx @llvm.x86.mmx.pslli.w(x86_mmx, i32)
 109
 110 define i64 @t3(ptr %a, ptr %b) nounwind {
 111 ; X86-LABEL: t3:
 112 ; X86:       # %bb.0: # %entry
 113 ; X86-NEXT:    pushl %ebp
 114 ; X86-NEXT:    movl %esp, %ebp
 115 ; X86-NEXT:    andl $-8, %esp
 116 ; X86-NEXT:    subl $8, %esp
 117 ; X86-NEXT:    movl 12(%ebp), %eax
 118 ; X86-NEXT:    movl 8(%ebp), %ecx
 119 ; X86-NEXT:    movq (%ecx), %mm0
 120 ; X86-NEXT:    movd (%eax), %mm1
 121 ; X86-NEXT:    psrlw %mm1, %mm0
 122 ; X86-NEXT:    movq %mm0, (%esp)
 123 ; X86-NEXT:    movl (%esp), %eax
 124 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 125 ; X86-NEXT:    movl %ebp, %esp
 126 ; X86-NEXT:    popl %ebp
 127 ; X86-NEXT:    retl
 128 ;
 129 ; X64-LABEL: t3:
 130 ; X64:       # %bb.0: # %entry
 131 ; X64-NEXT:    movq (%rdi), %mm0
 132 ; X64-NEXT:    movd (%rsi), %mm1
 133 ; X64-NEXT:    psrlw %mm1, %mm0
 134 ; X64-NEXT:    movq %mm0, %rax
 135 ; X64-NEXT:    retq
 136 entry:
 137   %0 = load x86_mmx, ptr %a, align 8
 138   %1 = load i32, ptr %b, align 4
 139   %2 = tail call x86_mmx @llvm.x86.mmx.psrli.w(x86_mmx %0, i32 %1)
 140   %3 = bitcast x86_mmx %2 to i64
 141   ret i64 %3
 142 }
 143 declare x86_mmx @llvm.x86.mmx.psrli.w(x86_mmx, i32)
 144
 145 define i64 @t4(ptr %a, ptr %b) nounwind {
 146 ; X86-LABEL: t4:
 147 ; X86:       # %bb.0: # %entry
 148 ; X86-NEXT:    pushl %ebp
 149 ; X86-NEXT:    movl %esp, %ebp
 150 ; X86-NEXT:    andl $-8, %esp
 151 ; X86-NEXT:    subl $8, %esp
 152 ; X86-NEXT:    movl 12(%ebp), %eax
 153 ; X86-NEXT:    movl 8(%ebp), %ecx
 154 ; X86-NEXT:    movq (%ecx), %mm0
 155 ; X86-NEXT:    movd (%eax), %mm1
 156 ; X86-NEXT:    pslld %mm1, %mm0
 157 ; X86-NEXT:    movq %mm0, (%esp)
 158 ; X86-NEXT:    movl (%esp), %eax
 159 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 160 ; X86-NEXT:    movl %ebp, %esp
 161 ; X86-NEXT:    popl %ebp
 162 ; X86-NEXT:    retl
 163 ;
 164 ; X64-LABEL: t4:
 165 ; X64:       # %bb.0: # %entry
 166 ; X64-NEXT:    movq (%rdi), %mm0
 167 ; X64-NEXT:    movd (%rsi), %mm1
 168 ; X64-NEXT:    pslld %mm1, %mm0
 169 ; X64-NEXT:    movq %mm0, %rax
 170 ; X64-NEXT:    retq
 171 entry:
 172   %0 = load x86_mmx, ptr %a, align 8
 173   %1 = load i32, ptr %b, align 4
 174   %2 = tail call x86_mmx @llvm.x86.mmx.pslli.d(x86_mmx %0, i32 %1)
 175   %3 = bitcast x86_mmx %2 to i64
 176   ret i64 %3
 177 }
 178 declare x86_mmx @llvm.x86.mmx.pslli.d(x86_mmx, i32)
 179
 180 define i64 @t5(ptr %a, ptr %b) nounwind {
 181 ; X86-LABEL: t5:
 182 ; X86:       # %bb.0: # %entry
 183 ; X86-NEXT:    pushl %ebp
 184 ; X86-NEXT:    movl %esp, %ebp
 185 ; X86-NEXT:    andl $-8, %esp
 186 ; X86-NEXT:    subl $8, %esp
 187 ; X86-NEXT:    movl 12(%ebp), %eax
 188 ; X86-NEXT:    movl 8(%ebp), %ecx
 189 ; X86-NEXT:    movq (%ecx), %mm0
 190 ; X86-NEXT:    movd (%eax), %mm1
 191 ; X86-NEXT:    psrld %mm1, %mm0
 192 ; X86-NEXT:    movq %mm0, (%esp)
 193 ; X86-NEXT:    movl (%esp), %eax
 194 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 195 ; X86-NEXT:    movl %ebp, %esp
 196 ; X86-NEXT:    popl %ebp
 197 ; X86-NEXT:    retl
 198 ;
 199 ; X64-LABEL: t5:
 200 ; X64:       # %bb.0: # %entry
 201 ; X64-NEXT:    movq (%rdi), %mm0
 202 ; X64-NEXT:    movd (%rsi), %mm1
 203 ; X64-NEXT:    psrld %mm1, %mm0
 204 ; X64-NEXT:    movq %mm0, %rax
 205 ; X64-NEXT:    retq
 206 entry:
 207   %0 = load x86_mmx, ptr %a, align 8
 208   %1 = load i32, ptr %b, align 4
 209   %2 = tail call x86_mmx @llvm.x86.mmx.psrli.d(x86_mmx %0, i32 %1)
 210   %3 = bitcast x86_mmx %2 to i64
 211   ret i64 %3
 212 }
 213 declare x86_mmx @llvm.x86.mmx.psrli.d(x86_mmx, i32)
 214
 215 define i64 @t6(ptr %a, ptr %b) nounwind {
 216 ; X86-LABEL: t6:
 217 ; X86:       # %bb.0: # %entry
 218 ; X86-NEXT:    pushl %ebp
 219 ; X86-NEXT:    movl %esp, %ebp
 220 ; X86-NEXT:    andl $-8, %esp
 221 ; X86-NEXT:    subl $8, %esp
 222 ; X86-NEXT:    movl 12(%ebp), %eax
 223 ; X86-NEXT:    movl 8(%ebp), %ecx
 224 ; X86-NEXT:    movq (%ecx), %mm0
 225 ; X86-NEXT:    movd (%eax), %mm1
 226 ; X86-NEXT:    psraw %mm1, %mm0
 227 ; X86-NEXT:    movq %mm0, (%esp)
 228 ; X86-NEXT:    movl (%esp), %eax
 229 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 230 ; X86-NEXT:    movl %ebp, %esp
 231 ; X86-NEXT:    popl %ebp
 232 ; X86-NEXT:    retl
 233 ;
 234 ; X64-LABEL: t6:
 235 ; X64:       # %bb.0: # %entry
 236 ; X64-NEXT:    movq (%rdi), %mm0
 237 ; X64-NEXT:    movd (%rsi), %mm1
 238 ; X64-NEXT:    psraw %mm1, %mm0
 239 ; X64-NEXT:    movq %mm0, %rax
 240 ; X64-NEXT:    retq
 241 entry:
 242   %0 = load x86_mmx, ptr %a, align 8
 243   %1 = load i32, ptr %b, align 4
 244   %2 = tail call x86_mmx @llvm.x86.mmx.psrai.w(x86_mmx %0, i32 %1)
 245   %3 = bitcast x86_mmx %2 to i64
 246   ret i64 %3
 247 }
 248 declare x86_mmx @llvm.x86.mmx.psrai.w(x86_mmx, i32)
 249
 250 define i64 @t7(ptr %a, ptr %b) nounwind {
 251 ; X86-LABEL: t7:
 252 ; X86:       # %bb.0: # %entry
 253 ; X86-NEXT:    pushl %ebp
 254 ; X86-NEXT:    movl %esp, %ebp
 255 ; X86-NEXT:    andl $-8, %esp
 256 ; X86-NEXT:    subl $8, %esp
 257 ; X86-NEXT:    movl 12(%ebp), %eax
 258 ; X86-NEXT:    movl 8(%ebp), %ecx
 259 ; X86-NEXT:    movq (%ecx), %mm0
 260 ; X86-NEXT:    movd (%eax), %mm1
 261 ; X86-NEXT:    psrad %mm1, %mm0
 262 ; X86-NEXT:    movq %mm0, (%esp)
 263 ; X86-NEXT:    movl (%esp), %eax
 264 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 265 ; X86-NEXT:    movl %ebp, %esp
 266 ; X86-NEXT:    popl %ebp
 267 ; X86-NEXT:    retl
 268 ;
 269 ; X64-LABEL: t7:
 270 ; X64:       # %bb.0: # %entry
 271 ; X64-NEXT:    movq (%rdi), %mm0
 272 ; X64-NEXT:    movd (%rsi), %mm1
 273 ; X64-NEXT:    psrad %mm1, %mm0
 274 ; X64-NEXT:    movq %mm0, %rax
 275 ; X64-NEXT:    retq
 276 entry:
 277   %0 = load x86_mmx, ptr %a, align 8
 278   %1 = load i32, ptr %b, align 4
 279   %2 = tail call x86_mmx @llvm.x86.mmx.psrai.d(x86_mmx %0, i32 %1)
 280   %3 = bitcast x86_mmx %2 to i64
 281   ret i64 %3
 282 }
 283 declare x86_mmx @llvm.x86.mmx.psrai.d(x86_mmx, i32)
 284
 285 define i64 @tt0(x86_mmx %t, ptr %q) nounwind {
 286 ; X86-LABEL: tt0:
 287 ; X86:       # %bb.0: # %entry
 288 ; X86-NEXT:    pushl %ebp
 289 ; X86-NEXT:    movl %esp, %ebp
 290 ; X86-NEXT:    andl $-8, %esp
 291 ; X86-NEXT:    subl $8, %esp
 292 ; X86-NEXT:    movl 8(%ebp), %eax
 293 ; X86-NEXT:    paddb (%eax), %mm0
 294 ; X86-NEXT:    movq %mm0, (%esp)
 295 ; X86-NEXT:    movl (%esp), %eax
 296 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 297 ; X86-NEXT:    emms
 298 ; X86-NEXT:    movl %ebp, %esp
 299 ; X86-NEXT:    popl %ebp
 300 ; X86-NEXT:    retl
 301 ;
 302 ; X64-LABEL: tt0:
 303 ; X64:       # %bb.0: # %entry
 304 ; X64-NEXT:    paddb (%rdi), %mm0
 305 ; X64-NEXT:    movq %mm0, %rax
 306 ; X64-NEXT:    emms
 307 ; X64-NEXT:    retq
 308 entry:
 309   %v = load x86_mmx, ptr %q
 310   %u = tail call x86_mmx @llvm.x86.mmx.padd.b(x86_mmx %t, x86_mmx %v)
 311   %s = bitcast x86_mmx %u to i64
 312   call void @llvm.x86.mmx.emms()
 313   ret i64 %s
 314 }
 315 declare x86_mmx @llvm.x86.mmx.padd.b(x86_mmx, x86_mmx)
 316 declare void @llvm.x86.mmx.emms()
 317
 318 define i64 @tt1(x86_mmx %t, ptr %q) nounwind {
 319 ; X86-LABEL: tt1:
 320 ; X86:       # %bb.0: # %entry
 321 ; X86-NEXT:    pushl %ebp
 322 ; X86-NEXT:    movl %esp, %ebp
 323 ; X86-NEXT:    andl $-8, %esp
 324 ; X86-NEXT:    subl $8, %esp
 325 ; X86-NEXT:    movl 8(%ebp), %eax
 326 ; X86-NEXT:    paddw (%eax), %mm0
 327 ; X86-NEXT:    movq %mm0, (%esp)
 328 ; X86-NEXT:    movl (%esp), %eax
 329 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 330 ; X86-NEXT:    emms
 331 ; X86-NEXT:    movl %ebp, %esp
 332 ; X86-NEXT:    popl %ebp
 333 ; X86-NEXT:    retl
 334 ;
 335 ; X64-LABEL: tt1:
 336 ; X64:       # %bb.0: # %entry
 337 ; X64-NEXT:    paddw (%rdi), %mm0
 338 ; X64-NEXT:    movq %mm0, %rax
 339 ; X64-NEXT:    emms
 340 ; X64-NEXT:    retq
 341 entry:
 342   %v = load x86_mmx, ptr %q
 343   %u = tail call x86_mmx @llvm.x86.mmx.padd.w(x86_mmx %t, x86_mmx %v)
 344   %s = bitcast x86_mmx %u to i64
 345   call void @llvm.x86.mmx.emms()
 346   ret i64 %s
 347 }
 348 declare x86_mmx @llvm.x86.mmx.padd.w(x86_mmx, x86_mmx)
 349
 350 define i64 @tt2(x86_mmx %t, ptr %q) nounwind {
 351 ; X86-LABEL: tt2:
 352 ; X86:       # %bb.0: # %entry
 353 ; X86-NEXT:    pushl %ebp
 354 ; X86-NEXT:    movl %esp, %ebp
 355 ; X86-NEXT:    andl $-8, %esp
 356 ; X86-NEXT:    subl $8, %esp
 357 ; X86-NEXT:    movl 8(%ebp), %eax
 358 ; X86-NEXT:    paddd (%eax), %mm0
 359 ; X86-NEXT:    movq %mm0, (%esp)
 360 ; X86-NEXT:    movl (%esp), %eax
 361 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 362 ; X86-NEXT:    emms
 363 ; X86-NEXT:    movl %ebp, %esp
 364 ; X86-NEXT:    popl %ebp
 365 ; X86-NEXT:    retl
 366 ;
 367 ; X64-LABEL: tt2:
 368 ; X64:       # %bb.0: # %entry
 369 ; X64-NEXT:    paddd (%rdi), %mm0
 370 ; X64-NEXT:    movq %mm0, %rax
 371 ; X64-NEXT:    emms
 372 ; X64-NEXT:    retq
 373 entry:
 374   %v = load x86_mmx, ptr %q
 375   %u = tail call x86_mmx @llvm.x86.mmx.padd.d(x86_mmx %t, x86_mmx %v)
 376   %s = bitcast x86_mmx %u to i64
 377   call void @llvm.x86.mmx.emms()
 378   ret i64 %s
 379 }
 380 declare x86_mmx @llvm.x86.mmx.padd.d(x86_mmx, x86_mmx)
 381
 382 define i64 @tt3(x86_mmx %t, ptr %q) nounwind {
 383 ; X86-LABEL: tt3:
 384 ; X86:       # %bb.0: # %entry
 385 ; X86-NEXT:    pushl %ebp
 386 ; X86-NEXT:    movl %esp, %ebp
 387 ; X86-NEXT:    andl $-8, %esp
 388 ; X86-NEXT:    subl $8, %esp
 389 ; X86-NEXT:    movl 8(%ebp), %eax
 390 ; X86-NEXT:    paddq (%eax), %mm0
 391 ; X86-NEXT:    movq %mm0, (%esp)
 392 ; X86-NEXT:    movl (%esp), %eax
 393 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 394 ; X86-NEXT:    emms
 395 ; X86-NEXT:    movl %ebp, %esp
 396 ; X86-NEXT:    popl %ebp
 397 ; X86-NEXT:    retl
 398 ;
 399 ; X64-LABEL: tt3:
 400 ; X64:       # %bb.0: # %entry
 401 ; X64-NEXT:    paddq (%rdi), %mm0
 402 ; X64-NEXT:    movq %mm0, %rax
 403 ; X64-NEXT:    emms
 404 ; X64-NEXT:    retq
 405 entry:
 406   %v = load x86_mmx, ptr %q
 407   %u = tail call x86_mmx @llvm.x86.mmx.padd.q(x86_mmx %t, x86_mmx %v)
 408   %s = bitcast x86_mmx %u to i64
 409   call void @llvm.x86.mmx.emms()
 410   ret i64 %s
 411 }
 412 declare x86_mmx @llvm.x86.mmx.padd.q(x86_mmx, x86_mmx)
 413
 414 define i64 @tt4(x86_mmx %t, ptr %q) nounwind {
 415 ; X86-LABEL: tt4:
 416 ; X86:       # %bb.0: # %entry
 417 ; X86-NEXT:    pushl %ebp
 418 ; X86-NEXT:    movl %esp, %ebp
 419 ; X86-NEXT:    andl $-8, %esp
 420 ; X86-NEXT:    subl $8, %esp
 421 ; X86-NEXT:    movl 8(%ebp), %eax
 422 ; X86-NEXT:    paddusb (%eax), %mm0
 423 ; X86-NEXT:    movq %mm0, (%esp)
 424 ; X86-NEXT:    movl (%esp), %eax
 425 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 426 ; X86-NEXT:    emms
 427 ; X86-NEXT:    movl %ebp, %esp
 428 ; X86-NEXT:    popl %ebp
 429 ; X86-NEXT:    retl
 430 ;
 431 ; X64-LABEL: tt4:
 432 ; X64:       # %bb.0: # %entry
 433 ; X64-NEXT:    paddusb (%rdi), %mm0
 434 ; X64-NEXT:    movq %mm0, %rax
 435 ; X64-NEXT:    emms
 436 ; X64-NEXT:    retq
 437 entry:
 438   %v = load x86_mmx, ptr %q
 439   %u = tail call x86_mmx @llvm.x86.mmx.paddus.b(x86_mmx %t, x86_mmx %v)
 440   %s = bitcast x86_mmx %u to i64
 441   call void @llvm.x86.mmx.emms()
 442   ret i64 %s
 443 }
 444 declare x86_mmx @llvm.x86.mmx.paddus.b(x86_mmx, x86_mmx)
 445
 446 define i64 @tt5(x86_mmx %t, ptr %q) nounwind {
 447 ; X86-LABEL: tt5:
 448 ; X86:       # %bb.0: # %entry
 449 ; X86-NEXT:    pushl %ebp
 450 ; X86-NEXT:    movl %esp, %ebp
 451 ; X86-NEXT:    andl $-8, %esp
 452 ; X86-NEXT:    subl $8, %esp
 453 ; X86-NEXT:    movl 8(%ebp), %eax
 454 ; X86-NEXT:    paddusw (%eax), %mm0
 455 ; X86-NEXT:    movq %mm0, (%esp)
 456 ; X86-NEXT:    movl (%esp), %eax
 457 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 458 ; X86-NEXT:    emms
 459 ; X86-NEXT:    movl %ebp, %esp
 460 ; X86-NEXT:    popl %ebp
 461 ; X86-NEXT:    retl
 462 ;
 463 ; X64-LABEL: tt5:
 464 ; X64:       # %bb.0: # %entry
 465 ; X64-NEXT:    paddusw (%rdi), %mm0
 466 ; X64-NEXT:    movq %mm0, %rax
 467 ; X64-NEXT:    emms
 468 ; X64-NEXT:    retq
 469 entry:
 470   %v = load x86_mmx, ptr %q
 471   %u = tail call x86_mmx @llvm.x86.mmx.paddus.w(x86_mmx %t, x86_mmx %v)
 472   %s = bitcast x86_mmx %u to i64
 473   call void @llvm.x86.mmx.emms()
 474   ret i64 %s
 475 }
 476 declare x86_mmx @llvm.x86.mmx.paddus.w(x86_mmx, x86_mmx)
 477
 478 define i64 @tt6(x86_mmx %t, ptr %q) nounwind {
 479 ; X86-LABEL: tt6:
 480 ; X86:       # %bb.0: # %entry
 481 ; X86-NEXT:    pushl %ebp
 482 ; X86-NEXT:    movl %esp, %ebp
 483 ; X86-NEXT:    andl $-8, %esp
 484 ; X86-NEXT:    subl $8, %esp
 485 ; X86-NEXT:    movl 8(%ebp), %eax
 486 ; X86-NEXT:    psrlw (%eax), %mm0
 487 ; X86-NEXT:    movq %mm0, (%esp)
 488 ; X86-NEXT:    movl (%esp), %eax
 489 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 490 ; X86-NEXT:    emms
 491 ; X86-NEXT:    movl %ebp, %esp
 492 ; X86-NEXT:    popl %ebp
 493 ; X86-NEXT:    retl
 494 ;
 495 ; X64-LABEL: tt6:
 496 ; X64:       # %bb.0: # %entry
 497 ; X64-NEXT:    psrlw (%rdi), %mm0
 498 ; X64-NEXT:    movq %mm0, %rax
 499 ; X64-NEXT:    emms
 500 ; X64-NEXT:    retq
 501 entry:
 502   %v = load x86_mmx, ptr %q
 503   %u = tail call x86_mmx @llvm.x86.mmx.psrl.w(x86_mmx %t, x86_mmx %v)
 504   %s = bitcast x86_mmx %u to i64
 505   call void @llvm.x86.mmx.emms()
 506   ret i64 %s
 507 }
 508 declare x86_mmx @llvm.x86.mmx.psrl.w(x86_mmx, x86_mmx)
 509
 510 define i64 @tt7(x86_mmx %t, ptr %q) nounwind {
 511 ; X86-LABEL: tt7:
 512 ; X86:       # %bb.0: # %entry
 513 ; X86-NEXT:    pushl %ebp
 514 ; X86-NEXT:    movl %esp, %ebp
 515 ; X86-NEXT:    andl $-8, %esp
 516 ; X86-NEXT:    subl $8, %esp
 517 ; X86-NEXT:    movl 8(%ebp), %eax
 518 ; X86-NEXT:    psrld (%eax), %mm0
 519 ; X86-NEXT:    movq %mm0, (%esp)
 520 ; X86-NEXT:    movl (%esp), %eax
 521 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 522 ; X86-NEXT:    emms
 523 ; X86-NEXT:    movl %ebp, %esp
 524 ; X86-NEXT:    popl %ebp
 525 ; X86-NEXT:    retl
 526 ;
 527 ; X64-LABEL: tt7:
 528 ; X64:       # %bb.0: # %entry
 529 ; X64-NEXT:    psrld (%rdi), %mm0
 530 ; X64-NEXT:    movq %mm0, %rax
 531 ; X64-NEXT:    emms
 532 ; X64-NEXT:    retq
 533 entry:
 534   %v = load x86_mmx, ptr %q
 535   %u = tail call x86_mmx @llvm.x86.mmx.psrl.d(x86_mmx %t, x86_mmx %v)
 536   %s = bitcast x86_mmx %u to i64
 537   call void @llvm.x86.mmx.emms()
 538   ret i64 %s
 539 }
 540 declare x86_mmx @llvm.x86.mmx.psrl.d(x86_mmx, x86_mmx)
 541
 542 define i64 @tt8(x86_mmx %t, ptr %q) nounwind {
 543 ; X86-LABEL: tt8:
 544 ; X86:       # %bb.0: # %entry
 545 ; X86-NEXT:    pushl %ebp
 546 ; X86-NEXT:    movl %esp, %ebp
 547 ; X86-NEXT:    andl $-8, %esp
 548 ; X86-NEXT:    subl $8, %esp
 549 ; X86-NEXT:    movl 8(%ebp), %eax
 550 ; X86-NEXT:    psrlq (%eax), %mm0
 551 ; X86-NEXT:    movq %mm0, (%esp)
 552 ; X86-NEXT:    movl (%esp), %eax
 553 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 554 ; X86-NEXT:    emms
 555 ; X86-NEXT:    movl %ebp, %esp
 556 ; X86-NEXT:    popl %ebp
 557 ; X86-NEXT:    retl
 558 ;
 559 ; X64-LABEL: tt8:
 560 ; X64:       # %bb.0: # %entry
 561 ; X64-NEXT:    psrlq (%rdi), %mm0
 562 ; X64-NEXT:    movq %mm0, %rax
 563 ; X64-NEXT:    emms
 564 ; X64-NEXT:    retq
 565 entry:
 566   %v = load x86_mmx, ptr %q
 567   %u = tail call x86_mmx @llvm.x86.mmx.psrl.q(x86_mmx %t, x86_mmx %v)
 568   %s = bitcast x86_mmx %u to i64
 569   call void @llvm.x86.mmx.emms()
 570   ret i64 %s
 571 }
 572 declare x86_mmx @llvm.x86.mmx.psrl.q(x86_mmx, x86_mmx)
 573
 574 define void @test_psrlq_by_volatile_shift_amount(ptr %t) nounwind {
 575 ; X86-LABEL: test_psrlq_by_volatile_shift_amount:
 576 ; X86:       # %bb.0: # %entry
 577 ; X86-NEXT:    pushl %eax
 578 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 579 ; X86-NEXT:    movl $1, (%esp)
 580 ; X86-NEXT:    movl $255, %ecx
 581 ; X86-NEXT:    movd %ecx, %mm0
 582 ; X86-NEXT:    movd (%esp), %mm1
 583 ; X86-NEXT:    psrlq %mm1, %mm0
 584 ; X86-NEXT:    movq %mm0, (%eax)
 585 ; X86-NEXT:    popl %eax
 586 ; X86-NEXT:    retl
 587 ;
 588 ; X64-LABEL: test_psrlq_by_volatile_shift_amount:
 589 ; X64:       # %bb.0: # %entry
 590 ; X64-NEXT:    movl $1, -{{[0-9]+}}(%rsp)
 591 ; X64-NEXT:    movl $255, %eax
 592 ; X64-NEXT:    movd %eax, %mm0
 593 ; X64-NEXT:    movd -{{[0-9]+}}(%rsp), %mm1
 594 ; X64-NEXT:    psrlq %mm1, %mm0
 595 ; X64-NEXT:    movq %mm0, (%rdi)
 596 ; X64-NEXT:    retq
 597 entry:
 598   %0 = alloca i32, align 4
 599   call void @llvm.lifetime.start(i64 4, ptr nonnull %0)
 600   store volatile i32 1, ptr %0, align 4
 601   %1 = load volatile i32, ptr %0, align 4
 602   %2 = tail call x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx bitcast (<1 x i64> <i64 255> to x86_mmx), i32 %1)
 603   store x86_mmx %2, ptr %t, align 8
 604   call void @llvm.lifetime.end(i64 4, ptr nonnull %0)
 605   ret void
 606 }
 607
 608 declare void @llvm.lifetime.start(i64, ptr nocapture)
 609 declare void @llvm.lifetime.end(i64, ptr nocapture)
 610
 611 ; Make sure we shrink this vector load and fold it.
 612 define x86_mmx @vec_load(ptr %x) {
 613 ; X86-LABEL: vec_load:
 614 ; X86:       # %bb.0:
 615 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 616 ; X86-NEXT:    pshufw $68, (%eax), %mm0 # mm0 = mem[0,1,0,1]
 617 ; X86-NEXT:    paddsb %mm0, %mm0
 618 ; X86-NEXT:    retl
 619 ;
 620 ; X64-LABEL: vec_load:
 621 ; X64:       # %bb.0:
 622 ; X64-NEXT:    pshufw $68, (%rdi), %mm0 # mm0 = mem[0,1,0,1]
 623 ; X64-NEXT:    paddsb %mm0, %mm0
 624 ; X64-NEXT:    movq2dq %mm0, %xmm0
 625 ; X64-NEXT:    retq
 626   %z = load <4 x float>, ptr %x
 627   %y = extractelement <4 x float> %z, i32 0
 628   %a = insertelement <2 x float> undef, float %y, i32 0
 629   %b = insertelement <2 x float> %a, float %y, i32 1
 630   %c = bitcast <2 x float> %b to x86_mmx
 631   %d = tail call x86_mmx @llvm.x86.mmx.padds.b(x86_mmx %c, x86_mmx %c)
 632   ret x86_mmx %d
 633 }
 634
 635 declare x86_mmx @llvm.x86.mmx.padds.b(x86_mmx, x86_mmx)
 636