test/CodeGen/X86/combine-fcopysign.ll

   1 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefix=SSE
   2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefix=AVX
   3
   4 ;
   5 ; NOTE: this is generated by utils/update_llc_test_checks.py but we can't check NAN types (PR30443),
   6 ; so we need to edit it to remove the NAN constant comments
   7 ;
   8
   9 ; copysign(x, c1) -> fabs(x) iff ispos(c1)
  10 define <4 x float> @combine_vec_fcopysign_pos_constant0(<4 x float> %x) {
  11 ; SSE-LABEL: combine_vec_fcopysign_pos_constant0:
  12 ; SSE:       # BB#0:
  13 ; SSE-NEXT:    movaps {{.*#+}} xmm1 = [2.000000e+00,2.000000e+00,2.000000e+00,2.000000e+00]
  14 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm1
  15 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
  16 ; SSE-NEXT:    orps %xmm1, %xmm0
  17 ; SSE-NEXT:    retq
  18 ;
  19 ; AVX-LABEL: combine_vec_fcopysign_pos_constant0:
  20 ; AVX:       # BB#0:
  21 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
  22 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
  23 ; AVX-NEXT:    vandps %xmm1, %xmm2, %xmm1
  24 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
  25 ; AVX-NEXT:    vandps %xmm2, %xmm0, %xmm0
  26 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
  27 ; AVX-NEXT:    retq
  28   %1 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> <float 2.0, float 2.0, float 2.0, float 2.0>)
  29   ret <4 x float> %1
  30 }
  31
  32 define <4 x float> @combine_vec_fcopysign_pos_constant1(<4 x float> %x) {
  33 ; SSE-LABEL: combine_vec_fcopysign_pos_constant1:
  34 ; SSE:       # BB#0:
  35 ; SSE-NEXT:    movaps {{.*#+}} xmm1 = [0.000000e+00,2.000000e+00,4.000000e+00,8.000000e+00]
  36 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm1
  37 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
  38 ; SSE-NEXT:    orps %xmm1, %xmm0
  39 ; SSE-NEXT:    retq
  40 ;
  41 ; AVX-LABEL: combine_vec_fcopysign_pos_constant1:
  42 ; AVX:       # BB#0:
  43 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
  44 ; AVX-NEXT:    vandps %xmm1, %xmm0, %xmm0
  45 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
  46 ; AVX-NEXT:    vandps {{.*}}(%rip), %xmm1, %xmm1
  47 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
  48 ; AVX-NEXT:    retq
  49   %1 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> <float 0.0, float 2.0, float 4.0, float 8.0>)
  50   ret <4 x float> %1
  51 }
  52
  53 define <4 x float> @combine_vec_fcopysign_fabs_sgn(<4 x float> %x, <4 x float> %y) {
  54 ; SSE-LABEL: combine_vec_fcopysign_fabs_sgn:
  55 ; SSE:       # BB#0:
  56 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
  57 ; SSE-NEXT:    retq
  58 ;
  59 ; AVX-LABEL: combine_vec_fcopysign_fabs_sgn:
  60 ; AVX:       # BB#0:
  61 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
  62 ; AVX-NEXT:    vandps %xmm1, %xmm0, %xmm0
  63 ; AVX-NEXT:    retq
  64   %1 = call <4 x float> @llvm.fabs.v4f32(<4 x float> %y)
  65   %2 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> %1)
  66   ret <4 x float> %2
  67 }
  68
  69 ; copysign(x, c1) -> fneg(fabs(x)) iff isneg(c1)
  70 define <4 x float> @combine_vec_fcopysign_neg_constant0(<4 x float> %x) {
  71 ; SSE-LABEL: combine_vec_fcopysign_neg_constant0:
  72 ; SSE:       # BB#0:
  73 ; SSE-NEXT:    movaps {{.*#+}} xmm1 = [-2.000000e+00,-2.000000e+00,-2.000000e+00,-2.000000e+00]
  74 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm1
  75 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
  76 ; SSE-NEXT:    orps %xmm1, %xmm0
  77 ; SSE-NEXT:    retq
  78 ;
  79 ; AVX-LABEL: combine_vec_fcopysign_neg_constant0:
  80 ; AVX:       # BB#0:
  81 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
  82 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
  83 ; AVX-NEXT:    vandps %xmm1, %xmm2, %xmm1
  84 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
  85 ; AVX-NEXT:    vandps %xmm2, %xmm0, %xmm0
  86 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
  87 ; AVX-NEXT:    retq
  88   %1 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> <float -2.0, float -2.0, float -2.0, float -2.0>)
  89   ret <4 x float> %1
  90 }
  91
  92 define <4 x float> @combine_vec_fcopysign_neg_constant1(<4 x float> %x) {
  93 ; SSE-LABEL: combine_vec_fcopysign_neg_constant1:
  94 ; SSE:       # BB#0:
  95 ; SSE-NEXT:    movaps {{.*#+}} xmm1 = [-0.000000e+00,-2.000000e+00,-4.000000e+00,-8.000000e+00]
  96 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm1
  97 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
  98 ; SSE-NEXT:    orps %xmm1, %xmm0
  99 ; SSE-NEXT:    retq
 100 ;
 101 ; AVX-LABEL: combine_vec_fcopysign_neg_constant1:
 102 ; AVX:       # BB#0:
 103 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
 104 ; AVX-NEXT:    vandps %xmm1, %xmm0, %xmm0
 105 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
 106 ; AVX-NEXT:    vandps {{.*}}(%rip), %xmm1, %xmm1
 107 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
 108 ; AVX-NEXT:    retq
 109   %1 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> <float -0.0, float -2.0, float -4.0, float -8.0>)
 110   ret <4 x float> %1
 111 }
 112
 113 define <4 x float> @combine_vec_fcopysign_fneg_fabs_sgn(<4 x float> %x, <4 x float> %y) {
 114 ; SSE-LABEL: combine_vec_fcopysign_fneg_fabs_sgn:
 115 ; SSE:       # BB#0:
 116 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
 117 ; SSE-NEXT:    orps {{.*}}(%rip), %xmm0
 118 ; SSE-NEXT:    retq
 119 ;
 120 ; AVX-LABEL: combine_vec_fcopysign_fneg_fabs_sgn:
 121 ; AVX:       # BB#0:
 122 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
 123 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 124 ; AVX-NEXT:    vandps %xmm2, %xmm0, %xmm0
 125 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
 126 ; AVX-NEXT:    retq
 127   %1 = call <4 x float> @llvm.fabs.v4f32(<4 x float> %y)
 128   %2 = fsub <4 x float> <float -0.0, float -0.0, float -0.0, float -0.0>, %1
 129   %3 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> %2)
 130   ret <4 x float> %3
 131 }
 132
 133 ; copysign(fabs(x), y) -> copysign(x, y)
 134 define <4 x float> @combine_vec_fcopysign_fabs_mag(<4 x float> %x, <4 x float> %y) {
 135 ; SSE-LABEL: combine_vec_fcopysign_fabs_mag:
 136 ; SSE:       # BB#0:
 137 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm1
 138 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
 139 ; SSE-NEXT:    orps %xmm1, %xmm0
 140 ; SSE-NEXT:    retq
 141 ;
 142 ; AVX-LABEL: combine_vec_fcopysign_fabs_mag:
 143 ; AVX:       # BB#0:
 144 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 145 ; AVX-NEXT:    vandps %xmm2, %xmm1, %xmm1
 146 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 147 ; AVX-NEXT:    vandps %xmm2, %xmm0, %xmm0
 148 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
 149 ; AVX-NEXT:    retq
 150   %1 = call <4 x float> @llvm.fabs.v4f32(<4 x float> %x)
 151   %2 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %1, <4 x float> %y)
 152   ret <4 x float> %2
 153 }
 154
 155 ; copysign(fneg(x), y) -> copysign(x, y)
 156 define <4 x float> @combine_vec_fcopysign_fneg_mag(<4 x float> %x, <4 x float> %y) {
 157 ; SSE-LABEL: combine_vec_fcopysign_fneg_mag:
 158 ; SSE:       # BB#0:
 159 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm1
 160 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
 161 ; SSE-NEXT:    orps %xmm1, %xmm0
 162 ; SSE-NEXT:    retq
 163 ;
 164 ; AVX-LABEL: combine_vec_fcopysign_fneg_mag:
 165 ; AVX:       # BB#0:
 166 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 167 ; AVX-NEXT:    vandps %xmm2, %xmm1, %xmm1
 168 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 169 ; AVX-NEXT:    vandps %xmm2, %xmm0, %xmm0
 170 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
 171 ; AVX-NEXT:    retq
 172   %1 = fsub <4 x float> <float -0.0, float -0.0, float -0.0, float -0.0>, %x
 173   %2 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %1, <4 x float> %y)
 174   ret <4 x float> %2
 175 }
 176
 177 ; copysign(copysign(x,z), y) -> copysign(x, y)
 178 define <4 x float> @combine_vec_fcopysign_fcopysign_mag(<4 x float> %x, <4 x float> %y, <4 x float> %z) {
 179 ; SSE-LABEL: combine_vec_fcopysign_fcopysign_mag:
 180 ; SSE:       # BB#0:
 181 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm1
 182 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
 183 ; SSE-NEXT:    orps %xmm1, %xmm0
 184 ; SSE-NEXT:    retq
 185 ;
 186 ; AVX-LABEL: combine_vec_fcopysign_fcopysign_mag:
 187 ; AVX:       # BB#0:
 188 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 189 ; AVX-NEXT:    vandps %xmm2, %xmm1, %xmm1
 190 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 191 ; AVX-NEXT:    vandps %xmm2, %xmm0, %xmm0
 192 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
 193 ; AVX-NEXT:    retq
 194   %1 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> %z)
 195   %2 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %1, <4 x float> %y)
 196   ret <4 x float> %2
 197 }
 198
 199 ; copysign(x, copysign(y,z)) -> copysign(x, z)
 200 define <4 x float> @combine_vec_fcopysign_fcopysign_sgn(<4 x float> %x, <4 x float> %y, <4 x float> %z) {
 201 ; SSE-LABEL: combine_vec_fcopysign_fcopysign_sgn:
 202 ; SSE:       # BB#0:
 203 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm2
 204 ; SSE-NEXT:    andps {{.*}}(%rip), %xmm0
 205 ; SSE-NEXT:    orps %xmm2, %xmm0
 206 ; SSE-NEXT:    retq
 207 ;
 208 ; AVX-LABEL: combine_vec_fcopysign_fcopysign_sgn:
 209 ; AVX:       # BB#0:
 210 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm1
 211 ; AVX-NEXT:    vandps %xmm1, %xmm2, %xmm1
 212 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 213 ; AVX-NEXT:    vandps %xmm2, %xmm0, %xmm0
 214 ; AVX-NEXT:    vorps %xmm1, %xmm0, %xmm0
 215 ; AVX-NEXT:    retq
 216   %1 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %y, <4 x float> %z)
 217   %2 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> %1)
 218   ret <4 x float> %2
 219 }
 220
 221 ; copysign(x, fp_extend(y)) -> copysign(x, y)
 222 define <4 x double> @combine_vec_fcopysign_fpext_sgn(<4 x double> %x, <4 x float> %y) {
 223 ; SSE-LABEL: combine_vec_fcopysign_fpext_sgn:
 224 ; SSE:       # BB#0:
 225 ; SSE-NEXT:    movaps %xmm2, %xmm3
 226 ; SSE-NEXT:    cvtss2sd %xmm2, %xmm4
 227 ; SSE-NEXT:    movshdup {{.*#+}} xmm5 = xmm2[1,1,3,3]
 228 ; SSE-NEXT:    movaps %xmm2, %xmm6
 229 ; SSE-NEXT:    movhlps {{.*#+}} xmm6 = xmm6[1,1]
 230 ; SSE-NEXT:    shufps {{.*#+}} xmm3 = xmm3[3,1,2,3]
 231 ; SSE-NEXT:    movaps {{.*#+}} xmm7
 232 ; SSE-NEXT:    movaps %xmm0, %xmm2
 233 ; SSE-NEXT:    andps %xmm7, %xmm2
 234 ; SSE-NEXT:    movaps {{.*#+}} xmm8 = [-0.000000e+00,-0.000000e+00]
 235 ; SSE-NEXT:    andps %xmm8, %xmm4
 236 ; SSE-NEXT:    orps %xmm4, %xmm2
 237 ; SSE-NEXT:    movhlps {{.*#+}} xmm0 = xmm0[1,1]
 238 ; SSE-NEXT:    andps %xmm7, %xmm0
 239 ; SSE-NEXT:    xorps %xmm4, %xmm4
 240 ; SSE-NEXT:    cvtss2sd %xmm5, %xmm4
 241 ; SSE-NEXT:    andps %xmm8, %xmm4
 242 ; SSE-NEXT:    orps %xmm0, %xmm4
 243 ; SSE-NEXT:    movlhps {{.*#+}} xmm2 = xmm2[0],xmm4[0]
 244 ; SSE-NEXT:    movaps %xmm1, %xmm0
 245 ; SSE-NEXT:    movhlps {{.*#+}} xmm0 = xmm0[1,1]
 246 ; SSE-NEXT:    andps %xmm7, %xmm0
 247 ; SSE-NEXT:    cvtss2sd %xmm3, %xmm3
 248 ; SSE-NEXT:    andps %xmm8, %xmm3
 249 ; SSE-NEXT:    orps %xmm0, %xmm3
 250 ; SSE-NEXT:    andps %xmm7, %xmm1
 251 ; SSE-NEXT:    xorps %xmm0, %xmm0
 252 ; SSE-NEXT:    cvtss2sd %xmm6, %xmm0
 253 ; SSE-NEXT:    andps %xmm8, %xmm0
 254 ; SSE-NEXT:    orps %xmm0, %xmm1
 255 ; SSE-NEXT:    movlhps {{.*#+}} xmm1 = xmm1[0],xmm3[0]
 256 ; SSE-NEXT:    movaps %xmm2, %xmm0
 257 ; SSE-NEXT:    retq
 258 ;
 259 ; AVX-LABEL: combine_vec_fcopysign_fpext_sgn:
 260 ; AVX:       # BB#0:
 261 ; AVX-NEXT:    vbroadcastsd {{.*}}(%rip), %ymm2
 262 ; AVX-NEXT:    vandps %ymm2, %ymm0, %ymm0
 263 ; AVX-NEXT:    vcvtps2pd %xmm1, %ymm1
 264 ; AVX-NEXT:    vbroadcastsd {{.*}}(%rip), %ymm2
 265 ; AVX-NEXT:    vandps %ymm2, %ymm1, %ymm1
 266 ; AVX-NEXT:    vorps %ymm1, %ymm0, %ymm0
 267 ; AVX-NEXT:    retq
 268   %1 = fpext <4 x float> %y to <4 x double>
 269   %2 = call <4 x double> @llvm.copysign.v4f64(<4 x double> %x, <4 x double> %1)
 270   ret <4 x double> %2
 271 }
 272
 273 ; copysign(x, fp_round(y)) -> copysign(x, y)
 274 define <4 x float> @combine_vec_fcopysign_fptrunc_sgn(<4 x float> %x, <4 x double> %y) {
 275 ; SSE-LABEL: combine_vec_fcopysign_fptrunc_sgn:
 276 ; SSE:       # BB#0:
 277 ; SSE-NEXT:    movaps %xmm0, %xmm3
 278 ; SSE-NEXT:    movaps {{.*#+}} xmm5
 279 ; SSE-NEXT:    andps %xmm5, %xmm0
 280 ; SSE-NEXT:    cvtsd2ss %xmm1, %xmm6
 281 ; SSE-NEXT:    movaps {{.*#+}} xmm4 = [-0.000000e+00,-0.000000e+00,-0.000000e+00,-0.000000e+00]
 282 ; SSE-NEXT:    andps %xmm4, %xmm6
 283 ; SSE-NEXT:    orps %xmm6, %xmm0
 284 ; SSE-NEXT:    movshdup {{.*#+}} xmm6 = xmm3[1,1,3,3]
 285 ; SSE-NEXT:    andps %xmm5, %xmm6
 286 ; SSE-NEXT:    movhlps {{.*#+}} xmm1 = xmm1[1,1]
 287 ; SSE-NEXT:    cvtsd2ss %xmm1, %xmm1
 288 ; SSE-NEXT:    andps %xmm4, %xmm1
 289 ; SSE-NEXT:    orps %xmm6, %xmm1
 290 ; SSE-NEXT:    unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
 291 ; SSE-NEXT:    movaps %xmm3, %xmm1
 292 ; SSE-NEXT:    movhlps {{.*#+}} xmm1 = xmm1[1,1]
 293 ; SSE-NEXT:    andps %xmm5, %xmm1
 294 ; SSE-NEXT:    xorps %xmm6, %xmm6
 295 ; SSE-NEXT:    cvtsd2ss %xmm2, %xmm6
 296 ; SSE-NEXT:    andps %xmm4, %xmm6
 297 ; SSE-NEXT:    orps %xmm1, %xmm6
 298 ; SSE-NEXT:    insertps {{.*#+}} xmm0 = xmm0[0,1],xmm6[0],xmm0[3]
 299 ; SSE-NEXT:    shufps {{.*#+}} xmm3 = xmm3[3,1,2,3]
 300 ; SSE-NEXT:    andps %xmm5, %xmm3
 301 ; SSE-NEXT:    movhlps {{.*#+}} xmm2 = xmm2[1,1]
 302 ; SSE-NEXT:    xorps %xmm1, %xmm1
 303 ; SSE-NEXT:    cvtsd2ss %xmm2, %xmm1
 304 ; SSE-NEXT:    andps %xmm4, %xmm1
 305 ; SSE-NEXT:    orps %xmm3, %xmm1
 306 ; SSE-NEXT:    insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
 307 ; SSE-NEXT:    retq
 308 ;
 309 ; AVX-LABEL: combine_vec_fcopysign_fptrunc_sgn:
 310 ; AVX:       # BB#0:
 311 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 312 ; AVX-NEXT:    vandpd %xmm2, %xmm0, %xmm0
 313 ; AVX-NEXT:    vcvtpd2ps %ymm1, %xmm1
 314 ; AVX-NEXT:    vbroadcastss {{.*}}(%rip), %xmm2
 315 ; AVX-NEXT:    vandpd %xmm2, %xmm1, %xmm1
 316 ; AVX-NEXT:    vorpd %xmm1, %xmm0, %xmm0
 317 ; AVX-NEXT:    vzeroupper
 318 ; AVX-NEXT:    retq
 319   %1 = fptrunc <4 x double> %y to <4 x float>
 320   %2 = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> %1)
 321   ret <4 x float> %2
 322 }
 323
 324 declare <4 x float> @llvm.fabs.v4f32(<4 x float> %p)
 325 declare <4 x float> @llvm.copysign.v4f32(<4 x float> %Mag, <4 x float> %Sgn)
 326 declare <4 x double> @llvm.copysign.v4f64(<4 x double> %Mag, <4 x double> %Sgn)