llvm/test/CodeGen/AMDGPU/schedule-relaxed-occupancy.ll

   1 ; RUN: llc -mtriple=amdgcn -mcpu=gfx906 -verify-machineinstrs  < %s | FileCheck --check-prefix=OCC %s
   2 ; RUN: llc -mtriple=amdgcn -mcpu=gfx906 -amdgpu-use-amdgpu-trackers=1 -verify-machineinstrs  < %s | FileCheck --check-prefix=OCC-GCNTRACKER %s
   3 ; RUN: llc -mtriple=amdgcn -mcpu=gfx906 -verify-machineinstrs -amdgpu-schedule-relaxed-occupancy=true  < %s | FileCheck --check-prefix=RELAX %s
   4 ; RUN: llc -mtriple=amdgcn -mcpu=gfx906 -amdgpu-use-amdgpu-trackers=1 -verify-machineinstrs -amdgpu-schedule-relaxed-occupancy=true  < %s | FileCheck --check-prefix=RELAX-GCNTRACKER %s
   5
   6
   7 ; Using -amgpu-schedule-relaxed-occupancy allows scheduler to produce better ILP by further relaxing occupancy target
   8
   9 ; CHECK-LABEL: {{^}}load_fma_store:
  10 ; OCC:    NumVgprs: 32
  11 ; OCC-GCNTRACKER:    NumVgprs: 24
  12 ; RELAX:    NumVgprs: 64
  13 ; RELAX-GCNTRACKER:    NumVgprs: 60
  14 ; OCC: NumVGPRsForWavesPerEU: 32
  15 ; OCC-GCNTRACKER: NumVGPRsForWavesPerEU: 24
  16 ; RELAX: NumVGPRsForWavesPerEU: 64
  17 ; RELAX-GCNTRACKER: NumVGPRsForWavesPerEU: 60
  18 ; OCC:    Occupancy: 8
  19 ; OCC-GCNTRACKER:    Occupancy: 8
  20 ; RELAX: Occupancy: 4
  21 ; RELAX-GCNTRACKER: Occupancy: 4
  22
  23 define amdgpu_kernel void @load_fma_store(ptr addrspace(3) nocapture readonly %arg, ptr addrspace(1) nocapture %arg1) #1 {
  24 bb:
  25   %tmp = getelementptr inbounds float, ptr addrspace(3) %arg, i32 1
  26   %tmp2 = load float, ptr addrspace(3) %tmp, align 4
  27   %tmp3 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 2
  28   %tmp4 = load float, ptr addrspace(3) %tmp3, align 4
  29   %tmp5 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 3
  30   %tmp6 = load float, ptr addrspace(3) %tmp5, align 4
  31   %tmp7 = tail call float @llvm.fmuladd.f32(float %tmp2, float %tmp4, float %tmp6)
  32   %tmp8 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 5
  33   %tmp9 = load float, ptr addrspace(3) %tmp8, align 4
  34   %tmp10 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 6
  35   %tmp11 = load float, ptr addrspace(3) %tmp10, align 4
  36   %tmp12 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 7
  37   %tmp13 = load float, ptr addrspace(3) %tmp12, align 4
  38   %tmp14 = tail call float @llvm.fmuladd.f32(float %tmp9, float %tmp11, float %tmp13)
  39   %tmp15 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 9
  40   %tmp16 = load float, ptr addrspace(3) %tmp15, align 4
  41   %tmp17 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 10
  42   %tmp18 = load float, ptr addrspace(3) %tmp17, align 4
  43   %tmp19 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 11
  44   %tmp20 = load float, ptr addrspace(3) %tmp19, align 4
  45   %tmp21 = tail call float @llvm.fmuladd.f32(float %tmp16, float %tmp18, float %tmp20)
  46   %tmp22 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 13
  47   %tmp23 = load float, ptr addrspace(3) %tmp22, align 4
  48   %tmp24 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 14
  49   %tmp25 = load float, ptr addrspace(3) %tmp24, align 4
  50   %tmp26 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 15
  51   %tmp27 = load float, ptr addrspace(3) %tmp26, align 4
  52   %tmp28 = tail call float @llvm.fmuladd.f32(float %tmp23, float %tmp25, float %tmp27)
  53   %tmp29 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 17
  54   %tmp30 = load float, ptr addrspace(3) %tmp29, align 4
  55   %tmp31 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 18
  56   %tmp32 = load float, ptr addrspace(3) %tmp31, align 4
  57   %tmp33 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 19
  58   %tmp34 = load float, ptr addrspace(3) %tmp33, align 4
  59   %tmp35 = tail call float @llvm.fmuladd.f32(float %tmp30, float %tmp32, float %tmp34)
  60   %tmp36 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 21
  61   %tmp37 = load float, ptr addrspace(3) %tmp36, align 4
  62   %tmp38 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 22
  63   %tmp39 = load float, ptr addrspace(3) %tmp38, align 4
  64   %tmp40 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 23
  65   %tmp41 = load float, ptr addrspace(3) %tmp40, align 4
  66   %tmp42 = tail call float @llvm.fmuladd.f32(float %tmp37, float %tmp39, float %tmp41)
  67   %tmp43 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 25
  68   %tmp44 = load float, ptr addrspace(3) %tmp43, align 4
  69   %tmp45 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 26
  70   %tmp46 = load float, ptr addrspace(3) %tmp45, align 4
  71   %tmp47 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 27
  72   %tmp48 = load float, ptr addrspace(3) %tmp47, align 4
  73   %tmp49 = tail call float @llvm.fmuladd.f32(float %tmp44, float %tmp46, float %tmp48)
  74   %tmp50 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 29
  75   %tmp51 = load float, ptr addrspace(3) %tmp50, align 4
  76   %tmp52 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 30
  77   %tmp53 = load float, ptr addrspace(3) %tmp52, align 4
  78   %tmp54 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 31
  79   %tmp55 = load float, ptr addrspace(3) %tmp54, align 4
  80   %tmp56 = tail call float @llvm.fmuladd.f32(float %tmp51, float %tmp53, float %tmp55)
  81   %tmp57 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 33
  82   %tmp58 = load float, ptr addrspace(3) %tmp57, align 4
  83   %tmp59 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 34
  84   %tmp60 = load float, ptr addrspace(3) %tmp59, align 4
  85   %tmp61 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 35
  86   %tmp62 = load float, ptr addrspace(3) %tmp61, align 4
  87   %tmp63 = tail call float @llvm.fmuladd.f32(float %tmp58, float %tmp60, float %tmp62)
  88   %tmp64 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 37
  89   %tmp65 = load float, ptr addrspace(3) %tmp64, align 4
  90   %tmp66 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 38
  91   %tmp67 = load float, ptr addrspace(3) %tmp66, align 4
  92   %tmp68 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 39
  93   %tmp69 = load float, ptr addrspace(3) %tmp68, align 4
  94   %tmp70 = tail call float @llvm.fmuladd.f32(float %tmp65, float %tmp67, float %tmp69)
  95   %tmp71 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 41
  96   %tmp72 = load float, ptr addrspace(3) %tmp71, align 4
  97   %tmp73 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 42
  98   %tmp74 = load float, ptr addrspace(3) %tmp73, align 4
  99   %tmp75 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 43
 100   %tmp76 = load float, ptr addrspace(3) %tmp75, align 4
 101   %tmp77 = tail call float @llvm.fmuladd.f32(float %tmp72, float %tmp74, float %tmp76)
 102   %tmp78 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 45
 103   %tmp79 = load float, ptr addrspace(3) %tmp78, align 4
 104   %tmp80 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 46
 105   %tmp81 = load float, ptr addrspace(3) %tmp80, align 4
 106   %tmp82 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 47
 107   %tmp83 = load float, ptr addrspace(3) %tmp82, align 4
 108   %tmp84 = tail call float @llvm.fmuladd.f32(float %tmp79, float %tmp81, float %tmp83)
 109   %tmp85 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 49
 110   %tmp86 = load float, ptr addrspace(3) %tmp85, align 4
 111   %tmp87 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 50
 112   %tmp88 = load float, ptr addrspace(3) %tmp87, align 4
 113   %tmp89 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 51
 114   %tmp90 = load float, ptr addrspace(3) %tmp89, align 4
 115   %tmp91 = tail call float @llvm.fmuladd.f32(float %tmp86, float %tmp88, float %tmp90)
 116   %tmp92 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 53
 117   %tmp93 = load float, ptr addrspace(3) %tmp92, align 4
 118   %tmp94 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 54
 119   %tmp95 = load float, ptr addrspace(3) %tmp94, align 4
 120   %tmp96 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 55
 121   %tmp97 = load float, ptr addrspace(3) %tmp96, align 4
 122   %tmp98 = tail call float @llvm.fmuladd.f32(float %tmp93, float %tmp95, float %tmp97)
 123   %tmp99 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 57
 124   %tmp100 = load float, ptr addrspace(3) %tmp99, align 4
 125   %tmp101 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 58
 126   %tmp102 = load float, ptr addrspace(3) %tmp101, align 4
 127   %tmp103 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 59
 128   %tmp104 = load float, ptr addrspace(3) %tmp103, align 4
 129   %tmp105 = tail call float @llvm.fmuladd.f32(float %tmp100, float %tmp102, float %tmp104)
 130   %tmp106 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 61
 131   %tmp107 = load float, ptr addrspace(3) %tmp106, align 4
 132   %tmp108 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 62
 133   %tmp109 = load float, ptr addrspace(3) %tmp108, align 4
 134   %tmp110 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 63
 135   %tmp111 = load float, ptr addrspace(3) %tmp110, align 4
 136   %tmp112 = tail call float @llvm.fmuladd.f32(float %tmp107, float %tmp109, float %tmp111)
 137   %tmp113 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 65
 138   %tmp114 = load float, ptr addrspace(3) %tmp113, align 4
 139   %tmp115 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 66
 140   %tmp116 = load float, ptr addrspace(3) %tmp115, align 4
 141   %tmp117 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 67
 142   %tmp118 = load float, ptr addrspace(3) %tmp117, align 4
 143   %tmp119 = tail call float @llvm.fmuladd.f32(float %tmp114, float %tmp116, float %tmp118)
 144   %tmp120 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 69
 145   %tmp121 = load float, ptr addrspace(3) %tmp120, align 4
 146   %tmp122 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 70
 147   %tmp123 = load float, ptr addrspace(3) %tmp122, align 4
 148   %tmp124 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 71
 149   %tmp125 = load float, ptr addrspace(3) %tmp124, align 4
 150   %tmp126 = tail call float @llvm.fmuladd.f32(float %tmp121, float %tmp123, float %tmp125)
 151   %tmp127 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 73
 152   %tmp128 = load float, ptr addrspace(3) %tmp127, align 4
 153   %tmp129 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 74
 154   %tmp130 = load float, ptr addrspace(3) %tmp129, align 4
 155   %tmp131 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 75
 156   %tmp132 = load float, ptr addrspace(3) %tmp131, align 4
 157   %tmp133 = tail call float @llvm.fmuladd.f32(float %tmp128, float %tmp130, float %tmp132)
 158   %tmp134 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 77
 159   %tmp135 = load float, ptr addrspace(3) %tmp134, align 4
 160   %tmp136 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 78
 161   %tmp137 = load float, ptr addrspace(3) %tmp136, align 4
 162   %tmp138 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 79
 163   %tmp139 = load float, ptr addrspace(3) %tmp138, align 4
 164   %tmp140 = tail call float @llvm.fmuladd.f32(float %tmp135, float %tmp137, float %tmp139)
 165   %tmp141 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 81
 166   %tmp142 = load float, ptr addrspace(3) %tmp141, align 4
 167   %tmp143 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 82
 168   %tmp144 = load float, ptr addrspace(3) %tmp143, align 4
 169   %tmp145 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 83
 170   %tmp146 = load float, ptr addrspace(3) %tmp145, align 4
 171   %tmp147 = tail call float @llvm.fmuladd.f32(float %tmp142, float %tmp144, float %tmp146)
 172   %tmp148 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 85
 173   %tmp149 = load float, ptr addrspace(3) %tmp148, align 4
 174   %tmp150 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 86
 175   %tmp151 = load float, ptr addrspace(3) %tmp150, align 4
 176   %tmp152 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 87
 177   %tmp153 = load float, ptr addrspace(3) %tmp152, align 4
 178   %tmp154 = tail call float @llvm.fmuladd.f32(float %tmp149, float %tmp151, float %tmp153)
 179   %tmp155 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 89
 180   %tmp156 = load float, ptr addrspace(3) %tmp155, align 4
 181   %tmp157 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 90
 182   %tmp158 = load float, ptr addrspace(3) %tmp157, align 4
 183   %tmp159 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 91
 184   %tmp160 = load float, ptr addrspace(3) %tmp159, align 4
 185   %tmp161 = tail call float @llvm.fmuladd.f32(float %tmp156, float %tmp158, float %tmp160)
 186   %tmp162 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 93
 187   %tmp163 = load float, ptr addrspace(3) %tmp162, align 4
 188   %tmp164 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 94
 189   %tmp165 = load float, ptr addrspace(3) %tmp164, align 4
 190   %tmp166 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 95
 191   %tmp167 = load float, ptr addrspace(3) %tmp166, align 4
 192   %tmp168 = tail call float @llvm.fmuladd.f32(float %tmp163, float %tmp165, float %tmp167)
 193   %tmp169 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 97
 194   %tmp170 = load float, ptr addrspace(3) %tmp169, align 4
 195   %tmp171 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 98
 196   %tmp172 = load float, ptr addrspace(3) %tmp171, align 4
 197   %tmp173 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 99
 198   %tmp174 = load float, ptr addrspace(3) %tmp173, align 4
 199   %tmp175 = tail call float @llvm.fmuladd.f32(float %tmp170, float %tmp172, float %tmp174)
 200   %tmp176 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 101
 201   %tmp177 = load float, ptr addrspace(3) %tmp176, align 4
 202   %tmp178 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 102
 203   %tmp179 = load float, ptr addrspace(3) %tmp178, align 4
 204   %tmp180 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 103
 205   %tmp181 = load float, ptr addrspace(3) %tmp180, align 4
 206   %tmp182 = tail call float @llvm.fmuladd.f32(float %tmp177, float %tmp179, float %tmp181)
 207   %tmp183 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 105
 208   %tmp184 = load float, ptr addrspace(3) %tmp183, align 4
 209   %tmp185 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 106
 210   %tmp186 = load float, ptr addrspace(3) %tmp185, align 4
 211   %tmp187 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 107
 212   %tmp188 = load float, ptr addrspace(3) %tmp187, align 4
 213   %tmp189 = tail call float @llvm.fmuladd.f32(float %tmp184, float %tmp186, float %tmp188)
 214   %tmp190 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 109
 215   %tmp191 = load float, ptr addrspace(3) %tmp190, align 4
 216   %tmp192 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 110
 217   %tmp193 = load float, ptr addrspace(3) %tmp192, align 4
 218   %tmp194 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 111
 219   %tmp195 = load float, ptr addrspace(3) %tmp194, align 4
 220   %tmp196 = tail call float @llvm.fmuladd.f32(float %tmp191, float %tmp193, float %tmp195)
 221   %tmp197 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 113
 222   %tmp198 = load float, ptr addrspace(3) %tmp197, align 4
 223   %tmp199 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 114
 224   %tmp200 = load float, ptr addrspace(3) %tmp199, align 4
 225   %tmp201 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 115
 226   %tmp202 = load float, ptr addrspace(3) %tmp201, align 4
 227   %tmp203 = tail call float @llvm.fmuladd.f32(float %tmp198, float %tmp200, float %tmp202)
 228   %tmp204 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 117
 229   %tmp205 = load float, ptr addrspace(3) %tmp204, align 4
 230   %tmp206 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 118
 231   %tmp207 = load float, ptr addrspace(3) %tmp206, align 4
 232   %tmp208 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 119
 233   %tmp209 = load float, ptr addrspace(3) %tmp208, align 4
 234   %tmp210 = tail call float @llvm.fmuladd.f32(float %tmp205, float %tmp207, float %tmp209)
 235   %tmp211 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 121
 236   %tmp212 = load float, ptr addrspace(3) %tmp211, align 4
 237   %tmp213 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 122
 238   %tmp214 = load float, ptr addrspace(3) %tmp213, align 4
 239   %tmp215 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 123
 240   %tmp216 = load float, ptr addrspace(3) %tmp215, align 4
 241   %tmp217 = tail call float @llvm.fmuladd.f32(float %tmp212, float %tmp214, float %tmp216)
 242   %tmp218 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 125
 243   %tmp219 = load float, ptr addrspace(3) %tmp218, align 4
 244   %tmp220 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 126
 245   %tmp221 = load float, ptr addrspace(3) %tmp220, align 4
 246   %tmp222 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 127
 247   %tmp223 = load float, ptr addrspace(3) %tmp222, align 4
 248   %tmp224 = tail call float @llvm.fmuladd.f32(float %tmp219, float %tmp221, float %tmp223)
 249   %tmp225 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 129
 250   %tmp226 = load float, ptr addrspace(3) %tmp225, align 4
 251   %tmp227 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 130
 252   %tmp228 = load float, ptr addrspace(3) %tmp227, align 4
 253   %tmp229 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 131
 254   %tmp230 = load float, ptr addrspace(3) %tmp229, align 4
 255   %tmp231 = tail call float @llvm.fmuladd.f32(float %tmp226, float %tmp228, float %tmp230)
 256   %tmp232 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 133
 257   %tmp233 = load float, ptr addrspace(3) %tmp232, align 4
 258   %tmp234 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 134
 259   %tmp235 = load float, ptr addrspace(3) %tmp234, align 4
 260   %tmp236 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 135
 261   %tmp237 = load float, ptr addrspace(3) %tmp236, align 4
 262   %tmp238 = tail call float @llvm.fmuladd.f32(float %tmp233, float %tmp235, float %tmp237)
 263   %tmp239 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 137
 264   %tmp240 = load float, ptr addrspace(3) %tmp239, align 4
 265   %tmp241 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 138
 266   %tmp242 = load float, ptr addrspace(3) %tmp241, align 4
 267   %tmp243 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 139
 268   %tmp244 = load float, ptr addrspace(3) %tmp243, align 4
 269   %tmp245 = tail call float @llvm.fmuladd.f32(float %tmp240, float %tmp242, float %tmp244)
 270   %tmp246 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 141
 271   %tmp247 = load float, ptr addrspace(3) %tmp246, align 4
 272   %tmp248 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 142
 273   %tmp249 = load float, ptr addrspace(3) %tmp248, align 4
 274   %tmp250 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 143
 275   %tmp251 = load float, ptr addrspace(3) %tmp250, align 4
 276   %tmp252 = tail call float @llvm.fmuladd.f32(float %tmp247, float %tmp249, float %tmp251)
 277   %tmp253 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 145
 278   %tmp254 = load float, ptr addrspace(3) %tmp253, align 4
 279   %tmp255 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 146
 280   %tmp256 = load float, ptr addrspace(3) %tmp255, align 4
 281   %tmp257 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 147
 282   %tmp258 = load float, ptr addrspace(3) %tmp257, align 4
 283   %tmp259 = tail call float @llvm.fmuladd.f32(float %tmp254, float %tmp256, float %tmp258)
 284   %tmp260 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 149
 285   %tmp261 = load float, ptr addrspace(3) %tmp260, align 4
 286   %tmp262 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 150
 287   %tmp263 = load float, ptr addrspace(3) %tmp262, align 4
 288   %tmp264 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 151
 289   %tmp265 = load float, ptr addrspace(3) %tmp264, align 4
 290   %tmp266 = tail call float @llvm.fmuladd.f32(float %tmp261, float %tmp263, float %tmp265)
 291   %tmp267 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 153
 292   %tmp268 = load float, ptr addrspace(3) %tmp267, align 4
 293   %tmp269 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 154
 294   %tmp270 = load float, ptr addrspace(3) %tmp269, align 4
 295   %tmp271 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 155
 296   %tmp272 = load float, ptr addrspace(3) %tmp271, align 4
 297   %tmp273 = tail call float @llvm.fmuladd.f32(float %tmp268, float %tmp270, float %tmp272)
 298   %tmp274 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 157
 299   %tmp275 = load float, ptr addrspace(3) %tmp274, align 4
 300   %tmp276 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 158
 301   %tmp277 = load float, ptr addrspace(3) %tmp276, align 4
 302   %tmp278 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 159
 303   %tmp279 = load float, ptr addrspace(3) %tmp278, align 4
 304   %tmp280 = tail call float @llvm.fmuladd.f32(float %tmp275, float %tmp277, float %tmp279)
 305   %tmp281 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 161
 306   %tmp282 = load float, ptr addrspace(3) %tmp281, align 4
 307   %tmp283 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 162
 308   %tmp284 = load float, ptr addrspace(3) %tmp283, align 4
 309   %tmp285 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 163
 310   %tmp286 = load float, ptr addrspace(3) %tmp285, align 4
 311   %tmp287 = tail call float @llvm.fmuladd.f32(float %tmp282, float %tmp284, float %tmp286)
 312   %tmp288 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 165
 313   %tmp289 = load float, ptr addrspace(3) %tmp288, align 4
 314   %tmp290 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 166
 315   %tmp291 = load float, ptr addrspace(3) %tmp290, align 4
 316   %tmp292 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 167
 317   %tmp293 = load float, ptr addrspace(3) %tmp292, align 4
 318   %tmp294 = tail call float @llvm.fmuladd.f32(float %tmp289, float %tmp291, float %tmp293)
 319   %tmp295 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 169
 320   %tmp296 = load float, ptr addrspace(3) %tmp295, align 4
 321   %tmp297 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 170
 322   %tmp298 = load float, ptr addrspace(3) %tmp297, align 4
 323   %tmp299 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 171
 324   %tmp300 = load float, ptr addrspace(3) %tmp299, align 4
 325   %tmp301 = tail call float @llvm.fmuladd.f32(float %tmp296, float %tmp298, float %tmp300)
 326   %tmp302 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 173
 327   %tmp303 = load float, ptr addrspace(3) %tmp302, align 4
 328   %tmp304 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 174
 329   %tmp305 = load float, ptr addrspace(3) %tmp304, align 4
 330   %tmp306 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 175
 331   %tmp307 = load float, ptr addrspace(3) %tmp306, align 4
 332   %tmp308 = tail call float @llvm.fmuladd.f32(float %tmp303, float %tmp305, float %tmp307)
 333   %tmp309 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 177
 334   %tmp310 = load float, ptr addrspace(3) %tmp309, align 4
 335   %tmp311 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 178
 336   %tmp312 = load float, ptr addrspace(3) %tmp311, align 4
 337   %tmp313 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 179
 338   %tmp314 = load float, ptr addrspace(3) %tmp313, align 4
 339   %tmp315 = tail call float @llvm.fmuladd.f32(float %tmp310, float %tmp312, float %tmp314)
 340   %tmp316 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 181
 341   %tmp317 = load float, ptr addrspace(3) %tmp316, align 4
 342   %tmp318 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 182
 343   %tmp319 = load float, ptr addrspace(3) %tmp318, align 4
 344   %tmp320 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 183
 345   %tmp321 = load float, ptr addrspace(3) %tmp320, align 4
 346   %tmp322 = tail call float @llvm.fmuladd.f32(float %tmp317, float %tmp319, float %tmp321)
 347   %tmp323 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 185
 348   %tmp324 = load float, ptr addrspace(3) %tmp323, align 4
 349   %tmp325 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 186
 350   %tmp326 = load float, ptr addrspace(3) %tmp325, align 4
 351   %tmp327 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 187
 352   %tmp328 = load float, ptr addrspace(3) %tmp327, align 4
 353   %tmp329 = tail call float @llvm.fmuladd.f32(float %tmp324, float %tmp326, float %tmp328)
 354   %tmp330 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 189
 355   %tmp331 = load float, ptr addrspace(3) %tmp330, align 4
 356   %tmp332 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 190
 357   %tmp333 = load float, ptr addrspace(3) %tmp332, align 4
 358   %tmp334 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 191
 359   %tmp335 = load float, ptr addrspace(3) %tmp334, align 4
 360   %tmp336 = tail call float @llvm.fmuladd.f32(float %tmp331, float %tmp333, float %tmp335)
 361   %tmp337 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 193
 362   %tmp338 = load float, ptr addrspace(3) %tmp337, align 4
 363   %tmp339 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 194
 364   %tmp340 = load float, ptr addrspace(3) %tmp339, align 4
 365   %tmp341 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 195
 366   %tmp342 = load float, ptr addrspace(3) %tmp341, align 4
 367   %tmp343 = tail call float @llvm.fmuladd.f32(float %tmp338, float %tmp340, float %tmp342)
 368   %tmp344 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 197
 369   %tmp345 = load float, ptr addrspace(3) %tmp344, align 4
 370   %tmp346 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 198
 371   %tmp347 = load float, ptr addrspace(3) %tmp346, align 4
 372   %tmp348 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 199
 373   %tmp349 = load float, ptr addrspace(3) %tmp348, align 4
 374   %tmp350 = tail call float @llvm.fmuladd.f32(float %tmp345, float %tmp347, float %tmp349)
 375   %tmp351 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 201
 376   %tmp352 = load float, ptr addrspace(3) %tmp351, align 4
 377   %tmp353 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 202
 378   %tmp354 = load float, ptr addrspace(3) %tmp353, align 4
 379   %tmp355 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 203
 380   %tmp356 = load float, ptr addrspace(3) %tmp355, align 4
 381   %tmp357 = tail call float @llvm.fmuladd.f32(float %tmp352, float %tmp354, float %tmp356)
 382   %tmp358 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 205
 383   %tmp359 = load float, ptr addrspace(3) %tmp358, align 4
 384   %tmp360 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 206
 385   %tmp361 = load float, ptr addrspace(3) %tmp360, align 4
 386   %tmp362 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 207
 387   %tmp363 = load float, ptr addrspace(3) %tmp362, align 4
 388   %tmp364 = tail call float @llvm.fmuladd.f32(float %tmp359, float %tmp361, float %tmp363)
 389   %tmp365 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 209
 390   %tmp366 = load float, ptr addrspace(3) %tmp365, align 4
 391   %tmp367 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 210
 392   %tmp368 = load float, ptr addrspace(3) %tmp367, align 4
 393   %tmp369 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 211
 394   %tmp370 = load float, ptr addrspace(3) %tmp369, align 4
 395   %tmp371 = tail call float @llvm.fmuladd.f32(float %tmp366, float %tmp368, float %tmp370)
 396   %tmp372 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 213
 397   %tmp373 = load float, ptr addrspace(3) %tmp372, align 4
 398   %tmp374 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 214
 399   %tmp375 = load float, ptr addrspace(3) %tmp374, align 4
 400   %tmp376 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 215
 401   %tmp377 = load float, ptr addrspace(3) %tmp376, align 4
 402   %tmp378 = tail call float @llvm.fmuladd.f32(float %tmp373, float %tmp375, float %tmp377)
 403   %tmp379 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 217
 404   %tmp380 = load float, ptr addrspace(3) %tmp379, align 4
 405   %tmp381 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 218
 406   %tmp382 = load float, ptr addrspace(3) %tmp381, align 4
 407   %tmp383 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 219
 408   %tmp384 = load float, ptr addrspace(3) %tmp383, align 4
 409   %tmp385 = tail call float @llvm.fmuladd.f32(float %tmp380, float %tmp382, float %tmp384)
 410   %tmp386 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 221
 411   %tmp387 = load float, ptr addrspace(3) %tmp386, align 4
 412   %tmp388 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 222
 413   %tmp389 = load float, ptr addrspace(3) %tmp388, align 4
 414   %tmp390 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 223
 415   %tmp391 = load float, ptr addrspace(3) %tmp390, align 4
 416   %tmp392 = tail call float @llvm.fmuladd.f32(float %tmp387, float %tmp389, float %tmp391)
 417   %tmp393 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 225
 418   %tmp394 = load float, ptr addrspace(3) %tmp393, align 4
 419   %tmp395 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 226
 420   %tmp396 = load float, ptr addrspace(3) %tmp395, align 4
 421   %tmp397 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 227
 422   %tmp398 = load float, ptr addrspace(3) %tmp397, align 4
 423   %tmp399 = tail call float @llvm.fmuladd.f32(float %tmp394, float %tmp396, float %tmp398)
 424   %tmp400 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 229
 425   %tmp401 = load float, ptr addrspace(3) %tmp400, align 4
 426   %tmp402 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 230
 427   %tmp403 = load float, ptr addrspace(3) %tmp402, align 4
 428   %tmp404 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 231
 429   %tmp405 = load float, ptr addrspace(3) %tmp404, align 4
 430   %tmp406 = tail call float @llvm.fmuladd.f32(float %tmp401, float %tmp403, float %tmp405)
 431   %tmp407 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 233
 432   %tmp408 = load float, ptr addrspace(3) %tmp407, align 4
 433   %tmp409 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 234
 434   %tmp410 = load float, ptr addrspace(3) %tmp409, align 4
 435   %tmp411 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 235
 436   %tmp412 = load float, ptr addrspace(3) %tmp411, align 4
 437   %tmp413 = tail call float @llvm.fmuladd.f32(float %tmp408, float %tmp410, float %tmp412)
 438   %tmp414 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 237
 439   %tmp415 = load float, ptr addrspace(3) %tmp414, align 4
 440   %tmp416 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 238
 441   %tmp417 = load float, ptr addrspace(3) %tmp416, align 4
 442   %tmp418 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 239
 443   %tmp419 = load float, ptr addrspace(3) %tmp418, align 4
 444   %tmp420 = tail call float @llvm.fmuladd.f32(float %tmp415, float %tmp417, float %tmp419)
 445   %tmp421 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 241
 446   %tmp422 = load float, ptr addrspace(3) %tmp421, align 4
 447   %tmp423 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 242
 448   %tmp424 = load float, ptr addrspace(3) %tmp423, align 4
 449   %tmp425 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 243
 450   %tmp426 = load float, ptr addrspace(3) %tmp425, align 4
 451   %tmp427 = tail call float @llvm.fmuladd.f32(float %tmp422, float %tmp424, float %tmp426)
 452   %tmp428 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 245
 453   %tmp429 = load float, ptr addrspace(3) %tmp428, align 4
 454   %tmp430 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 246
 455   %tmp431 = load float, ptr addrspace(3) %tmp430, align 4
 456   %tmp432 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 247
 457   %tmp433 = load float, ptr addrspace(3) %tmp432, align 4
 458   %tmp434 = tail call float @llvm.fmuladd.f32(float %tmp429, float %tmp431, float %tmp433)
 459   %tmp435 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 249
 460   %tmp436 = load float, ptr addrspace(3) %tmp435, align 4
 461   %tmp437 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 250
 462   %tmp438 = load float, ptr addrspace(3) %tmp437, align 4
 463   %tmp439 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 251
 464   %tmp440 = load float, ptr addrspace(3) %tmp439, align 4
 465   %tmp441 = tail call float @llvm.fmuladd.f32(float %tmp436, float %tmp438, float %tmp440)
 466   %tmp442 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 253
 467   %tmp443 = load float, ptr addrspace(3) %tmp442, align 4
 468   %tmp444 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 254
 469   %tmp445 = load float, ptr addrspace(3) %tmp444, align 4
 470   %tmp446 = getelementptr inbounds float, ptr addrspace(3) %arg, i32 255
 471   %tmp447 = load float, ptr addrspace(3) %tmp446, align 4
 472   %tmp448 = tail call float @llvm.fmuladd.f32(float %tmp443, float %tmp445, float %tmp447)
 473   store float %tmp7, ptr addrspace(1) %arg1, align 4
 474   %tmp449 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 1
 475   store float %tmp14, ptr addrspace(1) %tmp449, align 4
 476   %tmp450 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 2
 477   store float %tmp21, ptr addrspace(1) %tmp450, align 4
 478   %tmp451 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 3
 479   store float %tmp28, ptr addrspace(1) %tmp451, align 4
 480   %tmp452 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 4
 481   store float %tmp35, ptr addrspace(1) %tmp452, align 4
 482   %tmp453 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 5
 483   store float %tmp42, ptr addrspace(1) %tmp453, align 4
 484   %tmp454 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 6
 485   store float %tmp49, ptr addrspace(1) %tmp454, align 4
 486   %tmp455 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 7
 487   store float %tmp56, ptr addrspace(1) %tmp455, align 4
 488   %tmp456 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 8
 489   store float %tmp63, ptr addrspace(1) %tmp456, align 4
 490   %tmp457 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 9
 491   store float %tmp70, ptr addrspace(1) %tmp457, align 4
 492   %tmp458 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 10
 493   store float %tmp77, ptr addrspace(1) %tmp458, align 4
 494   %tmp459 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 11
 495   store float %tmp84, ptr addrspace(1) %tmp459, align 4
 496   %tmp460 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 12
 497   store float %tmp91, ptr addrspace(1) %tmp460, align 4
 498   %tmp461 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 13
 499   store float %tmp98, ptr addrspace(1) %tmp461, align 4
 500   %tmp462 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 14
 501   store float %tmp105, ptr addrspace(1) %tmp462, align 4
 502   %tmp463 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 15
 503   store float %tmp112, ptr addrspace(1) %tmp463, align 4
 504   %tmp464 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 16
 505   store float %tmp119, ptr addrspace(1) %tmp464, align 4
 506   %tmp465 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 17
 507   store float %tmp126, ptr addrspace(1) %tmp465, align 4
 508   %tmp466 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 18
 509   store float %tmp133, ptr addrspace(1) %tmp466, align 4
 510   %tmp467 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 19
 511   store float %tmp140, ptr addrspace(1) %tmp467, align 4
 512   %tmp468 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 20
 513   store float %tmp147, ptr addrspace(1) %tmp468, align 4
 514   %tmp469 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 21
 515   store float %tmp154, ptr addrspace(1) %tmp469, align 4
 516   %tmp470 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 22
 517   store float %tmp161, ptr addrspace(1) %tmp470, align 4
 518   %tmp471 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 23
 519   store float %tmp168, ptr addrspace(1) %tmp471, align 4
 520   %tmp472 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 24
 521   store float %tmp175, ptr addrspace(1) %tmp472, align 4
 522   %tmp473 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 25
 523   store float %tmp182, ptr addrspace(1) %tmp473, align 4
 524   %tmp474 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 26
 525   store float %tmp189, ptr addrspace(1) %tmp474, align 4
 526   %tmp475 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 27
 527   store float %tmp196, ptr addrspace(1) %tmp475, align 4
 528   %tmp476 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 28
 529   store float %tmp203, ptr addrspace(1) %tmp476, align 4
 530   %tmp477 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 29
 531   store float %tmp210, ptr addrspace(1) %tmp477, align 4
 532   %tmp478 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 30
 533   store float %tmp217, ptr addrspace(1) %tmp478, align 4
 534   %tmp479 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 31
 535   store float %tmp224, ptr addrspace(1) %tmp479, align 4
 536   %tmp480 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 32
 537   store float %tmp231, ptr addrspace(1) %tmp480, align 4
 538   %tmp481 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 33
 539   store float %tmp238, ptr addrspace(1) %tmp481, align 4
 540   %tmp482 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 34
 541   store float %tmp245, ptr addrspace(1) %tmp482, align 4
 542   %tmp483 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 35
 543   store float %tmp252, ptr addrspace(1) %tmp483, align 4
 544   %tmp484 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 36
 545   store float %tmp259, ptr addrspace(1) %tmp484, align 4
 546   %tmp485 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 37
 547   store float %tmp266, ptr addrspace(1) %tmp485, align 4
 548   %tmp486 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 38
 549   store float %tmp273, ptr addrspace(1) %tmp486, align 4
 550   %tmp487 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 39
 551   store float %tmp280, ptr addrspace(1) %tmp487, align 4
 552   %tmp488 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 40
 553   store float %tmp287, ptr addrspace(1) %tmp488, align 4
 554   %tmp489 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 41
 555   store float %tmp294, ptr addrspace(1) %tmp489, align 4
 556   %tmp490 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 42
 557   store float %tmp301, ptr addrspace(1) %tmp490, align 4
 558   %tmp491 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 43
 559   store float %tmp308, ptr addrspace(1) %tmp491, align 4
 560   %tmp492 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 44
 561   store float %tmp315, ptr addrspace(1) %tmp492, align 4
 562   %tmp493 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 45
 563   store float %tmp322, ptr addrspace(1) %tmp493, align 4
 564   %tmp494 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 46
 565   store float %tmp329, ptr addrspace(1) %tmp494, align 4
 566   %tmp495 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 47
 567   store float %tmp336, ptr addrspace(1) %tmp495, align 4
 568   %tmp496 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 48
 569   store float %tmp343, ptr addrspace(1) %tmp496, align 4
 570   %tmp497 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 49
 571   store float %tmp350, ptr addrspace(1) %tmp497, align 4
 572   %tmp498 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 50
 573   store float %tmp357, ptr addrspace(1) %tmp498, align 4
 574   %tmp499 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 51
 575   store float %tmp364, ptr addrspace(1) %tmp499, align 4
 576   %tmp500 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 52
 577   store float %tmp371, ptr addrspace(1) %tmp500, align 4
 578   %tmp501 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 53
 579   store float %tmp378, ptr addrspace(1) %tmp501, align 4
 580   %tmp502 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 54
 581   store float %tmp385, ptr addrspace(1) %tmp502, align 4
 582   %tmp503 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 55
 583   store float %tmp392, ptr addrspace(1) %tmp503, align 4
 584   %tmp504 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 56
 585   store float %tmp399, ptr addrspace(1) %tmp504, align 4
 586   %tmp505 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 57
 587   store float %tmp406, ptr addrspace(1) %tmp505, align 4
 588   %tmp506 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 58
 589   store float %tmp413, ptr addrspace(1) %tmp506, align 4
 590   %tmp507 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 59
 591   store float %tmp420, ptr addrspace(1) %tmp507, align 4
 592   %tmp508 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 60
 593   store float %tmp427, ptr addrspace(1) %tmp508, align 4
 594   %tmp509 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 61
 595   store float %tmp434, ptr addrspace(1) %tmp509, align 4
 596   %tmp510 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 62
 597   store float %tmp441, ptr addrspace(1) %tmp510, align 4
 598   %tmp511 = getelementptr inbounds float, ptr addrspace(1) %arg1, i64 63
 599   store float %tmp448, ptr addrspace(1) %tmp511, align 4
 600   ret void
 601 }
 602
 603 ; Function Attrs: nounwind readnone
 604 declare float @llvm.fmuladd.f32(float, float, float) #0
 605
 606 attributes #0 = { nounwind readnone }
 607 attributes #1 = { "amdgpu-wave-limiter"="true" }