[mlir][linalg] Add support for masked vectorization of `tensor.insert_slice` (1/N...
[llvm-project.git] / llvm / docs / StackMaps.rst
blob11b6b3e2ca3219b7bd7c977555c7579079957a4f
1 ===================================
2 Stack maps and patch points in LLVM
3 ===================================
5 .. contents::
6    :local:
7    :depth: 2
9 Definitions
10 ===========
12 In this document we refer to the "runtime" collectively as all
13 components that serve as the LLVM client, including the LLVM IR
14 generator, object code consumer, and code patcher.
16 A stack map records the location of ``live values`` at a particular
17 instruction address. These ``live values`` do not refer to all the
18 LLVM values live across the stack map. Instead, they are only the
19 values that the runtime requires to be live at this point. For
20 example, they may be the values the runtime will need to resume
21 program execution at that point independent of the compiled function
22 containing the stack map.
24 LLVM emits stack map data into the object code within a designated
25 :ref:`stackmap-section`. This stack map data contains a record for
26 each stack map. The record stores the stack map's instruction address
27 and contains an entry for each mapped value. Each entry encodes a
28 value's location as a register, stack offset, or constant.
30 A patch point is an instruction address at which space is reserved for
31 patching a new instruction sequence at run time. Patch points look
32 much like calls to LLVM. They take arguments that follow a calling
33 convention and may return a value. They also imply stack map
34 generation, which allows the runtime to locate the patchpoint and
35 find the location of ``live values`` at that point.
37 Motivation
38 ==========
40 This functionality is currently experimental but is potentially useful
41 in a variety of settings, the most obvious being a runtime (JIT)
42 compiler. Example applications of the patchpoint intrinsics are
43 implementing an inline call cache for polymorphic method dispatch or
44 optimizing the retrieval of properties in dynamically typed languages
45 such as JavaScript.
47 The intrinsics documented here are currently used by the JavaScript
48 compiler within the open source WebKit project, see the `FTL JIT
49 <https://trac.webkit.org/wiki/FTLJIT>`_, but they are designed to be
50 used whenever stack maps or code patching are needed. Because the
51 intrinsics have experimental status, compatibility across LLVM
52 releases is not guaranteed.
54 The stack map functionality described in this document is separate
55 from the functionality described in
56 :ref:`stack-map`. `GCFunctionMetadata` provides the location of
57 pointers into a collected heap captured by the `GCRoot` intrinsic,
58 which can also be considered a "stack map". Unlike the stack maps
59 defined above, the `GCFunctionMetadata` stack map interface does not
60 provide a way to associate live register values of arbitrary type with
61 an instruction address, nor does it specify a format for the resulting
62 stack map. The stack maps described here could potentially provide
63 richer information to a garbage collecting runtime, but that usage
64 will not be discussed in this document.
66 Intrinsics
67 ==========
69 The following two kinds of intrinsics can be used to implement stack
70 maps and patch points: ``llvm.experimental.stackmap`` and
71 ``llvm.experimental.patchpoint``. Both kinds of intrinsics generate a
72 stack map record, and they both allow some form of code patching. They
73 can be used independently (i.e. ``llvm.experimental.patchpoint``
74 implicitly generates a stack map without the need for an additional
75 call to ``llvm.experimental.stackmap``). The choice of which to use
76 depends on whether it is necessary to reserve space for code patching
77 and whether any of the intrinsic arguments should be lowered according
78 to calling conventions. ``llvm.experimental.stackmap`` does not
79 reserve any space, nor does it expect any call arguments. If the
80 runtime patches code at the stack map's address, it will destructively
81 overwrite the program text. This is unlike
82 ``llvm.experimental.patchpoint``, which reserves space for in-place
83 patching without overwriting surrounding code. The
84 ``llvm.experimental.patchpoint`` intrinsic also lowers a specified
85 number of arguments according to its calling convention. This allows
86 patched code to make in-place function calls without marshaling.
88 Each instance of one of these intrinsics generates a stack map record
89 in the :ref:`stackmap-section`. The record includes an ID, allowing
90 the runtime to uniquely identify the stack map, and the offset within
91 the code from the beginning of the enclosing function.
93 '``llvm.experimental.stackmap``' Intrinsic
94 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
96 Syntax:
97 """""""
101       declare void
102         @llvm.experimental.stackmap(i64 <id>, i32 <numShadowBytes>, ...)
104 Overview:
105 """""""""
107 The '``llvm.experimental.stackmap``' intrinsic records the location of
108 specified values in the stack map without generating any code.
110 Operands:
111 """""""""
113 The first operand is an ID to be encoded within the stack map. The
114 second operand is the number of shadow bytes following the
115 intrinsic. These first two operands should be immediate, e.g. cannot
116 be passed as variables. The variable number of operands that follow are
117 the ``live values`` for which locations will be recorded in the stack map.
119 To use this intrinsic as a bare-bones stack map, with no code patching
120 support, the number of shadow bytes can be set to zero.
122 Semantics:
123 """"""""""
125 The stack map intrinsic generates no code in place, unless nops are
126 needed to cover its shadow (see below). However, its offset from
127 function entry is stored in the stack map. This is the relative
128 instruction address immediately following the instructions that
129 precede the stack map.
131 The stack map ID allows a runtime to locate the desired stack map
132 record. LLVM passes this ID through directly to the stack map
133 record without checking uniqueness.
135 LLVM guarantees a shadow of instructions following the stack map's
136 instruction offset during which neither the end of the basic block nor
137 another call to ``llvm.experimental.stackmap`` or
138 ``llvm.experimental.patchpoint`` may occur. This allows the runtime to
139 patch the code at this point in response to an event triggered from
140 outside the code. The code for instructions following the stack map
141 may be emitted in the stack map's shadow, and these instructions may
142 be overwritten by destructive patching. Without shadow bytes, this
143 destructive patching could overwrite program text or data outside the
144 current function. We disallow overlapping stack map shadows so that
145 the runtime does not need to consider this corner case.
147 For example, a stack map with 8 byte shadow:
149 .. code-block:: llvm
151   call void @runtime()
152   call void (i64, i32, ...) @llvm.experimental.stackmap(i64 77, i32 8,
153                                                         ptr %ptr)
154   %val = load i64, ptr %ptr
155   %add = add i64 %val, 3
156   ret i64 %add
158 May require one byte of nop-padding:
160 .. code-block:: none
162   0x00 callq _runtime
163   0x05 nop                <--- stack map address
164   0x06 movq (%rdi), %rax
165   0x07 addq $3, %rax
166   0x0a popq %rdx
167   0x0b ret                <---- end of 8-byte shadow
169 Now, if the runtime needs to invalidate the compiled code, it may
170 patch 8 bytes of code at the stack map's address at follows:
172 .. code-block:: none
174   0x00 callq _runtime
175   0x05 movl  $0xffff, %rax <--- patched code at stack map address
176   0x0a callq *%rax         <---- end of 8-byte shadow
178 This way, after the normal call to the runtime returns, the code will
179 execute a patched call to a special entry point that can rebuild a
180 stack frame from the values located by the stack map.
182 '``llvm.experimental.patchpoint.*``' Intrinsic
183 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
185 Syntax:
186 """""""
190       declare void
191         @llvm.experimental.patchpoint.void(i64 <id>, i32 <numBytes>,
192                                            ptr <target>, i32 <numArgs>, ...)
193       declare i64
194         @llvm.experimental.patchpoint.i64(i64 <id>, i32 <numBytes>,
195                                           ptr <target>, i32 <numArgs>, ...)
197 Overview:
198 """""""""
200 The '``llvm.experimental.patchpoint.*``' intrinsics creates a function
201 call to the specified ``<target>`` and records the location of specified
202 values in the stack map.
204 Operands:
205 """""""""
207 The first operand is an ID, the second operand is the number of bytes
208 reserved for the patchable region, the third operand is the target
209 address of a function (optionally null), and the fourth operand
210 specifies how many of the following variable operands are considered
211 function call arguments. The remaining variable number of operands are
212 the ``live values`` for which locations will be recorded in the stack
213 map.
215 Semantics:
216 """"""""""
218 The patch point intrinsic generates a stack map. It also emits a
219 function call to the address specified by ``<target>`` if the address
220 is not a constant null. The function call and its arguments are
221 lowered according to the calling convention specified at the
222 intrinsic's callsite. Variants of the intrinsic with non-void return
223 type also return a value according to calling convention.
225 On PowerPC, note that ``<target>`` must be the ABI function pointer for the
226 intended target of the indirect call. Specifically, when compiling for the
227 ELF V1 ABI, ``<target>`` is the function-descriptor address normally used as
228 the C/C++ function-pointer representation.
230 Requesting zero patch point arguments is valid. In this case, all
231 variable operands are handled just like
232 ``llvm.experimental.stackmap.*``. The difference is that space will
233 still be reserved for patching, a call will be emitted, and a return
234 value is allowed.
236 The location of the arguments are not normally recorded in the stack
237 map because they are already fixed by the calling convention. The
238 remaining ``live values`` will have their location recorded, which
239 could be a register, stack location, or constant. A special calling
240 convention has been introduced for use with stack maps, anyregcc,
241 which forces the arguments to be loaded into registers but allows
242 those register to be dynamically allocated. These argument registers
243 will have their register locations recorded in the stack map in
244 addition to the remaining ``live values``.
246 The patch point also emits nops to cover at least ``<numBytes>`` of
247 instruction encoding space. Hence, the client must ensure that
248 ``<numBytes>`` is enough to encode a call to the target address on the
249 supported targets. If the call target is constant null, then there is
250 no minimum requirement. A zero-byte null target patchpoint is
251 valid.
253 The runtime may patch the code emitted for the patch point, including
254 the call sequence and nops. However, the runtime may not assume
255 anything about the code LLVM emits within the reserved space. Partial
256 patching is not allowed. The runtime must patch all reserved bytes,
257 padding with nops if necessary.
259 This example shows a patch point reserving 15 bytes, with one argument
260 in $rdi, and a return value in $rax per native calling convention:
262 .. code-block:: llvm
264   %target = inttoptr i64 -281474976710654 to ptr
265   %val = call i64 (i64, i32, ...)
266            @llvm.experimental.patchpoint.i64(i64 78, i32 15,
267                                              ptr %target, i32 1, ptr %ptr)
268   %add = add i64 %val, 3
269   ret i64 %add
271 May generate:
273 .. code-block:: none
275   0x00 movabsq $0xffff000000000002, %r11 <--- patch point address
276   0x0a callq   *%r11
277   0x0d nop
278   0x0e nop                               <--- end of reserved 15-bytes
279   0x0f addq    $0x3, %rax
280   0x10 movl    %rax, 8(%rsp)
282 Note that no stack map locations will be recorded. If the patched code
283 sequence does not need arguments fixed to specific calling convention
284 registers, then the ``anyregcc`` convention may be used:
286 .. code-block:: none
288   %val = call anyregcc @llvm.experimental.patchpoint(i64 78, i32 15,
289                                                      ptr %target, i32 1,
290                                                      ptr %ptr)
292 The stack map now indicates the location of the %ptr argument and
293 return value:
295 .. code-block:: none
297   Stack Map: ID=78, Loc0=%r9 Loc1=%r8
299 The patch code sequence may now use the argument that happened to be
300 allocated in %r8 and return a value allocated in %r9:
302 .. code-block:: none
304   0x00 movslq 4(%r8) %r9              <--- patched code at patch point address
305   0x03 nop
306   ...
307   0x0e nop                            <--- end of reserved 15-bytes
308   0x0f addq    $0x3, %r9
309   0x10 movl    %r9, 8(%rsp)
311 .. _stackmap-format:
313 Stack Map Format
314 ================
316 The existence of a stack map or patch point intrinsic within an LLVM
317 Module forces code emission to create a :ref:`stackmap-section`. The
318 format of this section follows:
320 .. code-block:: none
322   Header {
323     uint8  : Stack Map Version (current version is 3)
324     uint8  : Reserved (expected to be 0)
325     uint16 : Reserved (expected to be 0)
326   }
327   uint32 : NumFunctions
328   uint32 : NumConstants
329   uint32 : NumRecords
330   StkSizeRecord[NumFunctions] {
331     uint64 : Function Address
332     uint64 : Stack Size (or UINT64_MAX if not statically known)
333     uint64 : Record Count
334   }
335   Constants[NumConstants] {
336     uint64 : LargeConstant
337   }
338   StkMapRecord[NumRecords] {
339     uint64 : PatchPoint ID
340     uint32 : Instruction Offset
341     uint16 : Reserved (record flags)
342     uint16 : NumLocations
343     Location[NumLocations] {
344       uint8  : Register | Direct | Indirect | Constant | ConstantIndex
345       uint8  : Reserved (expected to be 0)
346       uint16 : Location Size
347       uint16 : Dwarf RegNum
348       uint16 : Reserved (expected to be 0)
349       int32  : Offset or SmallConstant
350     }
351     uint32 : Padding (only if required to align to 8 byte)
352     uint16 : Padding
353     uint16 : NumLiveOuts
354     LiveOuts[NumLiveOuts]
355       uint16 : Dwarf RegNum
356       uint8  : Reserved
357       uint8  : Size in Bytes
358     }
359     uint32 : Padding (only if required to align to 8 byte)
360   }
362 The first byte of each location encodes a type that indicates how to
363 interpret the ``RegNum`` and ``Offset`` fields as follows:
365 ======== ========== =================== ===========================
366 Encoding Type       Value               Description
367 -------- ---------- ------------------- ---------------------------
368 0x1      Register   Reg                 Value in a register
369 0x2      Direct     Reg + Offset        Frame index value
370 0x3      Indirect   [Reg + Offset]      Spilled value
371 0x4      Constant   Offset              Small constant
372 0x5      ConstIndex Constants[Offset]   Large constant
373 ======== ========== =================== ===========================
375 In the common case, a value is available in a register, and the
376 ``Offset`` field will be zero. Values spilled to the stack are encoded
377 as ``Indirect`` locations. The runtime must load those values from a
378 stack address, typically in the form ``[BP + Offset]``. If an
379 ``alloca`` value is passed directly to a stack map intrinsic, then
380 LLVM may fold the frame index into the stack map as an optimization to
381 avoid allocating a register or stack slot. These frame indices will be
382 encoded as ``Direct`` locations in the form ``BP + Offset``. LLVM may
383 also optimize constants by emitting them directly in the stack map,
384 either in the ``Offset`` of a ``Constant`` location or in the constant
385 pool, referred to by ``ConstantIndex`` locations.
387 At each callsite, a "liveout" register list is also recorded. These
388 are the registers that are live across the stackmap and therefore must
389 be saved by the runtime. This is an important optimization when the
390 patchpoint intrinsic is used with a calling convention that by default
391 preserves most registers as callee-save.
393 Each entry in the liveout register list contains a DWARF register
394 number and size in bytes. The stackmap format deliberately omits
395 specific subregister information. Instead the runtime must interpret
396 this information conservatively. For example, if the stackmap reports
397 one byte at ``%rax``, then the value may be in either ``%al`` or
398 ``%ah``. It doesn't matter in practice, because the runtime will
399 simply save ``%rax``. However, if the stackmap reports 16 bytes at
400 ``%ymm0``, then the runtime can safely optimize by saving only
401 ``%xmm0``.
403 The stack map format is a contract between an LLVM SVN revision and
404 the runtime. It is currently experimental and may change in the short
405 term, but minimizing the need to update the runtime is
406 important. Consequently, the stack map design is motivated by
407 simplicity and extensibility. Compactness of the representation is
408 secondary because the runtime is expected to parse the data
409 immediately after compiling a module and encode the information in its
410 own format. Since the runtime controls the allocation of sections, it
411 can reuse the same stack map space for multiple modules.
413 Stackmap support is currently only implemented for 64-bit
414 platforms. However, a 32-bit implementation should be able to use the
415 same format with an insignificant amount of wasted space.
417 .. _stackmap-section:
419 Stack Map Section
420 ^^^^^^^^^^^^^^^^^
422 A JIT compiler can easily access this section by providing its own
423 memory manager via the LLVM C API
424 ``LLVMCreateSimpleMCJITMemoryManager()``. When creating the memory
425 manager, the JIT provides a callback:
426 ``LLVMMemoryManagerAllocateDataSectionCallback()``. When LLVM creates
427 this section, it invokes the callback and passes the section name. The
428 JIT can record the in-memory address of the section at this time and
429 later parse it to recover the stack map data.
431 For MachO (e.g. on Darwin), the stack map section name is
432 "__llvm_stackmaps". The segment name is "__LLVM_STACKMAPS".
434 For ELF (e.g. on Linux), the stack map section name is
435 ".llvm_stackmaps".  The segment name is "__LLVM_STACKMAPS".
437 Stack Map Usage
438 ===============
440 The stack map support described in this document can be used to
441 precisely determine the location of values at a specific position in
442 the code. LLVM does not maintain any mapping between those values and
443 any higher-level entity. The runtime must be able to interpret the
444 stack map record given only the ID, offset, and the order of the
445 locations, records, and functions, which LLVM preserves.
447 Note that this is quite different from the goal of debug information,
448 which is a best-effort attempt to track the location of named
449 variables at every instruction.
451 An important motivation for this design is to allow a runtime to
452 commandeer a stack frame when execution reaches an instruction address
453 associated with a stack map. The runtime must be able to rebuild a
454 stack frame and resume program execution using the information
455 provided by the stack map. For example, execution may resume in an
456 interpreter or a recompiled version of the same function.
458 This usage restricts LLVM optimization. Clearly, LLVM must not move
459 stores across a stack map. However, loads must also be handled
460 conservatively. If the load may trigger an exception, hoisting it
461 above a stack map could be invalid. For example, the runtime may
462 determine that a load is safe to execute without a type check given
463 the current state of the type system. If the type system changes while
464 some activation of the load's function exists on the stack, the load
465 becomes unsafe. The runtime can prevent subsequent execution of that
466 load by immediately patching any stack map location that lies between
467 the current call site and the load (typically, the runtime would
468 simply patch all stack map locations to invalidate the function). If
469 the compiler had hoisted the load above the stack map, then the
470 program could crash before the runtime could take back control.
472 To enforce these semantics, stackmap and patchpoint intrinsics are
473 considered to potentially read and write all memory. This may limit
474 optimization more than some clients desire. This limitation may be
475 avoided by marking the call site as "readonly". In the future we may
476 also allow meta-data to be added to the intrinsic call to express
477 aliasing, thereby allowing optimizations to hoist certain loads above
478 stack maps.
480 Direct Stack Map Entries
481 ^^^^^^^^^^^^^^^^^^^^^^^^
483 As shown in :ref:`stackmap-section`, a Direct stack map location
484 records the address of frame index. This address is itself the value
485 that the runtime requested. This differs from Indirect locations,
486 which refer to a stack locations from which the requested values must
487 be loaded. Direct locations can communicate the address if an alloca,
488 while Indirect locations handle register spills.
490 For example:
492 .. code-block:: none
494   entry:
495     %a = alloca i64...
496     llvm.experimental.stackmap(i64 <ID>, i32 <shadowBytes>, ptr %a)
498 The runtime can determine this alloca's relative location on the
499 stack immediately after compilation, or at any time thereafter. This
500 differs from Register and Indirect locations, because the runtime can
501 only read the values in those locations when execution reaches the
502 instruction address of the stack map.
504 This functionality requires LLVM to treat entry-block allocas
505 specially when they are directly consumed by an intrinsics. (This is
506 the same requirement imposed by the llvm.gcroot intrinsic.) LLVM
507 transformations must not substitute the alloca with any intervening
508 value. This can be verified by the runtime simply by checking that the
509 stack map's location is a Direct location type.
512 Supported Architectures
513 =======================
515 Support for StackMap generation and the related intrinsics requires
516 some code for each backend.  Today, only a subset of LLVM's backends
517 are supported.  The currently supported architectures are X86_64,
518 PowerPC, AArch64 and SystemZ.