fix a couple typos in docs
[factor/jcg.git] / basis / unicode / normalize / normalize-docs.factor
blob4b1e3485efe7e3fc8b703173f53cc72112dcde79
1 USING: help.syntax help.markup strings ;
2 IN: unicode.normalize
4 ABOUT: "unicode.normalize"
6 ARTICLE: "unicode.normalize" "Unicode normalization"
7 "The " { $vocab-link "unicode.normalize" "unicode.normalize" } " vocabulary defines words for normalizing Unicode strings. In Unicode, it is often possible to have multiple sequences of characters which really represent exactly the same thing. For example, to represent e with an acute accent above, there are two possible strings: \"e\\u000301\" (the e character, followed by the combining acute accent character) and \"\\u0000e9\" (a single character, e with an acute accent). There are four normalization forms: NFD, NFC, NFKD, and NFKC. Basically, in NFD and NFKD, everything is expanded, whereas in NFC and NFKC, everything is contracted. In NFKD and NFKC, more things are expanded and contracted. This is a process which loses some information, so it should be done only with care. Most of the world uses NFC to communicate, but for many purposes, NFD/NFKD is easier to process. For more information, see Unicode Standard Annex #15 and section 3 of the Unicode standard."
8 { $subsection nfc }
9 { $subsection nfd }
10 { $subsection nfkc }
11 { $subsection nfkd } ;
13 HELP: nfc
14 { $values { "string" string } { "nfc" "a string in NFC" } }
15 { $description "Converts a string to Normalization Form C" } ;
17 HELP: nfd
18 { $values { "string" string } { "nfd" "a string in NFD" } }
19 { $description "Converts a string to Normalization Form D" } ;
21 HELP: nfkc
22 { $values { "string" string } { "nfkc" "a string in NFKC" } }
23 { $description "Converts a string to Normalization Form KC" } ;
25 HELP: nfkd
26 { $values { "string" string } { "nfkd" "a string in NFKD" } }
27 { $description "Converts a string to Normalization Form KD" } ;