QUICK CLUSTER: Use fixed format for cluster centers.
[pspp.git] / tests / libpspp / i18n.at
blobbc960f50a72ade04f3e88970f53e661269b9e97c
1 dnl PSPP - a program for statistical analysis.
2 dnl Copyright (C) 2017 Free Software Foundation, Inc.
3 dnl
4 dnl This program is free software: you can redistribute it and/or modify
5 dnl it under the terms of the GNU General Public License as published by
6 dnl the Free Software Foundation, either version 3 of the License, or
7 dnl (at your option) any later version.
8 dnl
9 dnl This program is distributed in the hope that it will be useful,
10 dnl but WITHOUT ANY WARRANTY; without even the implied warranty of
11 dnl MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12 dnl GNU General Public License for more details.
13 dnl
14 dnl You should have received a copy of the GNU General Public License
15 dnl along with this program.  If not, see <http://www.gnu.org/licenses/>.
16 dnl
17 AT_BANNER([i18n recoding])
19 # CHECK_I18N_RECODE([TITLE], [FROM-CODING], [TO-CODING],
20 #                   [FROM-TEXT], [TO-TEXT])
22 # Converts FROM-TEXT from FROM-CODING to TO-CODING and checks that the result
23 # is TO-TEXT.  Octal backslash-escapes are supported in FROM-TEXT and TO-TEXT.
24 m4_define([CHECK_I18N_RECODE],
25   [AT_SETUP([convert $1])
26    AT_KEYWORDS([i18n])
28    dnl Skip the test if this host doesn't know the source and target encodings.
29    AT_CHECK([i18n-test supports_encodings '$2' '$3'])
30    AT_CHECK_UNQUOTED([i18n-test recode '$2' '$3' '$4'], [0], [`printf '$5'`
32    AT_CLEANUP])
34 CHECK_I18N_RECODE([reflexively], [ASCII], [ASCII], [abc], [abc])
35 CHECK_I18N_RECODE([without any change], [ASCII], [UTF-8], [abc], [abc])
37 CHECK_I18N_RECODE([from ISO-8859-1 to UTF-8], [ISO-8859-1], [UTF-8],
38                   [\242], [\302\242])
39 CHECK_I18N_RECODE([from UTF-8 to ISO-8859-1], [UTF-8], [ISO-8859-1],
40                   [\302\242], [\242])
42 # 0xc0 == 0300 is invalid in UTF-8
43 AT_SETUP([convert invalid UTF-8 to ISO-8859-1])
44 AT_KEYWORDS([i18n])
45 dnl This test fails on Mac OS 14 Sonoma due to changes in the native
46 dnl MacOS iconv library. Skip the test on MacOS.
47 AT_CHECK([case $host in #(
48   *-linux*) ;; #(
49   *) exit 77
50 esac])
51 dnl Skip the test if this host doesn't know the source and target encodings.
52 AT_CHECK([i18n-test supports_encodings 'UTF-8' 'ISO-8859-1'])
53 AT_CHECK_UNQUOTED([i18n-test recode 'UTF-8' 'ISO-8859-1' 'xy\300z'], [0], [`printf 'xy?z'`
55 AT_CLEANUP])
57 # 0xc2 == 0302 is the first byte of a 2-byte UTF-8 sequence
58 CHECK_I18N_RECODE([truncated UTF-8 to ISO-8559-1], [UTF-8], [ISO-8859-1],
59                   [xy\302], [xy?])
61 # Checks for a bug that caused the last character to be dropped in conversions
62 # from encodings that have combining diacritics (e.g. windows-1258).
63 CHECK_I18N_RECODE([dropped final character in windows-1258], [windows-1258],
64                   [UTF-8], [aeiou], [aeiou])
66 dnl The input to this test is 7 bytes long and the expected output is 9 bytes.
67 dnl So it should exercise the E2BIG case
68 CHECK_I18N_RECODE([from ISO-8859-1 to UTF-8 with overflow],
69                   [ISO-8859-1], [UTF-8],
70                   [Tsch\374\337!], [Tsch\303\274\303\237!])
72 AT_SETUP([convert unknown encoding])
73 AT_KEYWORDS([i18n])
74 AT_CHECK([i18n-test recode nonexistent1 nonexistent2 asdf], [0], [asdf
76   [Warning: cannot create a converter for `nonexistent1' to `nonexistent2': Invalid argument
78 AT_CLEANUP
80 AT_BANNER([i18n concatenation])
82 # CHECK_I18N_CONCAT([HEAD], [TAIL], [ENCODING], [MAX-LEN], [ANSWER])
84 # Concatenates HEAD and TAIL, omitting as many characters from HEAD as needed
85 # to make the result come out to no more than MAX-LEN bytes if it was expressed
86 # in ENCODING, and checks that the answer matches ANSWER.  HEAD, TAIL, and
87 # ANSWER are all in UTF-8.  The "printf" program is applied to HEAD, TAIL, and
88 # ANSWER to allow for backslash-escapes.  (Hex escapes are not portable; use
89 # octal escapes instead.)
90 m4_define([CHECK_I18N_CONCAT],
91   [AT_SETUP([m4_if([$2], [], [truncate "$1" to $4 bytes in $3],
92                              [truncate "$1" + "$2" to $4 bytes in $3])])
93    AT_KEYWORDS([i18n])
95    dnl Skip the test if this host doesn't know the encoding.
96    AT_CHECK([i18n-test supports_encodings '$3'])
97    AT_CHECK_UNQUOTED(
98      [i18n-test concat '$1' '$2' '$3' '$4'], [0], [`printf '$5'`
100    AT_CLEANUP])
102 CHECK_I18N_CONCAT([abc], [], [UTF-8], [6], [abc])
103 CHECK_I18N_CONCAT([], [xyz], [UTF-8], [6], [xyz])
104 CHECK_I18N_CONCAT([], [], [UTF-8], [6], [])
105 CHECK_I18N_CONCAT([abcdefghij], [], [UTF-8], [6], [abcdef])
106 CHECK_I18N_CONCAT([], [tuvwxyz], [UTF-8], [6], [tuvwxyz])
108 CHECK_I18N_CONCAT([abc], [xyz], [UTF-8], [6], [abcxyz])
109 CHECK_I18N_CONCAT([abcd], [xyz], [UTF-8], [6], [abcxyz])
110 CHECK_I18N_CONCAT([abc], [uvwxyz], [UTF-8], [6], [uvwxyz])
112 # x in a box ( x⃞ ) is U+0078, U+20DE, 4 bytes in UTF-8, and one grapheme
113 # cluster.
114 CHECK_I18N_CONCAT([x\342\203\236], [y], [UTF-8], [0], [y])
115 CHECK_I18N_CONCAT([x\342\203\236], [y], [UTF-8], [1], [y])
116 CHECK_I18N_CONCAT([x\342\203\236], [y], [UTF-8], [2], [y])
117 CHECK_I18N_CONCAT([x\342\203\236], [y], [UTF-8], [3], [y])
118 CHECK_I18N_CONCAT([x\342\203\236], [y], [UTF-8], [4], [y])
119 CHECK_I18N_CONCAT([x\342\203\236], [y], [UTF-8], [5], [x\342\203\236y])
121 # éèä is only 3 bytes in ISO-8859-1.
122 CHECK_I18N_CONCAT([\303\251\303\250\303\244], [xyz], [ISO-8859-1], [0], [xyz])
123 CHECK_I18N_CONCAT([\303\251\303\250\303\244], [xyz], [ISO-8859-1], [1], [xyz])
124 CHECK_I18N_CONCAT([\303\251\303\250\303\244], [xyz], [ISO-8859-1], [2], [xyz])
125 CHECK_I18N_CONCAT([\303\251\303\250\303\244], [xyz], [ISO-8859-1], [3], [xyz])
126 CHECK_I18N_CONCAT([\303\251\303\250\303\244], [xyz], [ISO-8859-1], [4],
127                   [\303\251xyz])
128 CHECK_I18N_CONCAT([\303\251\303\250\303\244], [xyz], [ISO-8859-1], [5],
129                   [\303\251\303\250xyz])
130 CHECK_I18N_CONCAT([\303\251\303\250\303\244], [xyz], [ISO-8859-1], [6],
131                   [\303\251\303\250\303\244xyz])