搜寻语言流动式目录
政府资讯科技总监办公室

ISO/IEC 10646 的表意文字

ISO 10646的表意文字相片表意文字是指一些字形与字义具有关系的文字。ISO/IEC 10646 则是指由国际标准化组织 (ISO) 所发展的一套国际编码标准。该标准把所有中文字符及其他语言(例如日语的 Kanji 和韩语的 Hanja)中近似中文的字符统称为汉字。

ISO/IEC 10646 的汉字被划分入五个主要编码区,即中日韩表意文字区、中日韩表意文字区扩展区 A 、中日韩表意文字区扩展区 B 、中日韩表意文字区扩展区 C 及中日韩表意文字区扩展区 D。中日韩表意文字区和扩展区 A 的表意文字在二零零零年随「ISO/IEC 10646-1:2000」公布;中日韩表意文字区扩展区 B 的表意文字在二零零一年十一月随「ISO/IEC 10646-2:2001」发表;中日韩表意文字区扩展区 C 的表意文字在二零零八年十二月随「ISO/IEC 10646:2003」的第五修订版发表;中日韩表意文字区扩展区 D 的表意文字在二零一一年三月随「ISO/IEC 10646:2011」发表。

扩展区 C 增加了4,149个表意文字。扩展区 D 增加了222个表意文字。在结构上,扩展区 C 和扩展区 D 的字符与扩展区 B 同样是用三十二位元码位组成的。

采用三十二位元码位的好处

统一码最初的设计是使用十六位元码位,为大约65,000个字符编码。经过多年的发展,十六位元码位已不足够代表常见的文字。采用三十二位元码位扩展编码至一百万个字符,足够为常见的文字编码。

采用ISO 10646扩展区 B 的好处相片 采用三十二位元码位,能更有效和准确地使用通用的中文字符进行日常电子通讯,因为三十二位元码位 (中日韩表意文字扩展区 B 及其后的扩展区) 不但具备中日韩表意文字区、 中日韩表意文字扩展区 A 内的表意文字,更吸纳了各界采用的通用中文字符,令表意文字总数超过70,000 个,当中包含了收录在《康熙字典》、《汉语大字典》和《汉语大词典》内的汉字。

三十二位元码位的结构

三十二位元码位是由一对特殊值的十六位元码位所组成,即所谓的代理对(surrogate pair)。这一对代理,分别是前导代理 (lead surrogates)和后尾代理 (trail surrogates) 。前导代理(lead surrogates) 的范围值是从D800到DBFF,后尾代理(trail surrogates) 的范围值是从DC00至DFFF。只要使用统一码标准中特定的算法(http://unicode.org/faq/utf_bom.html#utf16-2),就可以通过代理对的数学运算,得出该字符的三十二位元码位。

ISO 10646 扩展区 B 网页相片在结构上,中日韩表意文字区、中日韩表意文字区扩展区 A 的表意文字可用十六位元码位组成;而中日韩表意文字区扩展区 B及其后的扩展区的表意文字,则须用三十二位元码位组成。

三十二位元码位网页
三十二位元码位网页载有更详细的资料,说明参考字形与输入法软件,以及如何检视「ISO/IEC 10646:2003」内三十二位元码位的字符。

以下故事说明在日常中文电子通讯中采用三十二位元码位 (例如:ISO/IEC 10646 扩展区 B)的例子及其灵活性。
采纳三十二位元码位的灵活性