中日韩统一表意文字(CJK Unified Ideographs)[转]

中日韩统一表意文字

中日韩统一表意文字中日韩统一表 意文字(英语:CJK Unified Ideographs),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国 独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。

越南文后来加入此计划,所以亦有 CJKV (中日韩越统一表意文字)的称呼。Unicode亦开始收录其仿汉字——喃字
版本
ISO 10646 版本Unicode 版本新增置放平面字数累计字数19931.0 中日韩统一表意文字基本多文种平面(BMP)20,90220,914位于“表意文字兼容区”中但实则独一的汉字基本多文种平面1220003.0中日韩 统一表意文字扩展A区基本多文种平面6,58227,49620013.1中日韩统一表意文字扩展B区表意文字补充平面(SIP) 42,71170,2072003第一修订版4.1HKSCS-2004 及 GB 18030-2000 中仍未加入 ISO 10646 的汉字基本多文种平面2270,229未有6.0(预计)中日韩统一表意文字扩展C区表意文字补充平面(预计)4,25174,480

历史
于1990年代初ISO 10646制订时,来自台湾的代表提出将源自中国的中日韩汉字予以统一(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。


字源

最初期统一汉字
最初期的统一汉字(20,902字)字源来自以下字集:

中国大陆的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
台湾的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9个计量用汉字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韩国的K源
K0:KS C 5601-87:4,888字(含268个重见字)
K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则。

另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。

很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字,其实不然。

扩展A区
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。相比起最初期统一汉字,扩展A区多了来自多个来自中国大陆、台湾、新加坡等汉字。

这一节是一个小作品。欢迎您积极编辑或修订扩充其内容。

扩展B区
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:

CNS 11643的第4平面到第15平面所收录的30,177个汉字;
在《汉语大字典》中出现的28,914个未收录汉字;
在《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现汉字);
在北朝鲜的国家标准所收录的5,642个汉字;
在越南的国家标准所收录的4,232个字喃;
HKSCS中出现的1,081个未收录汉字;
《汉语大词典》中出现的553个未收录汉字;
《四库全书》中出现的522个未收录汉字;
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;
1980年代版本的《辞海》中出现的247个未收录汉字;
大韩民国PKS 5700-3:1998中出现的166个未收录汉字;
《中国大百科全书》中出现的86个未收录汉字;
《辞源》中出现的66个未收录汉字;
北大方正排版系统中出现的65个未收录汉字;
这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。

另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。

Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。

扩展C区按计划,中日韩统一表意文字扩展C区将收录4,251个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。

字源分离原则
字源分离原则字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇、中国大陆作点、日本作横,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各 种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。
例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。于是,字源分离原则因而诞生。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。
已统一的汉字原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是阁下电脑提供的字型,未必代表该地区的标准写法)。
例子:
Unicode中文日文韩文
中国大陆台湾香港
U+6D2A
U+6F22
U+76F4
U+7A97
U+89D2
U+8D77
U+9AA8


注:不是所有浏览器均可分辨“中文-香港”(zh-hk)此一HTML的语言代码(Language Code)并使用不同的字形。如阁下看到的字形和中国大陆的字形一样,表示阁下的浏览器不能分辨此标签。截至2005年6月,只有Firefox和 Mozilla浏览器支援此标签。详见Test results: Automatic font assignment for CJK text。
没有统一的汉字有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“把不正统的编入位于基本多 文种平面的‘兼容表意文字区’(Compatibility Ideographs)”起废弃,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些字只有正统的会编入正式字集(包括扩展A、B、C区)中,不正统的编入位于“第二辅助平面”的“兼容表意文字补充区” (Compatibility Ideographs Supplement)中。
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。
UnicodeUnicodeUnicode
U+4E1FU+4E22

U+4E48U+5E7A

U+4E89U+722D

U+4EDEU+4EED

U+4F75U+5002

U+4FA3U+4FB6

U+4FC1U+4FE3

U+4FDEU+516A

U+4FF1U+5036

U+5024U+503C

U+5077U+5078

U+507DU+50DE

U+514CU+5151

U+514EU+5154

U+5156U+5157

U+518AU+518C

U+51C0U+51C8

U+51E2U+51E3

U+5203U+5204

U+520AU+520B

U+5220U+522A

U+5225U+522B

U+5238U+52B5

U+5239U+524E

U+524FU+5259

U+525DU+5265

U+5292U+5294

U+52FBU+5300

U+5355U+5358

U+5373U+537D

U+5377U+5DFB

U+53C1U+53C2

U+53C3U+53C4

U+5415U+5442

U+541EU+5451

U+5433U+5434U+5449
U+5436U+5450

U+543FU+544A

U+5527U+559E

U+55A9U+55BB

U+5618U+5653

U+568FU+5694

U+56EFU+56FD

U+5708U+570F

U+570EU+5713

U+5716U+5717

U+5759U+5DE0

U+57D2U+57D3

U+5848U+588D

U+5861U+586B

U+5897U+589E

U+58EEU+58EF

U+58FDU+5900

U+5910U+657B

U+5932U+672C

U+5965U+5967

U+5968U+596CU+734E
U+5986U+599D

U+598DU+59F8

U+59CDU+59D7

U+59EBU+59EC

U+5A1BU+5A2FU+5A31
U+5A55U+5AAB

U+5A7EU+5AAE

U+5AAAU+5ABC

U+5AAFU+5B00

U+5B0EU+5B14

U+5B24U+5B37

U+5B73U+5B76

U+5BABU+5BAE

U+5BDBU+5BEC

U+5BDCU+5BE7

U+5BDDU+5BE2

U+5C02U+5C08

U+5C06U+5C07

U+5C13U+5C14

U+5C19U+5C1A

U+5C2AU+5C2B

U+5C36U+5C37

U+5C4FU+5C5B

U+5CE5U+5D22

U+5DD3U+5DD4

U+5E21U+5E32

U+5E2FU+5E36

U+5E76U+5E77

U+5EC4U+5ECF

U+5F11U+5F12

U+5F37U+5F3A

U+5F39U+5F3E

U+5F50U+5F51

U+5F54U+5F55

U+5F59U+5F5A

U+5F5BU+5F5C

U+5F5DU+5F5E

U+5F65U+5F66

U+5FB3U+5FB7

U+5FB4U+5FB5

U+6075U+60E0

U+6085U+60A6

U+609EU+60AE

U+60B3U+60EA

U+6120U+614D

U+613CU+614E

U+6229U+622C

U+622FU+6231

U+6236U+6237U+6238
U+623BU+623E

U+629BU+62CB

U+629CU+62D4

U+6329U+635D

U+633FU+63D2U+63F7
U+634FU+63D1

U+635CU+641C

U+63B2U+63ED

U+63FAU+6416U+6447
U+63FEU+6435

U+6483U+64CA

U+654EU+6559

U+6553U+655A

U+65E2U+65E3

U+6602U+663B

U+665AU+6669

U+66A8U+66C1

U+66FDU+66FE

U+67B4U+67FA

U+67E5U+67FB

U+67F5U+6805

U+68B2U+68C1

U+6961U+6986

U+6982U+69EA

U+6985U+69B2

U+699DU+6A27

U+69C7U+69D9

U+69D8U+6A23

U+6A2AU+6A6B

U+6B65U+6B69

U+6B72U+6B73

U+6B7F歿U+6B81

U+6BBBU+6BBC

U+6BC0U+6BC1

U+6BCEU+6BCF

U+6C32U+6C33

U+6C5AU+6C61

U+6C92U+6CA1

U+6D44U+6DE8

U+6D89U+6E09

U+6D97U+6D9A

U+6D99U+6DDA

U+6DE5U+6E0C

U+6DF8U+6E05

U+6E07U+6E34

U+6E29U+6EAB

U+6E88U+6F59

U+6E89U+6F11

U+6EDAU+6EFE

U+6F5BU+6FF3

U+7028U+702C

U+70BAU+7232

U+712DU+7162

U+7155U+7199

U+7174U+7185

U+72B6U+72C0

U+7464U+7476

U+74F6U+7501

U+7522U+7523

U+75E9U+7626

U+76A1U+76A5

U+771EU+771F

U+773EU+8846

U+7814U+784F

U+797F祿U+7984

U+79BF禿U+79C3

U+7A05U+7A0E

U+7A42U+7A57

U+7B5DU+7B8F

U+7BB3U+7C08

U+7BE1U+7C12

U+7CA4U+7CB5

U+7D55U+7D76

U+7DA0U+7DD1

U+7DD2U+7DD6

U+7DE3U+7E01

U+7DFCU+7E15

U+7E48U+7E66

U+7FAEU+7FB9

U+7FF6U+7FFA

U+80FCU+8141

U+812BU+8131

U+817DU+8183

U+8203U+8204

U+820DU+820E

U+8216U+8217

U+8358U+838A

U+83D1U+8458

U+8480U+8495

U+848BU+8523

U+848DU+853F

U+8570U+8580

U+85ABU+85B0

U+85F4U+860A

U+865AU+865B

U+86FBU+8715

U+885BU+885E

U+886EU+889E

U+88C5U+88DD

U+8A2EU+8A7D

U+8AAAU+8AAC

U+8ACCU+8AEB

U+8B20U+8B21

U+8C5CU+8C63

U+8D70U+8D71

U+8EFF軿U+8F27

U+8F1CU+8F3A

U+8F3CU+8F40

U+8FBEU+8FD6

U+8FF8U+902C

U+9059U+9065

U+90A2U+90C9

U+90CEU+90DE

U+90F7U+9109U+9115
U+9196U+919E

U+91A4U+91AC

U+9203U+9292

U+92B3U+92ED

U+9304U+9332

U+932CU+934A

U+93ADU+93AE

U+95B1U+95B2

U+9667U+9689

U+9751U+9752

U+9759U+975C

U+976DU+9771

U+9839U+983D

U+984FU+9854

U+985AU+985B

U+98EEU+98F2

U+9905U+9920

U+99B1U+99C4

U+99E2U+9A08

U+9AA9U+9AAB

U+9AD8U+9AD9

U+9AEAU+9AEE

U+9B2CU+9B2D

U+9C1BU+9C2E

U+9CEFU+9CF3

U+9D87U+9DAB

U+9DC6U+9DCF

U+9EAAU+9EAB

U+9EBCU+9EBD

U+9EC3U+9EC4

U+9ED1U+9ED2


注:以上内容来自中文维基百科

CJKVCJKV,是汉语、日语、韩语(朝鲜语)、越南语(Chinese-Japanese-Korean-Vietnamese)的省略,是汉字文化 圈内的这4种语言共同使用的汉字(包含越南的喃字、越文汉字、韩文汉字和日文汉字),以及朝鲜语谚文和日语平假名、片假名。这是有关计算机国际化、地域化 的字符编码的用语。CJKV的顺序是拉丁字母顺序。旧称CJK(即中日韩用字)。

对于较早废止汉字,而曾使用过汉字及本民族类汉字文字—喃字的越南语方块文字进入CJKV编码较晚。用语的使用频度以CJK较多。不过,随着越文汉字、喃字加入该计划,CJKV的称呼开始使用。

Unicode的CJK统一汉字,作为越南的文字编码规格的 TCVN 5773:1993 和 TCVN 6056:1995 与汉字(越文汉字、喃字)作为原规格也合并,实际状态是CJKV。譬如,“U+7551 畑”就是日本国字之“畑”(JIS X 0208-1990之482A)与越南喃字之“畑”(TCVN 5773:1993之3C2F)的统合。

posted on 2008-04-24 10:26  hunter_gio  阅读(8015)  评论(0编辑  收藏  举报

导航