中日韩统一表意文字(CJK Unified Ideographs)[转]

中日韩统一表意文字

中日韩统一表意文字中日韩统一表意文字（英语：CJK Unified Ideographs），目的是要把分别来自中文、日文、韩文、越文中，本质相同、形状一样或稍异的表意文字（主要为汉字，但也有仿汉字如日本国字、韩国独有汉字、越南的喃字）于ISO 10646及Unicode标准内赋予相同编码。

越南文后来加入此计划，所以亦有 CJKV （中日韩越统一表意文字）的称呼。Unicode亦开始收录其仿汉字——喃字
版本 ISO 10646 版本Unicode 版本新增置放平面字数累计字数19931.0 中日韩统一表意文字基本多文种平面（BMP）20,90220,914位于“表意文字兼容区”中但实则独一的汉字基本多文种平面1220003.0中日韩统一表意文字扩展A区基本多文种平面6,58227,49620013.1中日韩统一表意文字扩展B区表意文字补充平面（SIP） 42,71170,2072003第一修订版4.1HKSCS-2004 及 GB 18030-2000 中仍未加入 ISO 10646 的汉字基本多文种平面2270,229未有6.0（预计）中日韩统一表意文字扩展C区表意文字补充平面（预计）4,25174,480

历史
于1990年代初ISO 10646制订时，来自台湾的代表提出将源自中国的中日韩汉字予以统一（Unify, ISO术语称为认同），可以大量节省编码空间，获其他代表接纳。

字源

最初期统一汉字
最初期的统一汉字（20,902字）字源来自以下字集：

中国大陆的G源
G0：GB 2312-80：6,763字
G1：GB 12345-90：2,352字（含58个香港字和2个吏读字，不包括和G0重覆的字）
G3：GB 7589-87：7,237字
G5：GB 7590-87：7,039字
G7：现代汉语通用字表：642（G0, 1, 3, 5, 8未包括的字）
G8：GB 8565-89：290字（G0, 1, 3, 5未包括的字）
台湾的T源
T1：CNS 11643-1986第一字面：5,401+9字（含9个计量用汉字）
T2：CNS 11643-1986第二字面：7,650字
TE：CNS 11643-1986第十四字面：6,319+239+10（含239个CCCII特字和10个XCCS特字）
日本的J源
J1：JIS X 0208-90：6,335+1字
J2：JIS X 0212-90：5,801字
韩国的K源
K0：KS C 5601-87：4,888字（含268个重见字）
K1：KS C 5657-91：2,856字
以上的来源字集会实施字源分离原则。

另外还有：ANSI Z39.64-1989（EACC）、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。

很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字，其实不然。

扩展A区
扩展A区包含有6,582个新的汉字，位置在 U+3400—U+4DB5。相比起最初期统一汉字，扩展A区多了来自多个来自中国大陆、台湾、新加坡等汉字。

这一节是一个小作品。欢迎您积极编辑或修订扩充其内容。

扩展B区
扩展B区包含有42,711个新的汉字，位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件，这四万多个汉字分别从以下字典或字集中取得：

CNS 11643的第4平面到第15平面所收录的30,177个汉字；
在《汉语大字典》中出现的28,914个未收录汉字；
在《康熙字典》中出现的18,486个未收录汉字（包括一个在补遗篇出现汉字）；
在北朝鲜的国家标准所收录的5,642个汉字；
在越南的国家标准所收录的4,232个字喃；
HKSCS中出现的1,081个未收录汉字；
《汉语大词典》中出现的553个未收录汉字；
《四库全书》中出现的522个未收录汉字；
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字；
1980年代版本的《辞海》中出现的247个未收录汉字；
大韩民国PKS 5700-3:1998中出现的166个未收录汉字；
《中国大百科全书》中出现的86个未收录汉字；
《辞源》中出现的66个未收录汉字；
北大方正排版系统中出现的65个未收录汉字；
这堆汉字中重复的汉字有不少，所以经过整理之后，总数实际上只有42,711个汉字。

另外，在 U+2F800—U+2FA1D 的位置，放了542个来自台湾的兼容汉字。

Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集（HKSCS）的所有汉字，而扩展C区又迟迟未能出笼，在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外，在 U+FA70—U+FAD9 的位置，放了106个来自北朝鲜的兼容汉字。

扩展C区按计划，中日韩统一表意文字扩展C区将收录4,251个汉字，包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中，位置在 U+2A6E0—U+2B77A。

字源分离原则
字源分离原则字源分离原则（Source Separation Rule）是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异，如“户”字的第一笔，台湾作撇、中国大陆作点、日本作横，这种程度的差异，理想上是整并为一个字为佳。然而，从之前各种受挫之文字整并计划的经验得知，整合字集与现行通用字集（Big5或国标码）等无法一一对应，是推行整合字集的最大阻碍。
例如，日本的JIS标准同时收录了“剣”字与“劍”字，原本JIS文件里这两个字可以并存，但采用整合字集后反而变成同一个字，会造成使用上的困扰。于是，字源分离原则因而诞生。
字源分离原则是指，在上述所列出之各种字源里，若有任何字集同时收了两种以上的文字字形，则在Unicode中日韩统一表意文字中，也同时收录这些字。这样一来，现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求，就是能大幅减少Unicode收录汉字字数，同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字，而不对字形”编码之原则，亦遭受不少批评。
已统一的汉字原则上ISO 10646只对字（Character），而非字形（Glyph）编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法（但只是阁下电脑提供的字型，未必代表该地区的标准写法）。
例子：

Unicode	中文			日文	韩文
Unicode	中国大陆	台湾	香港	日文	韩文
U+6D2A	港	港	港	港	港
U+6F22	漢	漢	漢	漢	漢
U+76F4	直	直	直	直	直
U+7A97	窗	窗	窗	窗	窗
U+89D2	角	角	角	角	角
U+8D77	起	起	起	起	起
U+9AA8	骨	骨	骨	骨	骨

注：不是所有浏览器均可分辨“中文－香港”（zh-hk）此一HTML的语言代码（Language Code）并使用不同的字形。如阁下看到的字形和中国大陆的字形一样，表示阁下的浏览器不能分辨此标签。截至2005年6月，只有Firefox和 Mozilla浏览器支援此标签。详见Test results: Automatic font assignment for CJK text。
没有统一的汉字有些字只是同一字在不同地区的写法，理应统一，但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“把不正统的编入位于基本多文种平面的‘兼容表意文字区’（Compatibility Ideographs）”起废弃，原因是CNS中有太多字形非常接近，按 Unicode 标准应该统一的字。这些字只有正统的会编入正式字集（包括扩展A、B、C区）中，不正统的编入位于“第二辅助平面”的“兼容表意文字补充区” （Compatibility Ideographs Supplement）中。
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。

Unicode	字	Unicode	字	Unicode	字
U+4E1F	丟	U+4E22	丢
U+4E48	么	U+5E7A	幺
U+4E89	争	U+722D	爭
U+4EDE	仞	U+4EED	仭
U+4F75	併	U+5002	倂
U+4FA3	侣	U+4FB6	侶
U+4FC1	俁	U+4FE3	俣
U+4FDE	俞	U+516A	兪
U+4FF1	俱	U+5036	倶
U+5024	値	U+503C	值
U+5077	偷	U+5078	偸
U+507D	偽	U+50DE	僞
U+514C	兌	U+5151	兑
U+514E	兎	U+5154	兔
U+5156	兖	U+5157	兗
U+518A	冊	U+518C	册
U+51C0	净	U+51C8	凈
U+51E2	凢	U+51E3	凣
U+5203	刃	U+5204	刄
U+520A	刊	U+520B	刋
U+5220	删	U+522A	刪
U+5225	別	U+522B	别
U+5238	券	U+52B5	劵
U+5239	刹	U+524E	剎
U+524F	剏	U+5259	剙
U+525D	剝	U+5265	剥
U+5292	劒	U+5294	劔
U+52FB	勻	U+5300	匀
U+5355	单	U+5358	単
U+5373	即	U+537D	卽
U+5377	卷	U+5DFB	巻
U+53C1	叁	U+53C2	参
U+53C3	參	U+53C4	叄
U+5415	吕	U+5442	呂
U+541E	吞	U+5451	呑
U+5433	吳	U+5434	吴	U+5449	呉
U+5436	吶	U+5450	呐
U+543F	吿	U+544A	告
U+5527	唧	U+559E	喞
U+55A9	喩	U+55BB	喻
U+5618	嘘	U+5653	噓
U+568F	嚏	U+5694	嚔
U+56EF	囯	U+56FD	国
U+5708	圈	U+570F	圏
U+570E	圎	U+5713	圓
U+5716	圖	U+5717	圗
U+5759	坙	U+5DE0	巠
U+57D2	埒	U+57D3	埓
U+5848	塈	U+588D	墍
U+5861	塡	U+586B	填
U+5897	増	U+589E	增
U+58EE	壮	U+58EF	壯
U+58FD	壽	U+5900	夀
U+5910	夐	U+657B	敻
U+5932	夲	U+672C	本
U+5965	奥	U+5967	奧
U+5968	奨	U+596C	奬	U+734E	獎
U+5986	妆	U+599D	妝
U+598D	妍	U+59F8	姸
U+59CD	姍	U+59D7	姗
U+59EB	姫	U+59EC	姬
U+5A1B	娛	U+5A2F	娯	U+5A31	娱
U+5A55	婕	U+5AAB	媫
U+5A7E	婾	U+5AAE	媮
U+5AAA	媪	U+5ABC	媼
U+5AAF	媯	U+5B00	嬀
U+5B0E	嬎	U+5B14	嬔
U+5B24	嬤	U+5B37	嬷
U+5B73	孳	U+5B76	孶
U+5BAB	宫	U+5BAE	宮
U+5BDB	寛	U+5BEC	寬
U+5BDC	寜	U+5BE7	寧
U+5BDD	寝	U+5BE2	寢
U+5C02	専	U+5C08	專
U+5C06	将	U+5C07	將
U+5C13	尓	U+5C14	尔
U+5C19	尙	U+5C1A	尚
U+5C2A	尪	U+5C2B	尫
U+5C36	尶	U+5C37	尷
U+5C4F	屏	U+5C5B	屛
U+5CE5	峥	U+5D22	崢
U+5DD3	巓	U+5DD4	巔
U+5E21	帡	U+5E32	帲
U+5E2F	帯	U+5E36	帶
U+5E76	并	U+5E77	幷
U+5EC4	廄	U+5ECF	廏
U+5F11	弑	U+5F12	弒
U+5F37	強	U+5F3A	强
U+5F39	弹	U+5F3E	弾
U+5F50	彐	U+5F51	彑
U+5F54	彔	U+5F55	录
U+5F59	彙	U+5F5A	彚
U+5F5B	彛	U+5F5C	彜
U+5F5D	彝	U+5F5E	彞
U+5F65	彥	U+5F66	彦
U+5FB3	徳	U+5FB7	德
U+5FB4	徴	U+5FB5	徵
U+6075	恵	U+60E0	惠
U+6085	悅	U+60A6	悦
U+609E	悞	U+60AE	悮
U+60B3	悳	U+60EA	惪
U+6120	愠	U+614D	慍
U+613C	愼	U+614E	慎
U+6229	戩	U+622C	戬
U+622F	戯	U+6231	戱
U+6236	戶	U+6237	户	U+6238	戸
U+623B	戻	U+623E	戾
U+629B	抛	U+62CB	拋
U+629C	抜	U+62D4	拔
U+6329	挩	U+635D	捝
U+633F	挿	U+63D2	插	U+63F7	揷
U+634F	捏	U+63D1	揑
U+635C	捜	U+641C	搜
U+63B2	掲	U+63ED	揭
U+63FA	揺	U+6416	搖	U+6447	摇
U+63FE	揾	U+6435	搵
U+6483	撃	U+64CA	擊
U+654E	敎	U+6559	教
U+6553	敓	U+655A	敚
U+65E2	既	U+65E3	旣
U+6602	昂	U+663B	昻
U+665A	晚	U+6669	晩
U+66A8	暨	U+66C1	曁
U+66FD	曽	U+66FE	曾
U+67B4	枴	U+67FA	柺
U+67E5	查	U+67FB	査
U+67F5	柵	U+6805	栅
U+68B2	梲	U+68C1	棁
U+6961	楡	U+6986	榆
U+6982	概	U+69EA	槪
U+6985	榅	U+69B2	榲
U+699D	榝	U+6A27	樧
U+69C7	槇	U+69D9	槙
U+69D8	様	U+6A23	樣
U+6A2A	横	U+6A6B	橫
U+6B65	步	U+6B69	歩
U+6B72	歲	U+6B73	歳
U+6B7F	歿	U+6B81	殁
U+6BBB	殻	U+6BBC	殼
U+6BC0	毀	U+6BC1	毁
U+6BCE	毎	U+6BCF	每
U+6C32	氲	U+6C33	氳
U+6C5A	汚	U+6C61	污
U+6C92	沒	U+6CA1	没
U+6D44	浄	U+6DE8	淨
U+6D89	涉	U+6E09	渉
U+6D97	涗	U+6D9A	涚
U+6D99	涙	U+6DDA	淚
U+6DE5	淥	U+6E0C	渌
U+6DF8	淸	U+6E05	清
U+6E07	渇	U+6E34	渴
U+6E29	温	U+6EAB	溫
U+6E88	溈	U+6F59	潙
U+6E89	溉	U+6F11	漑
U+6EDA	滚	U+6EFE	滾
U+6F5B	潛	U+6FF3	濳
U+7028	瀨	U+702C	瀬
U+70BA	為	U+7232	爲
U+712D	焭	U+7162	煢
U+7155	煕	U+7199	熙
U+7174	煴	U+7185	熅
U+72B6	状	U+72C0	狀
U+7464	瑤	U+7476	瑶
U+74F6	瓶	U+7501	甁
U+7522	產	U+7523	産
U+75E9	痩	U+7626	瘦
U+76A1	皡	U+76A5	皥
U+771E	眞	U+771F	真
U+773E	眾	U+8846	衆
U+7814	研	U+784F	硏
U+797F	祿	U+7984	禄
U+79BF	禿	U+79C3	秃
U+7A05	稅	U+7A0E	税
U+7A42	穂	U+7A57	穗
U+7B5D	筝	U+7B8F	箏
U+7BB3	箳	U+7C08	簈
U+7BE1	篡	U+7C12	簒
U+7CA4	粤	U+7CB5	粵
U+7D55	絕	U+7D76	絶
U+7DA0	綠	U+7DD1	緑
U+7DD2	緒	U+7DD6	緖
U+7DE3	緣	U+7E01	縁
U+7DFC	緼	U+7E15	縕
U+7E48	繈	U+7E66	繦
U+7FAE	羮	U+7FB9	羹
U+7FF6	翶	U+7FFA	翺
U+80FC	胼	U+8141	腁
U+812B	脫	U+8131	脱
U+817D	腽	U+8183	膃
U+8203	舃	U+8204	舄
U+820D	舍	U+820E	舎
U+8216	舖	U+8217	舗
U+8358	荘	U+838A	莊
U+83D1	菑	U+8458	葘
U+8480	蒀	U+8495	蒕
U+848B	蒋	U+8523	蔣
U+848D	蒍	U+853F	蔿
U+8570	蕰	U+8580	薀
U+85AB	薫	U+85B0	薰
U+85F4	藴	U+860A	蘊
U+865A	虚	U+865B	虛
U+86FB	蛻	U+8715	蜕
U+885B	衛	U+885E	衞
U+886E	衮	U+889E	袞
U+88C5	装	U+88DD	裝
U+8A2E	訮	U+8A7D	詽
U+8AAA	說	U+8AAC	説
U+8ACC	諌	U+8AEB	諫
U+8B20	謠	U+8B21	謡
U+8C5C	豜	U+8C63	豣
U+8D70	走	U+8D71	赱
U+8EFF	軿	U+8F27	輧
U+8F1C	輜	U+8F3A	輺
U+8F3C	輼	U+8F40	轀
U+8FBE	达	U+8FD6	迖
U+8FF8	迸	U+902C	逬
U+9059	遙	U+9065	遥
U+90A2	邢	U+90C9	郉
U+90CE	郎	U+90DE	郞
U+90F7	郷	U+9109	鄉	U+9115	鄕
U+9196	醖	U+919E	醞
U+91A4	醤	U+91AC	醬
U+9203	鈃	U+9292	銒
U+92B3	銳	U+92ED	鋭
U+9304	錄	U+9332	録
U+932C	錬	U+934A	鍊
U+93AD	鎭	U+93AE	鎮
U+95B1	閱	U+95B2	閲
U+9667	陧	U+9689	隉
U+9751	靑	U+9752	青
U+9759	静	U+975C	靜
U+976D	靭	U+9771	靱
U+9839	頹	U+983D	頽
U+984F	顏	U+9854	顔
U+985A	顚	U+985B	顛
U+98EE	飮	U+98F2	飲
U+9905	餅	U+9920	餠
U+99B1	馱	U+99C4	駄
U+99E2	駢	U+9A08	騈
U+9AA9	骩	U+9AAB	骫
U+9AD8	高	U+9AD9	髙
U+9AEA	髪	U+9AEE	髮
U+9B2C	鬬	U+9B2D	鬭
U+9C1B	鰛	U+9C2E	鰮
U+9CEF	鳯	U+9CF3	鳳
U+9D87	鶇	U+9DAB	鶫
U+9DC6	鷆	U+9DCF	鷏
U+9EAA	麪	U+9EAB	麫
U+9EBC	麼	U+9EBD	麽
U+9EC3	黃	U+9EC4	黄
U+9ED1	黑	U+9ED2	黒

注：以上内容来自中文维基百科

CJKVCJKV，是汉语、日语、韩语（朝鲜语）、越南语（Chinese-Japanese-Korean-Vietnamese）的省略，是汉字文化圈内的这4种语言共同使用的汉字（包含越南的喃字、越文汉字、韩文汉字和日文汉字)，以及朝鲜语谚文和日语平假名、片假名。这是有关计算机国际化、地域化的字符编码的用语。CJKV的顺序是拉丁字母顺序。旧称CJK（即中日韩用字）。

对于较早废止汉字，而曾使用过汉字及本民族类汉字文字—喃字的越南语方块文字进入CJKV编码较晚。用语的使用频度以CJK较多。不过，随着越文汉字、喃字加入该计划，CJKV的称呼开始使用。

Unicode的CJK统一汉字，作为越南的文字编码规格的 TCVN 5773:1993 和 TCVN 6056:1995 与汉字（越文汉字、喃字）作为原规格也合并，实际状态是CJKV。譬如，“U+7551 畑”就是日本国字之“畑”（JIS X 0208-1990之482A）与越南喃字之“畑”（TCVN 5773:1993之3C2F）的统合。

posted on 2008-04-24 10:26 hunter_gio 阅读(8816) 评论(0) 收藏举报

刷新页面返回顶部

不凡

中日韩统一表意文字(CJK Unified Ideographs)[转]

导航

公告