愛我中華,肄我中文
> 汉文博士及字词库下载
汉文博士网站已搬迁至 hanbox.cnblogs.com,请更新您的收藏夹
> EditPlus 中文版下载
版本:5.7.4586 (2024年1月编译) 密码:8518
> BowPad 中文版下载
版本:2.8.8 (2023年6月编译) 密码:8518
> BabelMap 中文版下载
最新版本:15.1.0.3 (2023年10月更新)
> Classic Shell 中文版下载
最新版本:4.3.1 (2017年10月16日)

关于简繁转换的工作以及校正转换词汇表的设计

目前,我们要做的工作有好几项。

  1. 整理出一简对多繁和一繁对多简的汉字(在维基百科上似乎有个比较齐全的列表,我已经收集好了)。
  2. 针对这些汉字分别制作转换校正表(ConvertZ本身自带,维基百科上也有,但词汇量还是太少了些)。
  3. 收集简繁转换所用的测试文本范例(目前没找到比较齐全的测试范例)。
  4. 开发程序进行转换。

除了上述第一条基本上已完成、第四条只能由本人完成之外,第二三条均可通过大家协作来完成。希望有更多的人参与上述工作,让简繁转换的工作能做得更好些。
我当前的设计目标是尽可能高效地完善简繁汉字转换,而暂时不考虑术语和词汇的转换(如“程序”转为“程式”)。

暂时将简繁互转的校正词文件格式定为如下形式:

  1. 分三列,以制表符隔开。
  2. 第一列表示汉字转换的字头,第二列表示对应的繁体(或繁转简时的简体)汉字。
  3. 如第一列为空,则第二列内容表示使用上述对应繁体汉字的词条。
  4. 无论是用于简转繁还是繁转简,词条均可为简体或繁体。
  5. 在特定场合下,需要严格匹配词条字符串时,可在词条前加“=”号。
  6. 匹配词条如有特定的繁体(或简体)形式,可在第三列书写转换后的形式(一般场合下不需指定第三列,通常仅用于词条其它字也存在一简对多繁的场合)。如转换后的形式与第二列相同,可在第三列以“=”号代替。
  7. 当某一对多汉字没有特定词条可对应时,采用校正词文件中第一个对应字。
  8. 较长的词汇具有较高的优先级。
  9. “#”或“;”后的内容代表注释内容。


简繁转换校正词表的示例:

了    了 ; 指定“了”字的默认繁体为“了”(即大多数场合下不作转换)
    望了望
了    瞭 ; 在出现下列词条时,将“了”转换为“瞭”
    瞭解 ; 出现“了解”时,转换为“瞭解”
    了解 ; 与上一行相同,程序将此行与上一行视为等同(校正词既可用繁体,也可用简体)
    #明瞭    ;又作“明了”,暂且保留(由于第二列以“#”开始,表示此行为注释)
    瞭望
    瞭然
    瞭望哨
    瞭望臺    瞭望臺 ; 由于“台”转“臺”字也属于一简对多繁形式,故在第三列指定“瞭望臺”
    瞭望山
    瞭若指掌
    瞭如觀火 ; 此条相当于“了如观火”,程序自动将简繁一一对应的“观”转换为“觀”
    瞭如指掌
    眸子瞭

万    萬 ; 默认将“万”转换为“萬”
万    万 ; 在以下场合下将“万”保持不变
    万俟
    万紐于    万紐于 ; 由于“于”转“于”也属于一简对多繁场合,故在第三列指定“万纽于”转换后的形式

云  雲  ; 默认将“云”转换为“雲”
云  云  ; 当表示“说”的意思时,保持不变
  诗云  ; “诗”字由程序自动转换为“詩”,“云”字保持不变
  云云  =
  人云亦云  =

 

posted @ 2013-04-04 16:08  汉文学士  阅读(1108)  评论(2编辑  收藏  举报