汉文博士(原名“汉字速查”,HanziSearcher)是一个支持统一码(Unicode 6.2)七万多个汉字的电子字典、词典检索工具。其功能有:
- 免费的电子词典、字典检索功能,有统一汉字(Unihan)6.2、异体字及构形数据库、汉字笔顺、康熙字典、说文解字、国语词典、CC汉英词典等三十多部字典和词典。
- 支持部首笔画、汉字部件组合构形、国语拼音、广东话粤拼、内码输入、四角号码、平水韵等方式检索汉字,可用于输入难检字、生僻字。注:使用平水韵和四角号码检字需安装数据库
- 音韵检索功能可用于检索同音字、同韵字。
- 独创模糊词条检索功能,可在类似形态的词条之间相互参照,可列出包含某个汉字的所有词语,帮助使用者扩展汉语词汇。
- 采用开放式数据结构,集成词典编译器,使用者可自由从各种文本文件编译生成词典数据库。
- 查询结果带有超级连接,可在相关汉字或词条之间灵活跳转。
- 可将字库的矢量字形文字导出为图片文件。
运行环境及软件授权
- WinXP、2003 上运行需安装 .NET Framework 2.0 SP2 (Windows Vista、Windows 7 及更高版本已内置)。
- 要显示生僻汉字,必须安装字库。推荐安装花園明朝字库(下载字库文件,解压到Windows系统下的Fonts目录)或孙海峰的 UniFonts 6.0 字库。
- 绿色软件,解压即用,完全免费,永不过期。
- 汉字数据源于统一码汉字数据(Unihan)。
- 构形数据库的数据源于台湾中央研究院和 Kanji Database 项目,并有所微调。
- 《康熙字典》的数据库来自汉典论坛上 Utfchina 网友提供的文件。
下载软件及数据库安装方法
- 请下载汉文博士最新版(0.5.2.1470 正式版)。
- 添加字典(词典)的方法:
- 点击下载空间的“字典及词典数据库”目录,下载您需要的数据库文件(后缀为hzd),然后按下述方法安装。
- 方法一:自动安装。将数据库文件复制到安装程序目录下的“database”目录(或该目录的子目录),在“词典”菜单选择“管理词典”,在弹出的对话框中点击“自动安装”按钮,再关闭该对话框即可。
- 方法二:手动安装。在“词典”菜单选择“管理词典”,在弹出的对话框中点击“添加”按钮,再选择要添加的数据库文件。
- 管理词典:取消数据库名称左边的方框可屏蔽该数据库。上下拖动项目可改变其在查询结果的显示顺序。
- 欢迎各位网友提供各类字典及词典的原始数据或已编译数据库。
使用方法简介
最新上传数据库
《汉文博士》得到了一些热心网友的帮助。他们用手头的资料制作了一些数据库,或将数据源文件交给我代为制作。现在,这些数据库已上传到下载空间,欢迎各位网友到“字典及词典数据库”目录下载。此外,下载空间中增加了“数据库源文件”目录。该目录里有多个 7z 压缩包,包里包含编译器配置文件和源数据文件。各位网友可参考这些文件,制作自己的数据库。
- 中医/中医药英语词典(朴成真网友提供,2013年5月9日上传)
- 历史/中国人民解放军将帅名录(wangyanhan 网友提供,2013年3月31日上传)
- 地理/中国地名由来词典(wangyanhan 网友提供,2013年3月27日上传)
- 古汉语字典/艺文类聚(2013年3月26日上传)
- U+私用区汉字字典(wangyanhan 网友提供,2013年3月26日更新,修正“詝”字的类推简化字)
- 古汉语字典/康熙字典(修正了“台”和“”字[U+2F8A4]的注释,感谢 sanwsw 网友指出错误,2013年3月25日)
- 在今天优化编译器功能的过程中,我重新编译了如下几个数据库,并修正了其中的词条错误,另上载了新数据库,欢迎各位网友下载。(2013年3月23日)
- 历史/中国文化史词典(新增)
- 地理/中国名胜词典(sanwsw 网友提供)
- 汉语词典/现代汉语词典(sanwsw 网友提供)
- 历史/辞海历史的地理分册(wangyanhan 网友提供)
- 历史/辞海中国近代史分册(wangyanhan 网友提供)
- 汉语词典/重编国语辞典修订本
- 新版本的汉文博士更新了异体字检索数据库,修复了旧版词典编译的一个错误(该错误可能会导致某区块中最后一个汉字无法检索出来)。该错误的影响不算非常严重,但我还是重新编译并上载了所有数据库。追求完美的网友可重新下载词典数据库。(2013年3月21日)
- 四角号码对照表(wangyanhan 网友提供,可用四角号码检索两万多汉字,或从汉字反查四角号码;2013年3月20日)
- 汉字区位码(sanwsw 网友提供;2013年3月18日)
- 汉字构形数据库(升级到5.2版时忘了上传,现补上)
随着汉文博士新测试版0.5.3.1589的发布,简繁汉字转换功能已经可以公开测试了。下载位置在下载空间的“测试版”目录下。简繁异体字转换的功能有:
- 简体转繁体,繁体转简体。
- 可标记转换过程中一简对多繁或一繁对多简的汉字。
- 可标记简繁转换过的汉字。
- 可将兼容区的汉字转换为正体汉字。
- 简繁转换校正表(存放在词典数据库“database”目录下,目前尚未完善)。
- 独有功能:与字词典数据库检索功能紧密集成:
选择检索结果窗口的文本,打开上下文菜单,可立即转换为简体或繁体(自动检测语言并显示对应菜单项)。
在转换文本的对话框,选中文本,打开上下文菜单,可以转到检索窗口检索选中的文本。 - 独有功能:同步编辑校对,输入文本和输出文本框同步滚动,方便校对并替换文本。
- 独有功能:异体检索校对,可以同时在输入框和输出框检索文本(自动识别简繁异体字的对应关系)。
- 独有功能:可自定义是否使用扩展区的简化汉字(如要转换文本到不支持扩展汉字的设备上查看,可禁用扩展区简化汉字)。
注:界面上的全半角转换功能尚未实现。自定义转换校正表的功能也尚未实现。关于如何编辑简繁转换校正表,请参阅之前发表的网志。
另,简繁汉字的校正词汇表是否完善对简繁转换质量的高低有很大影响。因本人精力有限,特借本网志呼吁:请希望完善简繁汉字转换功能的网友积极反馈,帮忙完善该校正表。
附图1:异体检索校对功能
附图2:在检索结果窗口选中文字,上下文菜单中增加了转换为繁体或简体的选项。

附图3:在校对文本框中,可选中文本并在词典中检索其含义

目前,我们要做的工作有好几项。
- 整理出一简对多繁和一繁对多简的汉字(在维基百科上似乎有个比较齐全的列表,我已经收集好了)。
- 针对这些汉字分别制作转换校正表(ConvertZ本身自带,维基百科上也有,但词汇量还是太少了些)。
- 收集简繁转换所用的测试文本范例(目前没找到比较齐全的测试范例)。
- 开发程序进行转换。
除了上述第一条基本上已完成、第四条只能由本人完成之外,第二三条均可通过大家协作来完成。希望有更多的人参与上述工作,让简繁转换的工作能做得更好些。
我当前的设计目标是尽可能高效地完善简繁汉字转换,而暂时不考虑术语和词汇的转换(如“程序”转为“程式”)。
暂时将简繁互转的校正词文件格式定为如下形式:
- 分三列,以制表符隔开。
- 第一列表示汉字转换的字头,第二列表示对应的繁体(或繁转简时的简体)汉字。
- 如第一列为空,则第二列内容表示使用上述对应繁体汉字的词条。
- 无论是用于简转繁还是繁转简,词条均可为简体或繁体。
- 在特定场合下,需要严格匹配词条字符串时,可在词条前加“=”号。
- 匹配词条如有特定的繁体(或简体)形式,可在第三列书写转换后的形式(一般场合下不需指定第三列,通常仅用于词条其它字也存在一简对多繁的场合)。如转换后的形式与第二列相同,可在第三列以“=”号代替。
- 当某一对多汉字没有特定词条可对应时,采用校正词文件中第一个对应字。
- 较长的词汇具有较高的优先级。
- “#”或“;”后的内容代表注释内容。
简繁转换校正词表的示例:
了 了 ; 指定“了”字的默认繁体为“了”(即大多数场合下不作转换)
望了望
了 瞭 ; 在出现下列词条时,将“了”转换为“瞭”
瞭解 ; 出现“了解”时,转换为“瞭解”
了解 ; 与上一行相同,程序将此行与上一行视为等同(校正词既可用繁体,也可用简体)
#明瞭 ;又作“明了”,暂且保留(由于第二列以“#”开始,表示此行为注释)
瞭望
瞭然
瞭望哨
瞭望臺 瞭望臺 ; 由于“台”转“臺”字也属于一简对多繁形式,故在第三列指定“瞭望臺”
瞭望山
瞭若指掌
瞭如觀火 ; 此条相当于“了如观火”,程序自动将简繁一一对应的“观”转换为“觀”
瞭如指掌
眸子瞭
万 萬 ; 默认将“万”转换为“萬”
万 万 ; 在以下场合下将“万”保持不变
万俟
万紐于 万紐于 ; 由于“于”转“于”也属于一简对多繁场合,故在第三列指定“万纽于”转换后的形式
云 雲 ; 默认将“云”转换为“雲”
云 云 ; 当表示“说”的意思时,保持不变
诗云 ; “诗”字由程序自动转换为“詩”,“云”字保持不变
云云 =
人云亦云 =
由于汉文博士某些词典的内容为繁体汉字,而在日常工作中更常用的是简体汉字,直接复制文本不方便。因此,我计划在汉文博士中开发转换异体汉字的功能。目前设计的程序界面如下所示,欢迎各位网友提供建议。


下载空间现已迁移至百度网盘。
为配合下载空间的变更,最新版本的汉文博士可自动安装处于程序安装文件夹下“database”的下级文件夹的数据库。例如,汉文博士的安装目录为“C:\d\”,则放置在“C:\d\database\”和“C:\d\database\subdir\”(以前无法自动安装处于下级文件夹的数据库)文件夹里的数据库都能被自动安装。
这样,大家在下载空间可按文件夹下载数据库,然后将压缩包的整个文件夹解压到“database”目录,即可自动安装。
新版本修正了检索长词条时程序占用巨量内存的问题——那可是个大问题哦!快更新到新版本啦。
此外,还修正了词典编译器的若干错误(大词典数据库同步更新)。
比较重要的更改是在配置文件中以相对目录路径记录“database”文件夹的词典路径,方便携带程序。以后可以将程序和数据文件复制到 U 盘里带走了!
新版本的汉文博士更新了异体字检索数据库,修复了旧版词典编译的一个错误(该错误可能会导致某区块中最后一个汉字无法检索出来)。该错误的影响不算非常严重,但我还是重新编译并上载了所有数据库。追求完美的网友可重新下载词典数据库。
此外,增加了主程序窗口的“前进”按钮等微小改进。



