深蓝词库转换2.5发布——支持微软五笔,支持Linux和macOS和更多命令行功能

最近利用晚上的时间,对很久没有新版本发布的深蓝词库转换进行了版本升级。本次升级主要包含的功能包括:

一.支持Win10自带的微软五笔输入法用户自定义短语的导入导出。

1.在转换输入法词库列表中选择“Win10微软五笔(自定义短语)”,程序会在同一个目录生成.dat文件。

image

2.在微软五笔的选项中,找到用户自定义短语,点击“添加或编辑自定义短语”。

image

3.点击“导入”按钮,选中我们刚才生成的.dat文件即可完成自定义短语的导入:

image

用同样的操作,如果是点击“导出”按钮,可以导出现有的自定义短语,并在深蓝词库转换中转换成其他词库。以上五笔编码是基于五笔98的字根来的,没有提供老版五笔86的字根编码。

二.基于dotnet core 2.2,支持在Linux和macOS下命令行模式的词库转换。

如果您使用的是Linux或者macOS,没有Windows也没有关系,现在深蓝词库转换能够很好的支持在这两种操作系统下的命令行操作。Linux和macOS下要运行深蓝词库转换需要先安装dotnet core runtime.具体安装步骤可参考微软官方网站:https://dotnet.microsoft.com/download

选择.NET Core 2.2的Runtime即可,如果想本地编译深蓝词库转换的源码的话才需要下载.NET Core SDK.

下载安装完毕后,我们运行以下命令,可以看到帮助信息:

dotnet ImeWlConverterCmd.dll -?

image

三.命令行模式增强——支持过滤器和词频的生成。

本次发布的命令行模式,除了支持Linux和macOS外,还对其命令也进行了增强。主要是支持了词频的生成和过滤器的设置。这两个都是在Windows下就有的功能,只是之前命令行一直不支持,现在加上了。

1. 对于导入词库不包含词频,而导出时需要指定词频,可以通过-r:命令指定词频的生成方式,

支持的有:

  • -r:baidu  根据该词语在百度搜索的结果数量决定词频
  • -r:google  根据该词语在Google搜索的结果数量决定词频(需翻墙)
  • -r:数字  指定一个固定数字的词频

2.使用-ft:可以设置词条的过滤条件,如果不设置则不过滤任何词条。

-ft:后面可以设置的过滤条件包括:

  • len:1-100 保留字数为1到100的词条
  • rank:2-9999 保留词频在2到9999的词条
  • rm:eng 移除包含英文字母的词条
  • rm:num 移除包含数字的词条
  • rm:space 移除包含空格的词条
  • rm:pun 移除包含标点符号的词条


以上过滤条件可以组合,同时起作用,用竖线分开即可:
-ft:"len:1-100|rank:2-9999|rm:eng|rm:num|rm:space|rm:pun"

下面举一个具体的例子。我们下载了一个细胞词库,细胞词库是没有词频的,所以我们想通过百度搜索确定词频。然后我们只想保留2-3个字的词条,太长的我们就不要了,另外也要过滤掉包含数字、英文、空格、标点等比较特殊的词条,所以我们转换的命令为:

dotnet ImeWlConverterCmd.dll -i:scel ./BlockChain.scel -o:qqpy ./qqpy.txt -r:baidu -ft:"len:2-3|rm:eng|rm:num|rm:space|rm:pun"

转换完成后,我们打开qqpy.txt,可以看到转换的结果满足了我们的要求,词频变化了,词条也只保留了2-3个字的。

image

最后,最新版下载地址是:https://github.com/studyzy/imewlconverter/releases/tag/v2.5

博客园下载链接:

https://files.cnblogs.com/files/studyzy/Release_V2.5_Windows.zip

https://files.cnblogs.com/files/studyzy/Release_V2.5_Linux_macOS.tar.gz

posted @ 2019-05-07 00:45 深蓝 阅读(...) 评论(...) 编辑 收藏

我要啦免费统计