轻松打造自己的专属输入法

来龙去脉请看后面的链接，此贴总结补充。贴子多是因为我废话多，不是因为麻烦。

① 最简单的方法是下载用googlepinyin的系统辞典作成的userdict，重复就重复，不在乎那一点浪费。

② 修改后的加词程序速度很快。python程序去重。

③ 别的地方能下到30万词以上的词典。4万多词userdict 3M多，30万词估计程序不会崩，速度不会慢。

④ 拿别人的词典+自己的论文/笔记……当语料。不看slmbuild的源码又不想被cutoff和backoff制裁，可idngram merge a a a重复多次

⑤ 多音字500多个，我原以为改这个不得烦死，split成了10个文件，然后发现只要改几个常用字的就行，生僻字who cares? 半小时就改完了（每改一个文件起身溜达一圈）。

mmseg和id2ngram二合一，[65536]查id，hashmap, swiss table放频率。

用户语料count + 比如100。

pdfminer3k库专注于从PDF中获取和分析文本数据。antiword和catdoc是常用的DOC/DOCX文本提取工具。html2text可以读取HTML文件并输出除去标记的纯文本。

posted @ 2025-11-01 12:29 华容道专家阅读(20) 评论(0) 收藏举报

刷新页面返回顶部

Penilum meum pullo sententia Latin a est 「通过浪费时间获得快乐」