来龙去脉请看后面的链接,此贴总结补充。贴子多是因为我废话多,不是因为麻烦。

① 最简单的方法是下载用googlepinyin的系统辞典作成的userdict,重复就重复,不在乎那一点浪费。

② 修改后的加词程序速度很快。python程序去重。

③ 别的地方能下到30万词以上的词典。4万多词userdict 3M多,30万词估计程序不会崩,速度不会慢。

④ 拿别人的词典+自己的论文/笔记……当语料。不看slmbuild的源码又不想被cutoff和backoff制裁,可idngram merge a a a重复多次

⑤ 多音字500多个,我原以为改这个不得烦死,split成了10个文件,然后发现只要改几个常用字的就行,生僻字who cares? 半小时就改完了(每改一个文件起身溜达一圈)。


mmseg和id2ngram二合一,[65536]查id,hashmap, swiss table放频率。

用户语料count + 比如100。

pdfminer3k库专注于从PDF中获取和分析文本数据。antiword和catdoc是常用的DOC/DOCX文本提取工具。html2text可以读取HTML文件并输出除去标记的纯文本。

posted on 2025-11-01 12:29  华容道专家  阅读(2)  评论(0)    收藏  举报