来龙去脉请看后面的链接,此贴总结补充。贴子多是因为我废话多,不是因为麻烦。
① 最简单的方法是下载用googlepinyin的系统辞典作成的userdict,重复就重复,不在乎那一点浪费。
② 修改后的加词程序速度很快。python程序去重。
③ 别的地方能下到30万词以上的词典。4万多词userdict 3M多,30万词估计程序不会崩,速度不会慢。
④ 拿别人的词典+自己的论文/笔记……当语料。不看slmbuild的源码又不想被cutoff和backoff制裁,可idngram merge a a a重复多次
⑤ 多音字500多个,我原以为改这个不得烦死,split成了10个文件,然后发现只要改几个常用字的就行,生僻字who cares? 半小时就改完了(每改一个文件起身溜达一圈)。
- https://www.cnblogs.com/funwithwords/p/19163607
 - https://www.cnblogs.com/funwithwords/p/19164065
 - https://www.cnblogs.com/funwithwords/p/19164560
 - https://www.cnblogs.com/funwithwords/p/19169934
 - https://www.cnblogs.com/funwithwords/p/19177550
 - https://www.cnblogs.com/funwithwords/p/19177975
 - https://www.cnblogs.com/funwithwords/p/19178659
 - https://www.cnblogs.com/funwithwords/p/19185218
 
- https://www.cnblogs.com/funwithwords/p/19178419
 - https://www.cnblogs.com/funwithwords/p/19172651
 - https://www.cnblogs.com/funwithwords/p/19171879
 
mmseg和id2ngram二合一,[65536]查id,hashmap, swiss table放频率。
用户语料count + 比如100。
pdfminer3k库专注于从PDF中获取和分析文本数据。antiword和catdoc是常用的DOC/DOCX文本提取工具。html2text可以读取HTML文件并输出除去标记的纯文本。
                
            
        
浙公网安备 33010602011771号