随笔档案「2011年1月2日」：ngram模型中文语料实验step by step(1)-分词与统计 ... - 阁子

2011年1月2日

摘要： ngram模型是统计语言的最基本的模型了，这里将给出用中文语料做实验建立ngram模型的个人总结，主要参考sun拼音2.0的代码以及有点意思拼音输入法，会参考srilmstevejian.cublog.cn。我会尽量逐步完成所有的实验总结。分词与统计对于中文语料和英文不同需要我们先进行分词，当然如果是切分好空格隔开的语料就简单许多。假设是普通的语料，sun拼音的做法是采用正向最大匹配分词，并且去掉可能有歧义的部分，当然这些都是首先依赖于词典。利用词典文本建立一个存储字典中词的索引结构。可以选择hash map,map,trie树等结构，这里选择double array trie作为索引结阅读全文

posted @ 2011-01-02 13:21 阁子阅读(5253) 评论(0) 推荐(0)

游园惊梦(https://github.com/chenghuige)

公告