摘要: ngram模型是统计语言的最基本的模型了,这里将给出用中文语料做实验建立ngram模型的个人总结,主要参考sun拼音2.0的代码以及有点意思拼音输入法,会参考srilmstevejian.cublog.cn。我会尽量逐步完成所有的实验总结。 分词与统计 对于中文语料和英文不同需要我们先进行分词,当然如果是切分好空格隔开的语料就简单许多。假设是普通的语料,sun拼音的做法是采用正向最大匹配分词,并且去掉可能有歧义的部分,当然这些都是首先依赖于词典。 利用词典文本建立一个存储字典中词的索引结构。可以选择hash map,map,trie树等结构,这里选择double array trie作为索引结 阅读全文
posted @ 2011-01-02 13:21 阁子 阅读(5229) 评论(0) 推荐(0)