分词基本原理
1. 语料库
语料库有所有的词到下一个词的概率
一个词(n个字)到另外一个词(n个字)都有概率
只依赖于前一个词的模型为二元模型(Bi-Gram model) , 也有三元模型、四元模型,五元模型
2. 根据语料库的概率, 计算一个句子可以实现的最大概率
3. 维特比算法与分词
分词的简化.
从前到后来计算

缓存保留最前最大的概率就可以.
posted on 2022-03-14 15:56 WillingCPP 阅读(90) 评论(0) 收藏 举报
语料库有所有的词到下一个词的概率
一个词(n个字)到另外一个词(n个字)都有概率
只依赖于前一个词的模型为二元模型(Bi-Gram model) , 也有三元模型、四元模型,五元模型
分词的简化.
从前到后来计算

缓存保留最前最大的概率就可以.
posted on 2022-03-14 15:56 WillingCPP 阅读(90) 评论(0) 收藏 举报