分词基本原理

1. 语料库

语料库有所有的词到下一个词的概率

一个词(n个字)到另外一个词(n个字)都有概率
只依赖于前一个词的模型为二元模型(Bi-Gram model) , 也有三元模型、四元模型,五元模型

2. 根据语料库的概率, 计算一个句子可以实现的最大概率

3. 维特比算法与分词

分词的简化.

从前到后来计算


缓存保留最前最大的概率就可以.

posted on 2022-03-14 15:56  WillingCPP  阅读(90)  评论(0)    收藏  举报

导航