《机器翻译 统计建模与深度学习方法》 __肖桐 学习第五天 【词法及统计建模 基础】

中文分词

1、分词:将输入的自然语言字符串切割为单元序列(token序列),每个单元都对应可以处理的最小单位;

  分词得到单元序列的过程称作词法分析;

2、基于词典的分词方法:

  缺点:过于生硬,当出现歧义时,较难解决;

  因此,基于词典的分词方法基于规则,在遇歧义时,需要人工定义消除歧义的规则;

  

 

 3、基于统计的分词方法

  

 

   

 

 4、全概率分词方法

  

 

posted @ 2020-08-10 23:35  小哪吒呀  阅读(148)  评论(0)    收藏  举报