《机器翻译 统计建模与深度学习方法》 __肖桐 学习第五天 【词法及统计建模 基础】
中文分词
1、分词:将输入的自然语言字符串切割为单元序列(token序列),每个单元都对应可以处理的最小单位;
分词得到单元序列的过程称作词法分析;
2、基于词典的分词方法:
缺点:过于生硬,当出现歧义时,较难解决;
因此,基于词典的分词方法基于规则,在遇歧义时,需要人工定义消除歧义的规则;
3、基于统计的分词方法
4、全概率分词方法
中文分词
1、分词:将输入的自然语言字符串切割为单元序列(token序列),每个单元都对应可以处理的最小单位;
分词得到单元序列的过程称作词法分析;
2、基于词典的分词方法:
缺点:过于生硬,当出现歧义时,较难解决;
因此,基于词典的分词方法基于规则,在遇歧义时,需要人工定义消除歧义的规则;
3、基于统计的分词方法
4、全概率分词方法