自然语言处理中的分词
自然语言处理中的分词
为什么要分词?
词是表达完整含义的最小单位。
字的粒度太小,无法表达完整含义,比如”鼠“可以是”老鼠“,也可以是”鼠标“。
而句子的粒度太大,承载的信息量多,很难复用。
中英文分词的3个典型区别:
区别1:分词方式不同,中文更难
英文有天然的空格作为分隔符,但是中文没有。所以如何切分是一个难点,再加上中文里一词多意的情况非常多,导致很容易出现歧义。
区别2:英文单词有多种形态
英文单词存在丰富的变形变换。为了应对这些复杂的变换,英文NLP相比中文存在一些独特的处理步骤,称为词形还原(Lemmatization)和词干提取(Stemming)。中文则不需要
区别3:中文分词需要考虑粒度问题

浙公网安备 33010602011771号