自然语言处理中的分词

自然语言处理中的分词

为什么要分词?

词是表达完整含义的最小单位。

字的粒度太小,无法表达完整含义,比如”鼠“可以是”老鼠“,也可以是”鼠标“。

而句子的粒度太大,承载的信息量多,很难复用。

中英文分词的3个典型区别:

区别1:分词方式不同,中文更难

     英文有天然的空格作为分隔符,但是中文没有。所以如何切分是一个难点,再加上中文里一词多意的情况非常多,导致很容易出现歧义。

区别2:英文单词有多种形态

    英文单词存在丰富的变形变换。为了应对这些复杂的变换,英文NLP相比中文存在一些独特的处理步骤,称为词形还原(Lemmatization)和词干提取(Stemming)。中文则不需要

区别3:中文分词需要考虑粒度问题

posted @ 2022-03-04 18:27  伍61  阅读(105)  评论(0)    收藏  举报