文本预处理——词形还原

简单说来,词形还原(Lemmatization)就是去掉单词的词缀,提取单词的主干部分:在Python的nltk模块中,使用WordNet为我们提供了稳健的词形还原的函数。

from nltk.stem import WordNetLemmatizer

wnl = WordNetLemmatizer()
# lemmatize nouns
print(wnl.lemmatize('cars', 'n'))
print(wnl.lemmatize('men', 'n'))

# lemmatize verbs
print(wnl.lemmatize('running', 'v'))
print(wnl.lemmatize('ate', 'v'))

# lemmatize adjectives
print(wnl.lemmatize('saddest', 'a'))
print(wnl.lemmatize('fancier', 'a'))

wnl.lemmatize()函数可以进行词形还原,第一个参数为单词,第二个参数为该单词的词性,如名词,动词,形容词等,返回的结果为输入单词的词形还原后的结果。

 

posted @ 2022-03-04 16:33  伍61  阅读(196)  评论(0)    收藏  举报