摘要:
自然语言处理中的分词 为什么要分词? 词是表达完整含义的最小单位。 字的粒度太小,无法表达完整含义,比如”鼠“可以是”老鼠“,也可以是”鼠标“。 而句子的粒度太大,承载的信息量多,很难复用。 中英文分词的3个典型区别: 区别1:分词方式不同,中文更难 英文有天然的空格作为分隔符,但是中文没有。所以如 阅读全文
posted @ 2022-03-04 18:27
伍61
阅读(105)
评论(0)
推荐(0)
摘要:
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 原则:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随 阅读全文
posted @ 2022-03-04 17:27
伍61
阅读(185)
评论(0)
推荐(0)
摘要:
简单说来,词形还原(Lemmatization)就是去掉单词的词缀,提取单词的主干部分:在Python的nltk模块中,使用WordNet为我们提供了稳健的词形还原的函数。 from nltk.stem import WordNetLemmatizer wnl = WordNetLemmatizer 阅读全文
posted @ 2022-03-04 16:33
伍61
阅读(196)
评论(0)
推荐(0)

浙公网安备 33010602011771号