中文分词的特征提取

在分词和去停用词之后,就需要对文本特征进行提取,常用的传统方法为:TFIDF  信息增益法  词频法  X2统计法  互信息法等

1  TFIDF方法

它是一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个词在整个预料中的重要程序

调包语句    from  sklearn.freature_extraction.text import CounterVectorizer

2  信息增益方法

如果该词语能够在语料中能够带来更多的信息的话,该词语的信息增益就越大,那么相对来说越重要。

调包语句  from sklearn.feature_extraction.text import TfidfVectorizer

 

posted @ 2020-06-22 20:37  大大的海棠湾  阅读(425)  评论(0)    收藏  举报