中文分词的特征提取
在分词和去停用词之后,就需要对文本特征进行提取,常用的传统方法为:TFIDF 信息增益法 词频法 X2统计法 互信息法等
1 TFIDF方法
它是一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个词在整个预料中的重要程序
调包语句 from sklearn.freature_extraction.text import CounterVectorizer
2 信息增益方法
如果该词语能够在语料中能够带来更多的信息的话,该词语的信息增益就越大,那么相对来说越重要。
调包语句 from sklearn.feature_extraction.text import TfidfVectorizer

浙公网安备 33010602011771号