TF-IDF学习
文本特征提取
1.切开文本中的每个词,我们把这个叫分词
2.每一个文本都用一组词对应的数值来表示它,这就变成结构化数据了。每个词对应的数值就是该词在文本中出现的次数。
3.上述的这种对文本的特征表示方法就称为“词袋”模型, 词袋的英文是Bag of Words,所以有时候又把词袋叫 BOW
不是每一个文本都包含了所有的词,所有没有出现在文本中的词他们对应的数值我们就用0表示,往往真实的场景下,要分析的文本成千上万,所以所有文 本中包含的词是非常多的,英文一般常用词就有10万个 中文也有几万个。我们把用来表示文本特征的这些词叫词 典,当然为了减少数据量,我们不会选择那么多词作为词典,一般来说选择所有文本中出现次数最多的前几百个词作为词典就可以了,其余的词我们可以合并起来,归为其他。