朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数

在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好

需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳

在做文本挖掘的时候，首先要做的预处理就是分词

分词的基本原理

N元模型

维特比算法与分词

维特比算法是用于隐式马尔科夫模型HMM解码算法的，但是它是一个通用的求序列最短路径的方法，不光可以用于HMM，也可以用于其他的序列最短路径算法，比如最优分词

维特比算法采用的是动态规划来解决这个最优分词问题的，动态规划要求局部路径也是最优路径的一部分

分词是文本挖掘的预处理的重要的一步，分词完成后，我们可以继续做一些其他的特征工程，比如向量化（vectorize），TF-IDF以及Hash trick

做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick

词袋模型(Bag of Words,简称BoW)

词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关

词袋模型首先会进行分词，在分词之后，通过统计每个词在文本中出现的次数，我们就可以得到该文本基于词的特征，如果将各个文本样本的这些词与对应的词频放在一起，就是我们常说的向量化。向量化完毕后一般也会使用TF-IDF进行特征的权重修正，再将特征进行标准化。再进行一些其他的特征工程后，就可以将数据带入机器学习算法进行分类聚类了

词袋模型的三部曲：分词（tokenizing），统计修订词特征值（counting）与标准化（normalizing）

词袋模型非常类似的一个模型是词集模型(Set of Words,简称SoW) 它仅仅考虑词是否在文本中出现，而不考虑词频

词袋模型的局限性在于考虑了词频，没有考虑上下文的关系，因此会丢失一部分文本的语义。但是大多数时候，如果我们的目的是分类聚类，则词袋模型表现的很好

词袋模型之向量化

向量化的方法很好用，分词后的词汇表非常大，将对应的样本对应特征矩阵载入内存，进行特征的降维——ash Trick就是非常常用的文本特征降维方法

Hash Trick

在Hash Trick里，我们会定义一个特征Hash后对应的哈希表的大小，这个哈希表的维度会远远小于我们的词汇表的特征维度，因此可以看成是降维。具体的方法是，对应任意一个特征名，我们会用Hash函数找到对应哈希表的位置，然后将该特征名对应的词频统计值累加到该哈希表位置

向量化与Hash Trick小结

只要词汇表的特征不至于太大，大到内存不够用，肯定是使用一般意义的向量化比较好

Hash Trick用大规模机器学习上，此时我们的词汇量极大，使用向量化方法内存不够用，而使用Hash Trick降维速度很快，降维后的特征仍然可以帮我们完成后续的分类和聚类工作

实际工作中我使用的都是特征向量化

文本挖掘预处理之TF-IDF

文本挖掘的预处理中，向量化之后一般都伴随着TF-IDF的处理

文本向量化特征的不足

如果我们的向量化特征仅仅用词频表示就无法反应这一点。因此我们需要进一步的预处理来反应文本的这个特征，而这个预处理就是TF-IDF

TF-IDF概述

是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，TF和IDF。

TF也就是我们前面说到的词频，我们之前做的向量化也就是做了文本中各个词的出现频率统计，并作为文本特征

IDF就是来帮助我们来反应这个词的重要性的，进而修正仅仅用词频表示的词特征值

用scikit-learn进行TF-IDF预处理
在scikit-learn中，有两种方法进行TF-IDF的预处理

第一种方法是在用CountVectorizer类向量化之后再调用TfidfTransformer类进行预处理。

第二种方法是直接用TfidfVectorizer完成向量化与TF-IDF预处理。

TF-IDF是非常常用的文本挖掘预处理基本步骤，但是如果预处理中使用了Hash Trick，则一般就无法使用TF-IDF了，因为Hash Trick后我们已经无法得到哈希后的各特征的IDF的值。使用了IF-IDF并标准化以后，我们就可以使用各个文本的词特征向量作为文本的特征，进行分类或者聚类分析

中文文本挖掘预处理流程:
中文文本挖掘预处理特点
中文文本是没有像英文的单词空格那样隔开的，因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词

第二，中文的编码不是utf8，而是unicode。这样会导致在分词的时候，和英文相比，我们要处理编码的问题

step一：数据收集
文本挖掘之前，我们需要得到文本数据，文本数据的获取方法一般有两种：使用别人做好的语料库和自己用爬虫去在网上去爬自己的语料数据

step二：除去数据中非文本部分
爬虫收集的语料数据，由于爬下来的内容中有很多html的一些标签，需要去掉。

re ,beautifulsoup
step三：处理中文编码问题
step四：中文分词
step五：引入停用词
文本中有很多无效的词，比如“着”，“和”，还有一些标点符号，这些我们不想在文本分析的时候引入，因此需要去掉，这些词就是停用词

step六：特征处理
两种特征处理的方法，向量化与Hash Trick。而向量化是最常用的方法，因为它可以接着进行TF-IDF的特征处理

向量化，TF-IDF和标准化,处理停用词

step七：建立分析模型
有了每段文本的TF-IDF的特征向量，我们就可以利用这些数据建立分类模型，或者聚类模型了，或者进行主题模型的分析

posted on 2021-12-10 11:11 wantime 阅读(72) 评论(0) 收藏举报

刷新页面返回顶部