机器学习——支持向量机（Support Vector Machines）

使用SVM时的注意事项:

1.支持向量机本身不能较好的支持非标准化数据。建议将数据标准化

SVM实现详细过程
https://blog.csdn.net/qq_30189255/article/details/54571370?utm_source=blogxgwz5

一、大体内容

给简短的文字实现分类。两种方法：

1.sklearn：自己提取特征采用朴素贝叶斯（NaiveBayes）、

　　逻辑回归（LogisticRegression）、支持向量机（SupportVectorMechine）

2.使用liblinera工具

　　直接把分词之后的所有词作为特征，甚至每一个字作为特征。近似于数据挖掘构造特征。

二、特征选择的方法

TF-IDF　　

　　词频-逆文档频率。TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。需要注意的是每个词在不同的文章中有不同的TF-IDF值，我的处理方式是每个文本中取值最大的三个词，然后把这些词做去重操作。

卡方检验CHI

　　在文本分类的特征选择阶段中，我们主要关心一个问题：词条t与类别C是否相互独立1）相互独立，说明词条t对类别c完全没有表征能。2）不独立，说明词条t对类别c有一定的表征能力。而这个公式就是在假设词条与类别c相互独立地情况下算出来的误差函数，误差越大说明越不独立，也就和此类别越相关。

N：训练数据集文档总数
A：包词词条t，同时属于类别c的文档的数量
B：包含词条t，但是不属于类别c的文档的数量
C：属于类别c，但是不包含词条t的文档的数量
D：不属于类别c，同时也不包含词条t的文档的数

事非做不知道，如此小的一个知识点我实现了一遍就发现了好几个问题

公式还可以进一步化简，比如A+C，为属于类别c的文档数量，对于每一个词条来说都是固定的，也就没必要计算。
卡方的缺点是夸大了低频词的重要性，比如一个词，只在此类文章中出现了一次，跟在文章中出现了100次的词的作用性是相同的。
如果词在此类文章中出现的次数为0，那么卡方值会是一个固定值。
每个词在不同类中的卡方值是不同的，取最高的，最后一起排序去重。

卡房检验的代码

三、使用sklearn中的算法实现多分类

利用上面的方法提取了10000个特征，不要利用sklearn自带的方法去将文档变成向量，那样内存会爆掉。我的方法是将特征存入列表，遍历文档的每一行，遍历词的列表，如果文本中包含这个词，则将向量值置为tfidf值或者1，前者要好一点，然后写入txt文本。在调用方法进行计算的时候，再从文本中读取向量。

分类结果

这里主要关注NB、LR和SVM的准确度和速度。

准确度：SVM>LR>NB

训练速度：NB>LR>>SVM

svm是否使用了核函数，怎么选择的

核函数是在数据线性不可分的情况下使用的，当样本的数量远大于特征的数量的时候就要考虑核函数了，本次实验样本数量1700w，特征数量1w。显然应该考虑使用核函数，但是当样本数量远大于特征数量的时候应该考虑线性核，因为非线性核的计算量太大了。

当数据量足够庞大时，feature足够多时，所有的分类算法最终的效果都差不多。
当训练集不大，feature比较多的时候，用线性的核。因为多feature的情况下就已经可以给线性的核提供不错的variance去fit训练集。
当训练集相对可观，而feature比较少，用非线性的核。因为需要算法提供更多的variance去fit训练集。
feature少，训练集非常大，用线性的核。因为非线性的核需要的计算量太大了。而庞大的训练集，本身就可以给非线性的核提供很好的分类效果。

如果选用核函数，如何调参的

SVM过度依赖参数，除了过度依赖合适的核函数外，SVM还过度的依赖当前核函数下的具体参数。

sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False,tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None,random_state=None)

主要调节的参数有：C、kernel、gamma。使用交叉验证来选择最优参数。

model = svm.SVC(kernel='rbf')
c_can = np.logspace(-2, 2, 10)
gamma_can = np.logspace(-2, 2, 10)
svc = GridSearchCV(model, param_grid={'C': c_can, 'gamma': gamma_can}, cv=5)
svc.fit(x, y)
print '验证参数：\n', svc.best_params_

liblinear还是libsvm

在原理和实现上存在差别，libsvm是一套完整的svm实现，既包含基础的线性svm，也包含核函数方式的非线性svm；liblinear则是针对线性场景而专门实现和优化的工具包，同时支持线性svm和线性Logistic Regression模型。由于libsvm支持核函数方式实现非线性分类器，理论上，libsvm具有更强的分类能力，应该能够处理更复杂的问题。

但是，libsvm的训练速度是个很大的瓶颈，按一般经验，在样本量过万后，libsvm就比较慢了，样本量再大一个数量级，通常的机器就无法处理了；而liblinear设计初衷就是为了解决大数据量的问题，正因为只需要支持线性分类，liblinear可以采用与libsvm完全不一样的优化算法，在保持线性svm分类时类似效果的同时，大大降低了训练计算复杂度和时间消耗。

同时，在大数据背景下，线性分类和非线性分类效果差别不大，尤其是在特征维度很高而样本有限的情况下，核函数方式有可能会错误地划分类别空间，导致效果反而变差。林智仁老师也给出过很多实际例子证明，人工构造特征+线性模型的方式可以达到甚至超过kernel SVM的表现，同时大大降低训练的时间和消耗的资源。

在本次试验中文本数量是800w，特征数量5w。用libsvm时间太费时间，所以采用liblinear。

SVM如何处理多分类问题？

一般有两种做法：一种是直接法，直接在目标函数上修改，将多个分类面的参数求解合并到一个最优化问题里面。看似简单但是计算量却非常的大。

另外一种做法是间接法：对训练器进行组合。其中比较典型的有一对一，和一对多。

一对多，就是对每个类都训练出一个分类器，由svm是二分类，所以将此而分类器的两类设定为目标类为一类，其余类为另外一类。这样针对k个类可以训练出k个分类器，当有一个新的样本来的时候，用这k个分类器来测试，那个分类器的概率高，那么这个样本就属于哪一类。这种方法效果不太好，bias比较高。liblinear采用这种方法。

svm一对一法（one-vs-one），针对任意两个类训练出一个分类器，如果有k类，一共训练出C(2,k) 个分类器，这样当有一个新的样本要来的时候，用这C(2,k) 个分类器来测试，每当被判定属于某一类的时候，该类就加一，最后票数最多的类别被认定为该样本的类。libsvm采用这种方法。

Liblinear说明

考虑到训练效率，本次选用的为多线程并行版liblinear，实际为liblinear-multicore-2.1-4，首先直接给出其train命令所支持的各模式说明，各模式选择不仅与我们使用liblinear工具直接相关，也对我们理解liblinear很有帮助，下面即主要围绕这些模式展开。

ParallelLIBLINEAR is only available for -s0, 1, 2, 3, 11 now

Usage:train [options] training_set_file[model_file]

options:

-s type : set typeof solver (default 1)

formulti-class classification (dual对偶的， primal 原始的)

0 -- L2-regularized logisticregression (primal) ---逻辑回归

1 -- L2-regularized L2-losssupport vector classification (dual) ---线性svm

2 -- L2-regularized L2-loss supportvector classification (primal)--与1对应

3-- L2-regularized L1-loss support vector classification (dual)

4-- support vector classification by Crammer and Singer

5-- L1-regularized L2-loss support vector classification

6-- L1-regularized logisticregression

7-- L2-regularized logistic regression (dual)

forregression

11-- L2-regularized L2-loss support vector regression (primal)

12-- L2-regularized L2-loss support vector regression (dual)

13-- L2-regularized L1-loss support vector regression (dual)

具体solver的选择？线性svm还是logistic regression/L1正则化项还是L2正则化项

liblinear支持多种solver模式，以下直接列举liblinear支持的几种典型solver模式对应的结构风险函数（结构风险函数由损失函数和正则化项/罚项组合而成，实际即为求解结构风险函数最小值的最优化问题），以方便说明和理解。

L2-regularized L1-loss Support VectorClassification

L2-regularized L2-loss Support Vector Classification

L1-regularized L2-loss Support Vector Classification

L2-regularized Logistic Regression

L1-regularized Logistic Regression

Liblinear中同时支持线性svm和logisticregression，两者最大区别即在于损失函数（loss function）不同，损失函数是用来描述预测值f(X)与实际值Y之间差别的非负实值函数，记作L(Y, f(X))，即上述公式中的项。

另一个重要选择是正则化项。正则化项是为了降低模型复杂度，提高泛化能力，避免过拟合而引入的项。当数据维度很高/样本不多的情况下，模型参数很多，模型容易变得很复杂，表面上看虽然极好地通过了所有样本点，但实际却出现了很多过拟合，此时则通过引入L1/L2正则化项来解决。

一般情况下，L1即为1范数，为绝对值之和；L2即为2范数，就是通常意义上的模。L1会趋向于产生少量的特征，而其他的特征都是0，即实现所谓的稀疏，而L2会选择更多的特征，这些特征都会接近于0。

对于solver的选择，作者的建议是：一般情况下推荐使用线性svm，其训练速度快且效果与lr接近；一般情况下推荐使用L2正则化项，L1精度相对低且训练速度也会慢一些，除非想得到一个稀疏的模型（个人注：当特征数量非常大，稀疏模型对于减少在线预测计算量比较有帮助）。

primal还是dual

primal和dual分别对应于原问题和对偶问题的求解，对结果是没有影响的，但是对偶问题可能比较慢。作者有如下建议：对于L2正则-SVM，可以先尝试用dual求解，如果非常慢，则换用primal求解。

网上另一个可参考的建议是：对于样本量不大，但是维度特别高的场景，如文本分类，更适合对偶问题求解；相反，当样本数非常多，而特征维度不高时，如果采用求解对偶问题，则由于Kernel Matrix过大，求解并不方便。反倒是求解原问题更加容易。

训练数据是否要归一化

对于这点，作者是这样建议的：在他们文档分类的应用中，归一化不但能大大减少训练时间，也能使得训练效果更好，因此我们选择对训练数据进行归一化。同时在实践中，归一化使得我们能直接对比各特征的公式权重，直观地看出哪些特征比较重要。

特征值归一化的方法

min-max标准化（Min-Max Normalization）

也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

参考文档

https://www.cnblogs.com/XDU-Lakers/p/11698303.html

https://zhuanlan.zhihu.com/p/27939167

https://sklearn.apachecn.org/docs/0.21.3/5.html

posted @ 2020-01-19 13:22 StarZhai 阅读(931) 评论(0) 收藏举报

刷新页面返回顶部

StarZhai