机器学习【十】模型评估与优化

涉及：

使用交叉验证对模型进行评估
使用网格搜索寻找模型的最优参数
对分类模型的可信度进行评估

使用交叉验证进行模型评估

以前的内容，经常涉及使用sklear中的train_test_split 将数据集拆分成训练集和测试集，然后用训练集训练模型，再用模型去拟合测试集并对模型进行评分，来评估模型的准确度

1.sklearn中的交叉验证法

统计学中，交叉验证是一种常用于对于模型泛化性能进行评估的方法

和train_test_split方法不同的是，交叉验证会反复地拆分数据集，并用来训练多个模型

sklearn中默认使用的是 K折叠交叉验证法：

还有“随机拆分交叉验证法”，“挨个儿试法”

交叉验证的使用方法：

#导入红酒数据集
from sklearn.datasets import load_wine
#导入交叉验证工具
from sklearn.model_selection import cross_val_score
#导入用于分类的支持向量机模型
from sklearn.svm import SVC
#载入红酒数据集
wine = load_wine()
#设置SVC的核函数为linear
svc = SVC(kernel='linear')
#使用交叉验证法对SVC进行评分
scores = cross_val_score(svc,wine.data,wine.target)
#得分
print(scores)

[0.83333333 0.95       1.        ]

【结果分析】

先导入了scikit_learn的交叉验证评分类，然后使用SVC对酒的数据集进行分类，默认情况下，cross_val_score会使用3个折叠，因此，会得到3个分数

模型的得分：

#使用.mean() 获得分数的平均值
print(scores.mean())

0.9277777777777777

【结果分析】

交叉验证法平均分为0.928分

将数据集拆成6个部分来评分——cross_val_score:

#设置cv参数为6
scores = cross_val_score(svc,wine.data,wine.target,cv=6)
print(scores)

[0.86666667 0.9        0.93333333 0.96666667 1.         1.        ]

print(scores.mean())

0.9444444444444445

【结果分析】

在sklearn中，cross_val_score对于分类模型默认使用的是K折叠交叉验证，而对于分类模型则默认使用分层K交叉验证法

要解释啥是分层K交叉验证法，先分析下酒的数据集：

#打印红酒数据集的分类标签
print(wine.target)

2.随机拆分和“挨个儿试”

随机拆分原理——先从数据集中随机抽一部分数据作为训练集，再从其余的部分随机抽一部分作为测试集，进行评分后再迭代，重复上一步操作，直到把我们希望的迭代次数全跑完

#导入随机拆分工具
from sklearn.model_selection import ShuffleSplit
#设置拆分的数为10个
shuffle_split = ShuffleSplit(test_size=.2,train_size=.7,n_splits=10)
#对拆分好的数据进行交叉验证
scores = cross_val_score(svc,wine.data,wine.target,cv=shuffle_split)
print(scores)

把每次迭代的测试集设为数据集的20%，而训练集为70%，并且把整个数据集拆分成10个子集

【结果分析】

ShuffleSplit一共为SVC模型进行了10次评分，最终得分即10个评分的平均值

挨个儿试试：

把每个数据点都当成一个数据集，所以数据集里有多少样本，它就迭代多少次

数据集较大——很耗时

数据集较小——评分准确度最高

#导入LeaveOneOut
from sklearn.model_selection import LeaveOneOut
#设置cv参数为leaveoneout
cv = LeaveOneOut()
#重新进行交叉验证
scores = cross_val_score(svc,wine.data,wine.target,cv=cv)
print('迭代次数：',len(scores))
print('平均分:',scores.mean())

迭代次数： 178
平均分: 0.9550561797752809

【结果分析】

由于酒的数据集中有178个样本，所以迭代了178次

为啥要用交叉验证法？

使用网格搜索优化模型参数

1.简单网格搜索

用lasso算法为例：

在Lasso算法中，有两个参数比较重要——正则化参数alpha，最大迭代次数max_iter

默认情况下alpha=1.0,max_iter=1000

假设，想试试当alpha分别取10.0 1.0 0.1 0.01这4个数值，而max_iter 分别取 100 1000 5000 10000时，模型表现有什么差别

如果按照手动调整的话，试16次。。。

#导入套索回归模型
from sklearn.linear_model import Lasso
#导入数据集拆分工具
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(wine.data,wine.target,random_state = 38)
#设置初始分数为0
best_score = 0
#设置alpha的参数遍历0.01，0.1，1，10
for alpha in [0.01,0.1,1,10]:
    #最大迭代数遍历100，1000，5000，10000
    for max_iter in [100,1000,5000,10000]:
        lasso = Lasso(alpha=alpha,max_iter=max_iter)
        #训练套索回归模型
        lasso.fit(X_train,y_train)
        score = lasso.score(X_test,y_test)
        #令最佳分数为所有分数中的最高值
        if score >best_score:
            best_score = score
            #定义字典，返回最佳参数和最佳迭代数
            best_parameters={'alpha':alpha,'最大迭代数':max_iter}
print('最高分：',best_score)
print('最佳参数设置',best_parameters)

最高分： 0.8885499702025688
最佳参数设置 {'alpha': 0.01, '最大迭代数': 100}

【结果分析】

快速找到了~~

局限性：

所进行的16次评分都是基于同一个训练集和测试集，这只能代表模型在该训练集和测试集的得分情况，不能反映出新的数据集的情况

举例：

修改train_test_split的random_state参数：【38--> 0】

#导入套索回归模型
from sklearn.linear_model import Lasso
#导入数据集拆分工具
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(wine.data,wine.target,random_state = 0)
#设置初始分数为0
best_score = 0
#设置alpha的参数遍历0.01，0.1，1，10
for alpha in [0.01,0.1,1,10]:
    #最大迭代数遍历100，1000，5000，10000
    for max_iter in [100,1000,5000,10000]:
        lasso = Lasso(alpha=alpha,max_iter=max_iter)
        #训练套索回归模型
        lasso.fit(X_train,y_train)
        score = lasso.score(X_test,y_test)
        #令最佳分数为所有分数中的最高值
        if score >best_score:
            best_score = score
            #定义字典，返回最佳参数和最佳迭代数
            best_parameters={'alpha':alpha,'最大迭代数':max_iter}
print('最高分：',best_score)
print('最佳参数设置',best_parameters)

最高分： 0.8298747376836272
最佳参数设置 {'alpha': 0.1, '最大迭代数': 100}

【结果分析】

稍微对train_test_split拆分数据集的方式做一点变更，最高分酒降到了0.83

最佳alpha参数为0.1

为了解决这个问题——与交叉验证结合的网格搜索

2.与交叉验证结合的网格搜索

#导入numpy
import numpy as np
#设置alpha的参数遍历0.01，0.1，1，10
for alpha in [0.01,0.1,1.0,10.0]:
    #最大迭代数遍历100，1000，5000，10000
    for max_iter in [100,1000,5000,10000]:
        lasso = Lasso(alpha=alpha,max_iter=max_iter)
        scores = cross_val_score(lasso,X_train,y_train,cv=6)
        score = np.mean(scores)
        #令最佳分数为所有分数中的最高值
        if score >best_score:
            best_score = score
            #定义字典，返回最佳参数和最佳迭代数
            best_parameters={'alpha':alpha,'最大迭代数':max_iter}
print('最高分：',best_score)
print('最佳参数设置',best_parameters)

最高分： 0.8652073211223437
最佳参数设置 {'alpha': 0.01, '最大迭代数': 100}

【结果分析】

这里我们做了一点手脚，就是只用先前拆分好的X_train来进行交叉验证，以便于我们找到最佳参数后，再用来拟合X_test 来看一下模型的得分

#用最佳参数模型拟合数据
lasso = Lasso(alpha=0.01,max_iter=100).fit(X_train,y_train)
print('数据集得分：',lasso.score(X_test,y_test))

数据集得分： 0.819334891919453

【结果分析】

此处，并不是参数的问题，而是lasso算法会对样本的特征进行正则化，导致一些特征的系数变为0，也就是说会抛弃一些特征值

对于酒集来说，本身特征就不多，因此使用lasso进行分类，得分会相对低些

在sklearn中，内置了一个类，GridSearchCV，进行参数调优的过程简单：

#导入网格搜索工具
from sklearn.model_selection import GridSearchCV
#将需要遍历的参数定义为字典
params = {'alpha':[0.01,0.1,1.0,10.0],'max_iter':[100,1000,5000,10000]}
#定义网格搜索中使用的模型和参数
grid_search = GridSearchCV(lasso,params,cv=6)
#使用网格搜索模型拟合数据
grid_search.fit(X_train,y_train)
print('模型最高分:',grid_search.score(X_test,y_test))
print('最优参数：',grid_search.best_params_)

模型最高分: 0.819334891919453
最优参数： {'alpha': 0.01, 'max_iter': 100}

【结果分析】

GridSearchCV中的best_scores_ 属性，会存储模型在交叉验证中所得的最高分，而不是测试集上的得分

#打印网格搜索中的best_score_属性
print('交叉验证最高分：',grid_search.best_score_)

交叉验证最高分： 0.8653192931146032

【结果分析】

这里的得分和cross_val_score得分是完全一致的，说明GridSearchCV 本身就是将交叉验证和网格搜索封装一起的方法

GridSearchCV虽然强悍，但需要反复建模——> 所需要的计算时间往往更长

分类模型的可信度评估

实际上算法在分类过程中，会认为某个数据点80%可能性属于分类1，20%可能性属于分类0，模型会依据“可能性较大”的方式分配分类标签

算法是如何对这种分类的可能性进行计算的？

1.分类模型中的预测准确率

在sklearn中，很多用于分类的模型都有一个 predict_proba功能——用于计算模型在对数据集进行分类时，每个样本属于不同分类的可能性是多少

#导入数据集生成工具
from sklearn.datasets import make_blobs
#导入画图工具
import matplotlib.pyplot as plt
#生成样本数为200，分类为2，标准差为5的数据集
X,y = make_blobs(n_samples=200,random_state=1,centers=2,cluster_std =5)
#绘制散点图
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.cool,edgecolor='k')
plt.show()

使用make_blobs 制作数据集，为了给算法点难度，故意把数据集的方差设高点cluster_std=5

【结果分析】

像评价女朋友衣服——红色--好看，青蓝色—不好看，中间的点—还可以

使用高斯朴素贝叶斯分类：

#导入高斯贝叶斯模型
from sklearn.naive_bayes import GaussianNB
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=68)
#训练高斯贝叶斯模型
gnb = GaussianNB()
gnb.fit(X_train,y_train)
#获得高斯贝叶斯的分类准确概率
predict_proba = gnb.predict_proba(X_test)
print('预测准确率形态：',predict_proba.shape)

预测准确率形态： (50, 2)

【结果分析】

在predict_proba 属性中存储了50个数组【即测试集大小】，每个数组有2个元素

打印一下前5个：

#打印准确概率的前5个
print(predict_proba[:5])

[[0.98849996 0.01150004]
 [0.0495985  0.9504015 ]
 [0.01648034 0.98351966]
 [0.8168274  0.1831726 ]
 [0.00282471 0.99717529]]

【结果分析】

反应的是测试集前5个样本的分类准确率

用图像直观看下predict_proba 在分类过程中的表现：

#设定横纵轴范围
x_min,x_max= X[:,0].min()-.5,X[:,0].max()+.5
y_min,y_max= X[:,1].min()-.5,X[:,1].max()+.5
xx,yy = np.meshgrid(np.arange(x_min,x_max,0.2),np.arange(y_min,y_max,0.2))
Z = gnb.predict_proba(np.c_[xx.ravel(),yy.ravel()])[:,1]
Z = Z.reshape(xx.shape)
#绘制等高线
plt.contourf(xx,yy,Z,cmap=plt.cm.summer,alpha=.8)
#绘制散点图
plt.scatter(X_train[:,0],X_train[:,1],c=y_train,cmap=plt.cm.cool,edgecolor='k')
plt.scatter(X_test[:,0],X_test[:,1],c=y_test,cmap=plt.cm.cool,edgecolor='k',alpha=0.6)
#设置横纵轴范围
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
#设置横纵轴的单位
plt.xticks(())
plt.yticks(())
plt.show()

【结果分析】

圆点代表样本数据

棕色为第一个分类，蓝色为第二个分类，渐变色区域，就是模型觉得“还可以”的部分

2.分类模型中的决定系数

同预测准确率类似，决定系数decision_function 也会给我们返回一些数值——告诉我们模型认为某个数据点处于某个分类的“把握”有多大

不同的是，在二元分类任务中，只返回一个值——正数，属于分类1；负数，属于分类2

高斯朴素贝叶斯没有decision_function属性——> 使用支持向量机SVM算法建模：

#导入SVC模型
from sklearn.svm import SVC
#使用训练集训练模型
svc = SVC().fit(X_train,y_train)
#获得SVC的决定系数
dec_func = svc.decision_function(X_test)
#打印决定系数中的前5个
print(dec_func[:5])

[ 0.02082432  0.87852242  1.01696254 -0.30356558  0.95924836]

图形化展示desicion_function原理：

#使用决定系数绘图
Z = svc.decision_function(np.c_[xx.ravel(),yy.ravel()])
Z = Z.reshape(xx.shape)
#绘制等高线
plt.contourf(xx,yy,Z,cmap=plt.cm.summer,alpha=.8)
plt.scatter(X_train[:,0],X_train[:,1],c=y_train,cmap=plt.cm.cool,edgecolor='k')
#绘制散点图
plt.scatter(X_test[:,0],X_test[:,1],c=y_test,cmap=plt.cm.cool,edgecolor='k',alpha=0.6)
plt.title('SVC decision_function')
#设置横纵轴范围
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
#设置横纵轴的单位
plt.xticks(())
plt.yticks(())
plt.show()

.score给模型评分的方法

对于分类模型来说，默认情况下，.score给出的是模型分类的准确率
对于回归模型来说，默认情况下， .score给出的是回归分析中的R²分数【即，可决系数或拟合优度】

其他评分的方法：

GridSearchCV改变评分的方式：

#修改scoring参数为roc_auc
grid = GridSearchCV(RandomForestClassifier*(,param_grid = param_grid,scoring = 'roc_auc')

这样，模型的参数就是 roc_auc 方式了

posted @ 2019-05-07 21:21 远征i 阅读(2430) 评论(0) 收藏举报

刷新页面返回顶部

自强不息

自强不息

机器学习【十】模型评估与优化

公告