机器学习1

一,数据

1.数据集:100个西瓜

2.样本:1个西瓜

3.特征向量:甜度,大小,颜色

4.属性:颜色(特征向量中间的一个)

二,学习算法

三,得到模型:

有监督学习,无监督学习

有监督学习的分类:二分类(两个最终解,摘还是不摘),多分类(多个最终解,买哪一种西瓜),回归(预测第二年的价格)

无监督学习:聚类(我们不知道分几类,机器自己分)

进行预测

1.测试

2.测试样本

3.泛化能力,泛化指的是处理没见过的数据的能力

四,归纳模型:

同一个数据集训练出不同的模型,如何选择模型

原则:奥卡姆剃刀(选择最简单的那一个)

      第二章    模型评估与选择

一种训练集一种算法

1.经验误差与过拟合:m为样本的数量,假设有1000张图片。每张图片有自己的正确的结果,比如第一张图代表1,第二张图

代表7。使用模型进行预测,统计出错误的个数a。则我们可以通过错误率来衡量模型好坏,错误率E=a/m。精度=1-E

2.模型的评估方法:

训练集:

测试集:

测试集的保留方法:留出法——三七分(前七年训练集,后三年测试集)

k折交叉验证——训练集是整个数据d,将数据d拆分成di块,每次抽出来一块,然后用那一块当成测试集进行测试,最后

将i个测试结果进行平均

验证集:

为了调参,常常会加上一个数据集,验证集。训练集训练,验证集看结果,调参,再看验证集结果。参数调完,最后再上测试集看结果

性能度量公式:

 

 

错误率:

算出来的fx和原来坐标的y值进行比较,相同为1,不同为0。将所有数据进行判断然后再除以总个数

查准率:

 

 

 

 PR反向变动

 

 threashold意思是分界线,分界线右边的判为是,分界线左边的判别成不是

precision是查准率,就拿最中间的那个分界线来说,查准率是右边有56555五个数字,分界线右边查到了4个,因此查准率为4/5

recall是查全率,就拿最中间的那个分界线来说,查全率是不看分界线总共有6个五,然后分界线右边查到了4个,因此为4/6

查全率与查准率呈现反向关系

最优阈值(分界线的确定):pr的最优秀分界点:

1.P=R查准率等于查全率的点

2.用调和平均数求f1

 

 

 

 3.fbata

 

 

 

以上是二分类的问题,只有一个二分类的问题。如果是多分类问题,就会有多个PR图

解决方法1:

将把所有的p平均成杠p,将把所有的R平均成杠R,再进行后面的计算

解决方法2:

将把所有的TP,FP,TN,FN平均出来,再进行后面的计算

利用PR图对模型好坏进行评估

 

 A和B肯定是优于C,因为相同的查全率的情况下C的查准率必定最低。但是A和B的比较就需要判断

可以用f1或者fbeta求出分界点,然后再进行相应的比较查全率下的查准率

 

一种训练集多种算法

ROC

 

 

 

 D+指的是猜对的个数   D-指的是猜错的个数     m+代表正确的5的个数   m-代表不是5的个数   

 

posted @ 2020-12-22 22:40  克莱比-Kirby  阅读(121)  评论(0)    收藏  举报