机器学习1

一，数据

1.数据集：100个西瓜

2.样本：1个西瓜

3.特征向量：甜度，大小，颜色

4.属性：颜色（特征向量中间的一个）

二，学习算法

三，得到模型：

有监督学习，无监督学习

有监督学习的分类：二分类（两个最终解，摘还是不摘），多分类（多个最终解，买哪一种西瓜），回归（预测第二年的价格）

无监督学习：聚类（我们不知道分几类，机器自己分）

进行预测

1.测试

2.测试样本

3.泛化能力，泛化指的是处理没见过的数据的能力

四，归纳模型：

同一个数据集训练出不同的模型，如何选择模型

原则：奥卡姆剃刀（选择最简单的那一个）

　　　　　　第二章模型评估与选择

一种训练集一种算法

1.经验误差与过拟合：m为样本的数量，假设有1000张图片。每张图片有自己的正确的结果，比如第一张图代表1，第二张图

代表7。使用模型进行预测，统计出错误的个数a。则我们可以通过错误率来衡量模型好坏，错误率E=a/m。精度=1-E

2.模型的评估方法：

训练集：

测试集：

测试集的保留方法：留出法——三七分（前七年训练集，后三年测试集）

k折交叉验证——训练集是整个数据d，将数据d拆分成di块，每次抽出来一块，然后用那一块当成测试集进行测试，最后

将i个测试结果进行平均

验证集：

为了调参，常常会加上一个数据集，验证集。训练集训练，验证集看结果，调参，再看验证集结果。参数调完，最后再上测试集看结果

性能度量公式：

错误率：

算出来的fx和原来坐标的y值进行比较，相同为1，不同为0。将所有数据进行判断然后再除以总个数

查准率：

PR反向变动

threashold意思是分界线，分界线右边的判为是，分界线左边的判别成不是

precision是查准率，就拿最中间的那个分界线来说，查准率是右边有56555五个数字，分界线右边查到了4个，因此查准率为4/5

recall是查全率，就拿最中间的那个分界线来说，查全率是不看分界线总共有6个五，然后分界线右边查到了4个，因此为4/6

查全率与查准率呈现反向关系

最优阈值（分界线的确定）：pr的最优秀分界点：

1.P=R查准率等于查全率的点

2.用调和平均数求f1

3.fbata

以上是二分类的问题，只有一个二分类的问题。如果是多分类问题，就会有多个PR图

解决方法1：

将把所有的p平均成杠p，将把所有的R平均成杠R,再进行后面的计算

解决方法2：

将把所有的TP,FP,TN,FN平均出来,再进行后面的计算

利用PR图对模型好坏进行评估

A和B肯定是优于C，因为相同的查全率的情况下C的查准率必定最低。但是A和B的比较就需要判断

可以用f1或者fbeta求出分界点，然后再进行相应的比较查全率下的查准率

一种训练集多种算法

ROC

D+指的是猜对的个数 D-指的是猜错的个数 m+代表正确的5的个数 m-代表不是5的个数

posted @ 2020-12-22 22:40 克莱比-Kirby 阅读(123) 评论(0) 收藏举报

刷新页面返回顶部