Day01-机器学习基本术语、概念
数据集:关于一个事件或者对象的描述的集合。
属性=特征,属性的取值=特征值;如西瓜的特征(3个)及其特征值可如下描述:色泽=浅白;根蒂=硬挺;敲声=清脆;那么关于西瓜的数据集D就是一堆这些数据:D={(色泽=浅白;根蒂=硬挺;敲声=清脆),..}
示例与维数:示例,又叫样本如(色泽=浅白;根蒂=硬挺;敲声=清脆)就叫做一条示例。D={x1,x2,...xn}就是有n个示例(每一条都记录着西瓜的特征),对于任意的示例xi,它都由西瓜的3个特征组成(色泽,根蒂,敲声),所以维数维3。
训练:从数据中学得模型的过程叫做学习或者训练,训练过程中采用的数据叫训练样本,而所有的训练样本组成的集合叫做训练集。学得模型对应了关于数据本身存在的潜在规律或真相,事实,学习的过程也就是逼近真相的过程,模型又叫学习器。
样例:有标记(标签)的示例。例如((色泽=青绿;根蒂=硬挺;敲声=清脆),好瓜),好瓜即为标记。
有监督学习和无监督学习:有监督学习包括分类,回归。其中分类输出的是离散的值0/1,比如是否好瓜;回归输出的是连续的值,比如房价的预测等等。而无监督学习,比如说聚类,划分为浅色瓜,深色瓜等等。区分有无监督学习的根据是:训练样本时,是否做了标记。
泛化能力:机器学习的目标就是让所学到的模型具有良好的泛化能力,即对于为出现的数据也能拥有良好的分类能力,也就是所希望分类器具有举一反三的能力。一般而言,训练样本越多,得到的关于事物的信息越多,从而模型的泛化能力也变强,但是,也不意味着模型的学习能力越强越好,会出现下面的过拟合等情况。
过拟合与欠拟合:过拟合就是学习的太过头了,它把非事物的共性都当作一般规律来学习了。比如说树叶的锯齿形状当作树叶的一般特征,从而认为圆滑的树叶就判断为非树叶;同理,欠拟合就是学习能力不够,没能掌握到事物的一般规律,比如说把绿色当作是树叶的一般特征,而当测试的是一颗树(也是绿色)的时候,认为也是树叶。一般而言,欠拟合是比较好解决的比如说增加神经网络的训练轮数就行,但是过拟合是几乎无法完美避免的,只能减少过拟合的风险。
归纳与演绎:归纳,其实就是从特殊的个体总结出一般的适应性规律的过程,比如说训练;而演绎恰好相反,就是从一般的规律到特殊个体的过程,例如利用所学模型进行分类判别。
假设空间与版本空间:假设空间就是所有可能的结果组成的大集合,而学习的过程就是对假设空间进行搜索,搜索的目标就是找到与训练集匹配的假设。版本空间就是与训练集一致的假设集合。
归纳偏好:因为如果采用不同的假设对新数据进行判定时会导致不同的判定结果,所以任何的一个机器学习算法都有归纳偏好,否则无法确定学习结果。
错误率与精度:把分类错误的样本占样本总数的比例叫错误率E,精度=1-E;
误差:预测输出与样本的真实输出之间的差异叫做误差,在训练集上的误差叫做训练误差或者经验误差,在新样本上的误差叫泛化误差,都希望泛化误差小,但是事先并不知道新样本是啥样,所以只能希望训练误差小了。在决策树最终成型之后,最终具有共同特征的大部分点代表了这个共同特征的类型,但是有些点即使也有这些特征,它们也像异类一样本身不属于这个大部分群体,但它们也被划分到了这个群体,这就是训练误差。还有验证误差,泛化误差,一般在模型建好之后,以测试集的误差来近似代替泛化误差,因为泛化误差感觉是比较飘渺的东西,所有这些误差都是指的是误差的均值。
评估方法:包括留出法,K折交叉验证法,留一法,自助法。留出法:直接将数据集D划分为两个互斥的集合,一个当作训练集,另外一个当测试集,数据划分过程一般采用分层抽样,70%训练集和30%的测试集。K(一般取10)折交叉验证法,就是将数据集D分为k个大小相似的互斥数据集,然后每次使用k-1个数据集当训练样本,剩下的一个数据集当测试样本,从而进行K次训练和测试,最终返回的是这K次测试结果的平均值。留一法是K折交叉验证法的特殊情况,它把m个样本划分为m个子集,每个子集包含一个样本(而K折交叉法的每个子集有多个样本),所以训练时与初始数据集相比至少了一个样本,所以在大多数情况下,留一法中被实际评估的模型与期望评估的用D训练出来的模型很接近,评估结果往往比较精确,但是在大数据集的情况下,采用留一法会使得计算开销特别大。以上三种做法都有一个通病:那就是由于保留了一部分样本作为测试,这会引入一些因训练样本规模不同而导致的估计误差。留一法虽然受到这样的变化很小,但是计算开销又特别大。而自助法就是一个比较好的解决方案。
自助法:对于给定包含m个样本的数据集D,对它进行采样产生数据集D1,每次随机送D中挑选一个样本拷贝到D1,然后再将样本放回初始数据集D中,使得该样本在下次采样时仍有机会被采集到,这样重复m次之后,D1里面的数据包含了m个样本,其中有些样本有可能多次出现,有些没有出现(大约36.8%),然后将D1作为训练集,D-D1作为测试集合,这样仍然有36.8%的数据没在训练集中出现过的样本用作测试。
调参数与模型评估:调参就是对算法参数的设定,因为参数配置不同,学习出来的模型性能往往有显著的差别。
性能度量:衡量模型泛化能力的评价标准,使用不同的性能度量往往会导致不通的评判结果,模型的好坏时相对的,却决于任务需求而不是算法和数据。回归任务常用的性能度量是均方误差。而分类任务最常用的两种性能度量是错误率与精度。
查准率和查全率,混淆矩阵,F1:查准率和查全率是一对矛盾体,一般来说一个高一个低。查准率也叫准确率,针对的是判别为正例的结果公式为:正例判别为正例(TP)/正例判别为正例(TP)+反例判别为正例(TN),它反映的是判别为正例的占总数的比例;查全率:正例判别为正例(TP)/正例判别为正例(TP)+正例判别为反例,它反映的是针对正例的情况。这些对应于混淆矩阵。
P-R曲线:
ROC与AUC:
非均等代价:不同的犯错类型造成的代价是不一样的,比如说错误地把患者诊断为健康人比错误地把健康人诊断为患者的代价要大,因为前者会出人命,后者只是多一步检查罢了。
模型性能比较的方法:假设检验。
偏差-方差分解:

浙公网安备 33010602011771号