随笔分类 - F、机器学习知识点
摘要:1.什么是过拟合? 过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。 具体表现就是最终模型在训练集上效果好;在测试集上效果差。模型泛化能力弱。 2、产生过拟合根本原因: (1)观察值与真实
阅读全文
摘要:避免过拟合的基本方法之一是从数据源获得更多数据,当训练数据有限时,可以通过数据增强(data augmentation)变换原有的数据生成新的数据来扩大训练集。即使拥有大量数据,进行数据增强也是有必要的,因为可以防止神经网络学习到不相干的模式,从根本上提升整体性能。还要注意在使用增强技术的同时,必须
阅读全文
摘要:一、介绍 本篇文章,我们将讨论所谓的“维度灾难”,并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释,并通过一个由于维度灾难导致的过拟合的例子来讲解。 考虑这样一个例子,我们有一些图片,每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做
阅读全文
摘要:1、定义 这里所说的偏差-方差分解就是一种解释模型泛化性能的一种工具。它是对模型的期望泛化错误率进行拆解。 样本可能出现噪声,使得收集到的数据样本中的有的类别与实际真实类别不相符。对测试样本 x,另 yd 为 x 在数据集中的标记,y 为真实标记,f(x;D) 为训练集D上学得模型 f 在 x 上的
阅读全文
摘要:类别不平衡问题指分类任务中不同类别的训练样本数目差别很大的情况。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。一个例子,训练集中有99个正例样本,1个负例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃负
阅读全文
摘要:从二分类到多分类,实际采用的是拆解法思想:将多分类问题拆分成许多二分类问题,为每一个二分类问题训练一个分类器。测试时,对这些分类器的结果进行集成,得到最终预测结果。 根据拆分策略不同,分为以下三类: 一对一(One vs. One, OvO) 训练:将N个类别两两配对,产生N(N−1)/2个二分类任
阅读全文
摘要:1、剔除野值点(离群点) 野值点定义为与相应随机变量的中心点相距很远的点,这个距离通常是标准差的整数倍。例如,对于服从正态分布的随机变量,95%的点都在标准差的两倍距离内,而3倍距离则包含了99%的点。 在训练阶段,使用远离平均值的点训练,可能会对学习产生较大的误差,由此影响学习性能。若野值点是噪声
阅读全文
摘要:转自:https://blog.csdn.net/xierhacker/article/details/72673207(ps:这个博主其他的博文都很精彩)
阅读全文
摘要:最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。
阅读全文

浙公网安备 33010602011771号