随笔分类 - 机器学习
摘要:什么是样本不平衡 对于二分类问题,如果两个类别的样本数目差距很大,那么训练模型的时候会出现很严重的问题。举个简单的例子,猫狗图片分类,其中猫有990张,狗有10张,这时候模型只需要把所有输入样本都预测成猫就可以获得99%的识别率,但这样的分类器没有任何价值,它无法预测出狗。 类别不平衡(class-
阅读全文
摘要:问题 考虑这么一个场景:有一份人脸数据集 \(X\in R^{p\times a\times b}\),该数据集包括b个人,每个人有a张图片,每张图片含p个像素。我们用这份数据集进行人脸识别模型的训练,而模型输入为训练样本 \(X_{train}\in R^{p\times n}\) 训练标签 \(
阅读全文
摘要:引言 解释变量直接存在严重的多重共线性时,用普通的最小二乘法估计模型参数,往往参数估计方差太大,效果很不理想。岭回归是一种改进的最小二乘回归,它通过给 \(X'X\) 加一个正常数矩阵 \(kI(k>0)\) 以偏离奇异,从而使模型稳定。本文先介绍多重共线性的起因及造成的后果,随后讲解岭回归,说明其
阅读全文