随笔分类 - 机器学习
摘要:一、AUC AUC:随机挑选一个正样本和一个负样本,分类算法将这个正样本排在负样本前面的概率就是AUC。AUC越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。 计算方法: 1、绘制ROC曲线,ROC曲线下的面积就是AUC的值 2. 假设总共有(m+n)个样本。其中正样本m个,负
阅读全文
摘要:一、什么是过拟合? 简单的说,就是对模型过度训练,把"训练数据学的太好了"。如下图所示: 通过上图可以看出,随着训练的进行,训练损失逐渐减小,而验证损失先降后升,此时便发生了过拟合。即模型的复杂度升高,但是泛化能力却降低。 降低过拟合的方法:数据集扩增(Data augmentation)、正则化(
阅读全文
摘要:一、数据为什么需要归一化处理? 归一化的目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异对模型的影响。 方法: 1. 极差变换法 2. 0均值标准化(Z-score方法) 1. Max-Min(线性归一化) Max-Min归一化是对原始数据进行线性变化,利用
阅读全文

浙公网安备 33010602011771号