机器学习之常见的模型评估指标
R² 决定系数 (R-Squared)
R²衡量的是:你的回归模型能解释「目标变量 (y)」的变异的百分比,也可以通俗理解为:模型的预测值和真实值的「拟合程度 / 吻合程度」,例如R²: 0.8256代表你的模型能解释目标变量 82.56% 的变化规律,剩下的 17.44% 是模型无法解释的随机误差 / 未知因素。
R²的取值区间:
- → 完美拟合,模型预测值 ≡ 真实值,几乎不可能出现;
- → 模型的预测效果 ≡ 直接预测「目标变量的均值」,模型完全无效;
- → 模型预测效果不如直接算均值,模型彻底失效(大概率是特征选的太差 / 模型结构错误);
R² 是回归任务的「核心核心指标」,优先级高于所有误差类指标(MSE/RMSE/MAE),因为它是归一化的无量纲指标(和目标变量的量纲无关),可以直接对比不同回归任务的模型好坏,而误差类指标和目标变量的单位挂钩。
MSE 均方误差 (Mean Squared Error)
MSE = 所有测试样本的「真实值 - 预测值」的平方,求平均值。
MSE 衡量的是:模型预测值和真实值的「平均平方误差」,对大的误差会做平方放大惩罚 → 对「预测偏差大的样本」非常敏感。
MSE 的取值区间:
最最常用的回归指标,本质是「MSE 的修正版」,解决了 MSE 的「量纲不一致」问题,衡量的是:模型预测值和真实值的「平均偏差」。
情况 1:正常拟合(最优状态)
训练集 R² ≈ 测试集 R²(比如训练 0.85,测试 0.82),且两者都比较高;训练集误差 ≈ 测试集误差,且两者都比较小 → 模型学到了数据的真实规律,泛化能力优秀,无过拟合 / 欠拟合。
情况 2:过拟合
训练集 R² 远大于 测试集 R²(比如训练 0.95,测试 0.70);训练集误差 远小于 测试集误差 → 模型把「训练数据的规律 + 训练数据的噪声 / 随机误差」都学进去了,在训练集上表现极好,但在新数据上表现拉胯,泛化能力差。
情况 3:欠拟合
训练集 R² 和 测试集 R² 都很低(比如都<0.6),且两者数值接近;训练集误差和测试集误差都很大 → 模型太简单,连训练数据的基本规律都没学会,拟合能力不足。
总结:
R² :拟合度,越接近 1 越好,核心指标;
RMSE:平均偏差,和目标变量同单位,越接近 0 越好,最常用误差指标;
MAE:稳健平均偏差,对异常值不敏感,越接近 0 越好;
均值 ± 标准差:均值看性能,标准差看稳定性,越小越稳;
核心参考:只看测试集指标,训练集指标仅判断过拟合;
最优模型:高均值 + 低标准差。

浙公网安备 33010602011771号