几何平均比算术平均对极值不敏感。

背景：Deepseek里用算术平均来作为价值函数的替代，后面有人用几何平均改进了训练的稳定性。微博 @马少平 THU 转评：“几何平均对极值不敏感”，我们找AI给个实际的对比：

我们来用实际例子对比一下算术平均和几何平均在面对极值时的表现差异。

类型	计算方式	对极值敏感性
算术平均	所有数值求和后除以数量	高：极值会显著拉动结果
几何平均	所有数值相乘后开 n 次方	低：极值影响被乘法和开方“稀释”

数据集：[5, 6, 7]

两者非常接近。

数据集：[5, 6, 100]

👉 算术平均被极值严重拉高，而几何平均仍保持相对稳健。

数据集：[5, 6, 0.1]

👉 算术平均下降，但几何平均下降更明显，因为乘积中极小值会“压制”整体。

如果你正在设计某种奖励机制或聚合策略，选择哪种平均方式会直接影响系统的稳定性和鲁棒性。

posted @ 2025-08-06 18:42 ffl 阅读(39) 评论(0) 收藏举报

刷新页面返回顶部

Feilong's Blog