几何平均比算术平均对极值不敏感。
背景:Deepseek里用算术平均来作为价值函数的替代,后面有人用几何平均改进了训练的稳定性。微博 @马少平 THU 转评:“几何平均对极值不敏感”,我们找AI给个实际的对比:
我们来用实际例子对比一下算术平均和几何平均在面对极值时的表现差异。
⚖️ 定义回顾
| 类型 | 计算方式 | 对极值敏感性 |
|---|---|---|
| 算术平均 | 所有数值求和后除以数量 | 高:极值会显著拉动结果 |
| 几何平均 | 所有数值相乘后开 n 次方 | 低:极值影响被乘法和开方“稀释” |
📊 实例对比:极值影响
示例 1:无极值
数据集:[5, 6, 7]
- 算术平均:$ \frac{5 + 6 + 7}{3} = 6 $
- 几何平均:$ \sqrt[3]{5 \times 6 \times 7} \approx 5.96 $
两者非常接近。
示例 2:加入极大值
数据集:[5, 6, 100]
- 算术平均:$ \frac{5 + 6 + 100}{3} = 37 $
- 几何平均:$ \sqrt[3]{5 \times 6 \times 100} \approx 17.1 $
👉 算术平均被极值严重拉高,而几何平均仍保持相对稳健。
示例 3:加入极小值
数据集:[5, 6, 0.1]
- 算术平均:$ \frac{5 + 6 + 0.1}{3} \approx 3.7 $
- 几何平均:$ \sqrt[3]{5 \times 6 \times 0.1} \approx 2.3 $
👉 算术平均下降,但几何平均下降更明显,因为乘积中极小值会“压制”整体。
🧠 总结
- 算术平均适合数据分布均匀的场景,如考试成绩、温度记录。
- 几何平均适合处理乘法关系或比例变化,如投资回报率、模型奖励函数。
- 在有极值的情况下,几何平均更稳健,不容易被“绑架”。
如果你正在设计某种奖励机制或聚合策略,选择哪种平均方式会直接影响系统的稳定性和鲁棒性。

浙公网安备 33010602011771号