信息论之联合熵、边缘熵、条件熵、交叉熵

联合熵（Joint Entropy）是信息论中的一个重要概念，它衡量的是两个或多个随机变量作为一个整体的平均不确定性。

边缘熵（Marginal Entropy）是信息论中的一个概念，它指的是在多变量概率分布中，仅考虑单个随机变量时的熵值。

这编辑框不支持特殊数学符号，打字也困难，直接贴上书上的图片。

1B3C1D8B4A0165FA44D3D272B12357DA

简单来说，熵𝐻(𝑋)衡量单个随机变量 𝑋 的信息量或不确定性。联合熵 𝐻 (𝑋,𝑌) 则衡量同时观察到变量𝑋和变量 𝑌 的值所带来的总不确定性或平均信息量。

例如，如果你要预测一个人的身高（变量 X）和体重（变量 Y）：

DBABC6169E5344F6E7DD9F720E9200E0

E74C80E626D3C9CA187EBF8133AAB23D

总结

联合熵是衡量多个变量集体不确定性的度量，是理解和量化复杂数据关系的基础工具，在机器学习、自然语言处理和数据压缩等领域都有重要应用。

交叉熵（Cross-Entropy）是信息论中的一个重要概念，在机器学习，尤其是分类任务中被广泛用作损失函数（Loss Function）。它主要用于衡量两个概率分布之间的差异。

核心定义与作用

在机器学习的背景下，交叉熵衡量的是：

目标：训练模型时，我们希望模型的预测分布𝑄尽可能接近真实分布𝑃。最小化交叉熵损失，就是使模型学会准确地预测每个样本所属的类别概率。

7049423FED1AC9C3F7B557B44F949668

4FC6A24C909D22E3860C3E8A01740325

为什么使用交叉熵作为损失函数？

摘自：《信息论》

posted @ 2025-10-31 17:10 PKICA 阅读(25) 评论(0) 收藏举报

刷新页面返回顶部