交叉熵与softmax

交叉熵

\[H(p,q)=-\sum\limits_{x}p(x)\log q(x) \]

它刻画的是通过概率分布q来表达概率分布p的困难程度。交叉熵作为神经网络的损失函数时，p代表正确答案，q代表预测值，它刻画两个概率分布的距离，即交叉熵越小，两个概率分布越近。

或写为

\[\sum_ip_k\times \log_2(\frac{1}{q_k}) \]

\(p_k\)表示真实分布，\(q_k\)表示非真实分布

假如一个真实分布的概率为\((\frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{8})\)一个非真实分布的概率为\(\frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4}\)，那么交叉熵为

\[\begin{align} &\frac{1}{2}\times\log_2(4)+\frac{1}{4}\times\log_2(4)+\frac{1}{8}\times\log_2(4)+\frac{1}{8}\times\log_2(4)\\ &=1+\frac{1}{2}+\frac{1}{4}+\frac{1}{4}\\ &=2 \end{align} \]

交叉熵又可以写为

\[CE(y,\hat{y})=-\sum_iy_i\times \log(\hat{y_i}) \]

Softmax

\[softmax(y_i)=y_i^{'}=\frac{e^{y_i}}{\sum_{j=1}^ne^{y_j}} \]

概率函数与概率分布函数

概率函数

概率函数，就是用函数的形式表达概率。

在离散型随机变量中，其表示的是变量取某一值的概率，如抛骰子，每个点的概率为\(\frac{1}{6}\)。

连续型随机变量的概率函数称为“概率密度函数”。用数学公式表示为定积分，可理解为几何面积。

概率分布函数

概率分布，关键在于分布。它是一个个概率函数的累加。

正太分布

正太分布又称为高斯分布，Normal、Gaussian。

其概率密度度函数为

\[f(x)=-\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) \]

posted @ 2020-05-13 15:44 hi_heisen 阅读(230) 评论(0) 收藏举报

刷新页面返回顶部

hi_heisen