02 Softmax

softmax

softmax 是单层神经网络 可以得到离散的输出结果

Softmax operator 可表达为:\(\hat{y}_{1}, \hat{y}_{2}, \hat{y}_{3}=\operatorname{softmax}\left(o_{1}, o_{2}, o_{3}\right)\)

其中,

\[\hat{y}_{1}=\frac{\exp \left(o_{1}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}, \quad \hat{y}_{2}=\frac{\exp \left(o_{2}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}, \quad \hat{y}_{3}=\frac{\exp \left(o_{3}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)} \]

这时候,如果\(\hat y_2\)= 0:8,不管\(\hat y_1\)\(\hat y_3\)的值是多少,我们都知道图像类别为\(\hat y_2\)的概率是80%。

softmax回归对样本\(i\)分类的矢量计算表达式为:\(\boldsymbol{o}^{(i)}=\boldsymbol{x}^{(i)} \boldsymbol{W}+\boldsymbol{b}\)
\(\hat{\boldsymbol{y}}^{(i)}=\operatorname{softmax}\left(\boldsymbol{o}^{(i)}\right)\)

交叉熵(cross entropy)损失函数

线性回归的平方损失函数 \(\left\|\hat{y}^{(i)}-y^{(i)}\right\|^{2} / 2\) 过于严格,计算得到的损失较大,可考虑交叉熵损失函数 \(H\left(\boldsymbol{y}^{(i)}, \hat{\boldsymbol{y}}^{(i)}\right)=-\sum_{j=1}^{q} y_{j}^{(i)} \log \hat{y}_{j}^{(i)}\)=\(-\log \hat{y}_{y^{(i)}}^{(i)}\)。 若在\(\boldsymbol{y}^{(i)}\)中只有第\(y^{(i)}\)个元素\(y^{(i)}_{y^{(I)}}\)为1,其余为0, 以上等式成立。

可得样本量为\(n\)的数据集交叉熵损失函数为 \(\ell(\Theta)=\frac{1}{n} \sum_{i=1}^{n} H\left(y^{(i)}, \hat{y}^{(i)}\right)\),若每个样本只有一个标签,则\(\ell(\Theta)=-(1/n)\sum^{n}_{i=1}log \hat y^{(i)}_{y^{(i)}}\), 最小化\(\ell(\Theta)\)等价于最大化\(exp(-n\ell(\Theta))=\prod_{i=1}^{n} \hat{y}_{y^{(i)}}^{(i)}\). 即最小化交叉熵损失函数等价于最.化训练数据集所有标签类别的联合预测概率。

posted @ 2020-02-12 20:22  Cui-yd  阅读(116)  评论(0)    收藏  举报