02 Softmax

softmax

softmax 是单层神经网络可以得到离散的输出结果

Softmax operator 可表达为：\(\hat{y}_{1}, \hat{y}_{2}, \hat{y}_{3}=\operatorname{softmax}\left(o_{1}, o_{2}, o_{3}\right)\)

其中，

\[\hat{y}_{1}=\frac{\exp \left(o_{1}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}, \quad \hat{y}_{2}=\frac{\exp \left(o_{2}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}, \quad \hat{y}_{3}=\frac{\exp \left(o_{3}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)} \]

这时候，如果\(\hat y_2\)= 0:8，不管\(\hat y_1\)和\(\hat y_3\)的值是多少，我们都知道图像类别为\(\hat y_2\)的概率是80%。

softmax回归对样本\(i\)分类的矢量计算表达式为：\(\boldsymbol{o}^{(i)}=\boldsymbol{x}^{(i)} \boldsymbol{W}+\boldsymbol{b}\)
\(\hat{\boldsymbol{y}}^{(i)}=\operatorname{softmax}\left(\boldsymbol{o}^{(i)}\right)\)

交叉熵（cross entropy）损失函数

线性回归的平方损失函数 \(\left\|\hat{y}^{(i)}-y^{(i)}\right\|^{2} / 2\) 过于严格，计算得到的损失较大，可考虑交叉熵损失函数 \(H\left(\boldsymbol{y}^{(i)}, \hat{\boldsymbol{y}}^{(i)}\right)=-\sum_{j=1}^{q} y_{j}^{(i)} \log \hat{y}_{j}^{(i)}\)=\(-\log \hat{y}_{y^{(i)}}^{(i)}\)。若在\(\boldsymbol{y}^{(i)}\)中只有第\(y^{(i)}\)个元素\(y^{(i)}_{y^{(I)}}\)为1，其余为0，以上等式成立。

可得样本量为\(n\)的数据集交叉熵损失函数为 \(\ell(\Theta)=\frac{1}{n} \sum_{i=1}^{n} H\left(y^{(i)}, \hat{y}^{(i)}\right)\)，若每个样本只有一个标签，则\(\ell(\Theta)=-(1/n)\sum^{n}_{i=1}log \hat y^{(i)}_{y^{(i)}}\), 最小化\(\ell(\Theta)\)等价于最大化\(exp(-n\ell(\Theta))=\prod_{i=1}^{n} \hat{y}_{y^{(i)}}^{(i)}\). 即最小化交叉熵损失函数等价于最.化训练数据集所有标签类别的联合预测概率。

posted @ 2020-02-12 20:22 Cui-yd 阅读(116) 评论(0) 收藏举报

刷新页面返回顶部

02 Softmax

softmax

交叉熵（cross entropy）损失函数

公告