动手学深度学习v2-09-01-Softmax回归

一、softmax回归

softmax回归实际上是用于解决分类问题的。

1. 回归和分类的区别

2.如何从回归转换到分类

3.分类问题

一般的分类问题并不与类别之间的自然顺序有关。
发明了一种表示分类数据的简单方法：独热编码（one-hot encoding）。独热编码是一个向量，它的分量和类别一样多。类别对应的分量设置为1，其他所有分量设置为0。在我们的例子中，标签 y 将是一个三维向量，其中 (1,0,0) 对应于“猫”、 (0,1,0) 对应于“鸡”、 (0,0,1) 对应于“狗”：

4.网络结构

softmax回归也是一个单层神经网络。由于计算每个输出 o1、o2和o3取决于所有输入x1、x2、x3和x4 ，所以softmax回归的输出层也是全连接层。

5.全连接层的参数开销

在深度学习中，全连接层无处不在。然而，顾名思义，全连接层是“完全”连接的，可能有很多可学习的参数。
对于任何具有d个输入和q个输出的全连接层，参数开销为O(dq)
将 d 个输入转换为 q 个输出的成本可以减少到 O(\(\frac{dq}{n}\)) ，其中超参数 n 可以由我们灵活指定，以在实际应用中平衡参数节约和模型有效性

6.softmax运算

采取的主要方法是将模型的输出视作为概率。我们将优化参数以最大化观测数据的概率。为了得到预测结果，我们将设置一个阈值，如选择具有最大概率的标签。

为了将未归一化的预测变换为非负并且总和为1，同时要求模型保持可导。我们首先对每个未归一化的预测求幂，这样可以确保输出非负。为了确保最终输出的总和为1，我们再对每个求幂后的结果除以它们的总和。

结论：尽管softmax是一个非线性函数，但softmax回归的输出仍然由输入特征的仿射变换决定。因此，softmax回归是一个线性模型。

7 损失函数

我们需要一个损失函数来度量预测概率的效果。

7.1 对数似然

7.2 交叉熵损失

所有标签分布的预期损失值。
分类问题最常用的损失之一
从两方面来考虑交叉熵分类目标：（i）最大化观测数据的似然；（ii）最小化传达标签所需的惊异。

8 模型预测和评估

在训练softmax回归模型后，给出任何样本特征，我们可以预测每个输出类别的概率。
通常我们使用预测概率最高的类别作为输出类别。
如果预测与实际类别（标签）一致，则预测是正确的。

9 小结

posted @ 2021-10-29 20:11 Trouvaille_fighting 阅读(95) 评论(0) 收藏举报

刷新页面返回顶部