网络结构

  手写数字识别的输入是28×2828×28的像素值,输出是0~9的数字标签,而线性回归模型无法捕捉二维图像数据中蕴含的复杂信息。

  需要尝试使用其他更复杂、更强大的网络来构建手写数字识别任务,使用两种常见的网络结构:经典的多层全连接神经网络和卷积神经网络。

  经典的全连接神经网络来包含三组网络:输入层、多个隐含层和输出层

    输入层:将数据输入给神经网络。在该任务中,输入层的尺度为28×28的像素值。

    隐含层:增加网络深度和复杂度,隐含层的节点数是可以调整的,节点数越多,神经网络表示能力越强,参数量也会增加。在该任务中,中间的两个隐含层为10×10的结构,通常隐含层会比输入层的尺寸小,以便对关键信息做抽象,激活函数使用常见的Sigmoid函数。

    输出层:输出网络计算结果,输出层的节点数是固定的。如果是回归问题,节点数量为需要回归的数字数量。如果是分类问题,则是分类标签的数量。在该任务中,模型的输出是回归一个数字,输出层的尺寸为1。

  tips:隐含层引入非线性激活函数Sigmoid是为了增加神经网络的非线性能力。

 

  虽然使用经典的全连接神经网络可以提升一定的准确率,但其输入数据的形式导致丢失了图像像素间的空间信息,这影响了网络对图像内容的理解。对于计算机视觉问题,效果最好的模型仍然是卷积神经网络。卷积神经网络针对视觉问题的特点进行了网络结构优化,可以直接处理原始形式的图像数据,保留像素间的空间信息,因此更适合处理视觉问题。

  卷积神经网络由多个卷积层和池化层组成。卷积层负责对输入进行扫描以生成更抽象的特征表示,池化层对这些特征表示进行过滤,保留最关键的特征信息。

posted @ 2023-10-30 21:21  花都八达鸟  阅读(67)  评论(0)    收藏  举报