深度学习基础【第一周】
1.Pytorch基础
PyTorch是一个python库,它主要提供了两个高级功能:
GPU加速的张量计算
构建在反向自动求导系统上的深度神经网络
定义数据
一般定义数据使用torch.Tensor , tensor的意思是张量,是数字各种形式的总称。张量是基于标量和矢量向更高维度的推广,它通过将一系列具有某种共同特征的数进行有序的组合来表示一个更加广义的“数“。

Tensor支持各种各样类型的数据,包括:
torch.float32, torch.float64, torch.float16, torch.uint8, torch.int8, torch.int16, torch.int32, torch.int64 。

定义操作
Tensor进行各种运算的,都是Function.最终,还是需要用Tensor来进行计算的,计算无非是
基本运算,加减乘除,求幂求余 布尔运算,大于小于,最大最小 线性运算,矩阵乘法,求模,求行列式
基本运算包括: abs/sqrt/div/exp/fmod/pow ,及一些三角函数 cos/ sin/ asin/ atan2/ cosh,及 ceil/round/floor/trunc
布尔运算包括: gt/lt/ge/le/eq/ne,topk, sort, max/min
线性计算包括: trace, diag, mm/bmm,t,dot/cross,inverse,svd 等
torch.Tensor默认的数据类型是32位float类型,而v返回的是Long类型,所以将v转换为float类型后在进行运算


生成 1000 个随机数,并按照 100 个 bin 统计直方图

当数据非常非常多的时候,正态分布会体现的非常明显

torch.cat拼接矩阵

2.螺旋数据分类
引入基本的库,然后初始化重要参数,初始化 X 和 Y。 X 可以理解为特征矩阵,Y可以理解为样本标签。 结合代码可以看到,X的为一个 NxC 行, D 列的矩阵。C 类样本,每类样本是 N个,所以是 N*C 行。每个样本的特征维度是2,所以是 2列。

在 python 中,调用 zeros 类似的函数,第一个参数是 y方向的,即矩阵的行;第二个参数是 x方向的,即矩阵的列,下面结合代码看看 3000个样本的特征是如何初始化的。


2.1构建线性模型分类

这里对上面的一些关键函数进行说明:
使用 print(y_pred.shape) 可以看到模型的预测结果,为[3000, 3]的矩阵。每个样本的预测结果为3个,保存在 y_pred 的一行里。值最大的一个,即为预测该样本属于的类别score, predicted = torch.max(y_pred, 1) 是沿着第二个方向(即X方向)提取最大值。最大的那个值存在 score 中,所在的位置(即第几列的最大)保存在 predicted 中。下面代码把第10行的情况输出,供解释说明。此外,每一次反向传播前,都要把梯度清零。


上面使用 print(model) 把模型输出,可以看到有两层:
第一层输入为 2(因为特征维度为主2),输出为 100; 第二层输入为 100 (上一层的输出),输出为 3(类别数) 从上面图示可以看出,线性模型的准确率最高只能达到 50% 左右,对于这样复杂的一个数据分布,线性模型难以实现准确分类。
2.2构建两层神经网络分类


大家可以看到,当我们从线性模型换成在两个 nn.linear() 模组再经过一个 nn.ReLU() 的模型,正确度增加到了 95%。这是因为边界变成非线性的并且更好的顺应资料的螺旋,分类的准确率得到了显著提高。
3.问题总结
3.1、AlexNet有哪些特点?为什么可以比LeNet取得更好的性能?
1.更深的网络结构
2.使用层叠的卷积层,即卷积层+卷积层+池化层来提取图像的特征
3.使用Dropout抑制过拟合
4.使用数据增强Data Augmentation抑制过拟合5使用Relu替换之前的sigmoid的作为激活函数
5.多GPU训练
其结构图如下图所示:
AlexNet比LeNet更深更宽,将激活函数由sigmoid改为更简单的ReLU,并通过dropout来控制模型复杂度,同时AlexNet引入了图像增广。ReLU可以提供一个稳定的梯度提高收敛速度,通过丢弃法可以抑制过拟合提高模型的泛化性,图像增广提高了数据的丰富性,所以AlexNet可以取得比LeNet更好的性能。
3.2、激活函数有哪些作用?
激活函数的主要作用是改变之前数据的线性关系,如果网络中全部是线性变换,则多层网络可以通过矩阵变换,直接转换成一层神经网络。所以激活函数的存在,使得神经网络的“多层”有了实际的意义,使网络更加强大,增加网络的能力,使它可以学习复杂的事物,复杂的数据,以及表示输入输出之间非线性的复杂的任意函数映射。激活函数的另一个重要的作用是 执行数据的归一化,将输入数据映射到某个范围内,再往下传递,这样做的好处是可以限制数据的扩张,防止数据过大导致的溢出风险。
3.3、梯度消失现象是什么?
在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类准确率反而下降了。这种现象叫做消失的梯度问题。字面理解,梯度消失,好比你在往下走楼梯,楼梯的梯度很小,你感觉不到在下楼......
3.4、神经网络是更宽好还是更深好?
模型复杂度与其容量有关,而所谓容量就是拟合各种函数的能力。机器学习界早就知道,如果能增强一个学习模型的复杂度,那它的学习能力往往能得到提升。怎样提高复杂度呢?对神经网络模型来说,很明显有两个办法:把模型加深,或把模型加宽。另一方面,神经网络不是越深越好,也不是越宽越好,并且由于计算量的限制或对于速度的需求,如何用更少的参数获得更好的准确率无疑是一个永恒的追求。深度的提升带来了更强大的表达能力和逐层的特征学习,宽度让每一层学习到更加丰富的特征,比如不同方向,不同频率的纹理特征.
3.5、为什么要使用Softmax?
softmax将输出的分类结果映射到(0-1)之间,将神经网络的分类结果转化成对应的概率。不同的概率,表示此样本属于对应类别的可能性大小,概率越大,样本属于该分类的可能性越大。概率的总和为1。
3. 6、SGD 和 Adam 哪个更有效?
Adam 和 SGD 都是常用的优化器,各有优缺点,具体选择应该根据具体问题和数据集的情况来决定。
Adam 优化器结合了 momentum 和 RMSProp 两种优化技术,它在梯度下降过程中既可以考虑历史梯度的平均值,也可以考虑历史梯度的方差,能够更快地收敛到最优解,并且通常需要较少的超参数调整。Adam 适用于处理大规模数据和参数的情况,并且通常比 SGD 的收敛速度更快。
相比之下,SGD 优化器是一种经典的优化器,它只考虑当前的梯度方向进行更新,容易受到数据噪声的影响,训练不稳定。因此可能会需要更小的学习率,才能达到良好的收敛性能。但是,SGD 的实现相对简单,具有较低的计算开销,并且在一些数据集和模型中可能比 Adam 更有效。
一般而言,Adam 比 SGD 更容易过拟合,因为它考虑了历史梯度的平均值,可能导致过于自信地更新参数。当训练数据较少时,可以尝试使用 SGD 或其变种(例如带动量的 SGD)以避免过拟合。
综上所述,Adam 和 SGD 都有各自的优点和缺点,应该根据具体情况选择。通常来说,Adam 更适合用于处理大规模数据集和模型,而 SGD 更适合用于小规模数据集和模型。

浙公网安备 33010602011771号