Neural Network&Convolutional Neural Network

深度学习越是浅层的网络越是局部的特征，越是深度的网络越是全局的特征
因为，深层的卷积的上一层是浅层的卷积

神经网络原理

W是一个权重函数，x是分割的个数,b是偏置函数，因为输出结果有3个，是一个"权重参数矩阵"

如果结果不对要怎么调整呢？

就是提出来特征

计算机视觉

面临的挑战：跨域

对于炒股不能用ai

学习的是历史的规律

因为人的社会是一直在变的，所以过去的不能用于现在

技术不值钱，做成产品值钱

权重参数W：

这个值可以随机初始化，也可以去找别人训练好的模型的参数进行训练，预训练模型再用

网络结构和损失函数的设计是目标检测的关键

损失函数

限制限制错误就是损失函数

wx+b有一个预测值，这个值x与y的差值就是损失值
就是我预测错的多少的一个表示，差的太大了，损失肯定大呀

首先我们要把差异化映射出来，就用一个指数函数，大的正数越大，差距也大，负数的值都是0
然后进行归一化计算概率
对于每个值计算损失值

用对数函数，越接近1绝对值值越小，越接近0越大，这样就可以很明显看出损失值大小

然后-log就更加合理恒为正

正则化

惩罚忽大忽小的

第一个的值大，惩罚大，避免过拟合

过拟合：就是所有的特征都倾向于一个方向

第一次群架打头，下一次我带头盔你还打头，效果就很差了，所以要泛化遍布全身才能达到最佳效果

开始前要人为去除坏点

反向传播

怎么利用损
失值把特征值修改达到损失值最小

梯度

沿着梯度的反方向去更新就叫做梯度下降，按切线方向下降最快

调小学习率越小越好，因为每个点的切线方向改变的都很大

0.01 0.001

LR(学习率):warmup

就是前期的500次这样的学习率调低点，因为如果前期不正确后面越来越错

前期慢慢升，升到正常值一段时间，最后那点在慢慢下降

batch

一次迭代的个数，就是一个平均
越大越好 300 足够
GPT-3 300w

集群去训练，算法有上限

论文不要用公用数据集

动量 momentum

一般0.9 0.95

每次梯度方向都在改变，而且变得特别大

没有动量的样子：

动量就是一个惯性，下一次更新时保存一些上次的方向。

就是一个力的合成，2'更容易接近红星，得到最优解

0.9就是原来长度90%就是虚线的长度，用来和下次拟合

梯度消失，梯度爆炸

梯度消失

前者是梯度越削越小，成0了

每个权重参数都是独立的

梯度爆炸

这个大的值，特别大，导致对结果其了决定性的影响

出现的原因：
数据本身有异常点，还有错误点

整体结构

神经网络不可解释

FC:全连接

对特征做变换，改变网络的权重

加层数就是线性的但是我们期望是非线性的

数据预处理

在输入之前数据已经经过预处理，但是在进行过程中数据又开始乱了

所有每次进行完后都要进行BN进行标准化，然后relu就是非线性映射

参数初始化

初始化参数小一些

Drop-out

随机删掉一些特征，看能不能还能识别出正确结果

防止过拟合

Convolutional Neural Network

最近很多火的模型都是cnn出来的
传统神经网络主要用于结构化的数据

传统的就只要学一个树模型就行

里面的每个红色的块就是一个卷积核，卷积核的里买的每一个值都是随机-生成的，然后就可以和左边算“内积”，不是矩阵乘法，是对应位置相乘再求和

第一步：

1+01+01+0-1+1-1+10+0-1+11+10=0
第一个的内积就是0

同理：

第二个内积就是2，第三个内积是0

第二步：把每个的内积再求和
0+2+0=2
第三步：加上bias （偏置）

2+1=3
所以第一个窗口第一个位置的特征值就是3

同理
算第二个位置的特征值：

第三个：

得到一个特征图

重点：

卷积核越小约好，走的慢，窗口多，特征多，更加详细，卷积目的就是：提特征数
卷积核越多越好，第二个卷积核得到了一个不同的特征
pad
加上一圈0
因为：如果不加上边界，内部的点都被算了两次，这样就对边界的点有偏见，所以我们应当加上一圈进行补偿这就没了这样的偏见

卷积的公式

H2：输出的特征矩阵
H1: 输入的图像的矩阵
F:Filter size 就是卷积核大小?
P :pad 因为上下左右都加了，所以p*2
S :步长每次向前一次走几个格子
S越大特征图越小，S越小特征图越大

32-5+2*2/1+1=32

如果是小数，pytorch 就下取整

参数共享

理论上将不同的地方提取特征的参数应当不一样，但是因为运算的原因，我们只能使用同一个参数对整个使用

一次的训练每次都用同一批卷积核，实现共享，方便分析
每一个这个都是一个权重参数，也就是一个卷积核

所以：

10个553就有750个参数，10个filter就有10个b，所以，就有760个权重参数

Max Polling

最大池化就是选择最大的作为这一块的特征
一般都是变为前一次的1/2
池化的好数就是让特征变少，提炼特征
（少了）

FC

不论是卷积，还是pool,还是transformer 的作用都是提特征，最后做FC就是提算出对应的概率

FC就是输出

公式：
wx+b得到概率

拉平卷积就是FC

感受野

所以不一定感受野越大越好

我觉得感受野就是一个卷积核的面积大小

posted @ 2023-01-27 19:19 E_sheep 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部