计算机视觉-卷积神经网络等
图像去噪与卷积
噪声:一个点和周围的点差别较大。
去除噪声的一种最直接的思想是:把这个点和周围的点平均一下,让它靠近周围的点。这里的平均方法有很多种。将像素中的每一个点都进行如此操作,就可以得到一张全新的图像。这个过程就是对图像中的一个点进行的一次卷积操作,然后对全图的每个像素点都进行卷积操作之后就可以得到全图的卷及操作。
卷积操作的过程中,卷积核先翻转180度之后再对图片进行滤波操作,这才是卷积。如果不翻转,直接对图像操作叫做相关。但是网络模型学到的其实就是倒个之后的卷积核,因此后续并不考虑旋不旋转。
卷积的性质:
叠加性:两个图像求和后卷积等于两个图像分别卷积求和。
f(a+b)=f(a)+f(b)
平移不变性:对一个信号卷积后再平移和平移后再卷积是一样的。
f(shift(a))=shift(f(a))
还有交换律,结合律,分配率,标量等等。
边界填充:
0填充,像素拉伸,镜像。最常用的就是0填充,保证输入输出一样大。
※一般情况下,卷积操作后的图像要小于输入时图像,通过边界填充,我们可以实现卷积前后图像的尺寸不变。
锐化:
用原图减去平滑后的图得到边缘图,然后将边缘图再加上原图就可以得到锐化后的图。
高斯卷积核:(最常用的)
平均卷积核存在卷积后产生了一些水平和竖直方向的条状,也就是振铃现象。解决方法是根据邻域像素与中心的远近程度分配权重。简单来说就是离像素越近的地方权重越高,离像素越远的地方权重越低。从而使得离像素点近的地方产生更大的作用。
生成步骤:
-
确定卷积核的尺寸,比如5*5。
-
设置高斯函数的标准差,比如等于1。
-
计算卷积核各个位置权重值。
-
对权重值进行归一化:保证在卷积过程中,我和我周边的点相加不会改变像素范围。
如何设置参数:
卷积核的尺寸:尺寸越大,平滑效果越强。
高斯核的标准差:方差越大,平滑能力越强。
经验法则设置参数:将卷积核的半窗宽度设置为3a,最终卷积模板尺寸为2*3a+1。也就是假设标准差设置为1,则卷积模板宽度为2×3×1+1=7。就是7×7的卷积核。
高斯卷积核:
去除图像中的“高频”成分(低通滤波器)。
两个高斯卷积核卷积后得到的还是高斯卷积核。
-
使用标准差为1的高斯核进行两次卷积与使用标准差为根号2的高斯核进行一次卷积结果相同。
-
使用多次小方差卷积核连续卷积,可以得到与大方差卷积核相同的结果。
可分离:一个二维的高斯核可以分解为两个一维的高斯核操作。
噪声:
椒盐噪声:黑色像素和白色像素随机出现。
脉冲噪声:白色像素随机出现。
高斯噪声:噪声强度变化服从高斯分布(正态分布)。
减少高斯噪声:
高斯噪声比较大时就要使用大的卷积核或者大尺度模板。 高斯卷积核是线性操作。
椒盐噪声和脉冲噪声是无法通过高斯滤波器去除掉的,这个时候就需要使用到中值滤波器。
中值滤波:中值滤波器模板里面没有权重,在具体操作时将对应的像素点取出排序,取中值作为最终的结果。
边缘提取:
边缘种类:表面法向不连续、深度不连续、表面颜色不连续、光照不连续。
图像求导:

图像梯度:

图像梯度通常是从暗的地方指向亮的地方。
梯度的模值越大,说明该点是梯度的可能性就越大。
直接使用高斯一阶偏导对图像处理,就能够即对图像进行平滑,又对图像进行边缘提取。
高斯一阶偏导核的方差越小,提取边缘细节越强,但实际使用中要看需求是需要轮廓就好还是需要细节,从而对方差大小进行选取。
Canny边缘提取器:非极大值抑制、双阈值。


低阈值边缘,只保留与高阈值边缘有连接的边。
Canny边缘检测器:是目前为止最为有效的图像处理边缘检测器。
主要包括:
-
用高斯一阶偏导核卷积图像
-
计算每个点的梯度幅值和方向
-
非极大值抑制:将宽的边缘细化至单个像素宽度。
-
连接与阈值(滞后):定义两个阈值:低和高。使用高阈值开始边缘曲线,使用低阈值继续边缘曲线。就是使用高阈值边缘获得骨干,然后利用低阈值边缘将骨干连上。
纹理:
利用卷积核组提取图像中的纹理基;利用基元的统计信息来表示图像中的纹理。
-
设计卷积核组
-
利用卷积核组对图像进行卷积操作,获得对应的特征响应图组
-
利用特征响应图的某种统计信息来表示图像中的纹理。
卷积核组设计重点:
-
卷积核类型(边缘、条形以及点状)
-
卷积核尺度(3-6个尺度)
-
卷积核方向(6个角度)
卷积神经网络
计算过程:
-
将卷积核展成一个5×5×3的向量,同时将其覆盖的图像区域按相同的展开方式展成5×5×3的向量。
-
计算两者的点乘。
-
这里不同的是要在点乘结果上面加上偏移量。
特征响应图组深度等于卷积核的个数。
不同的特征响应图反映了输入图像对不同卷积和的响应结果。
同一特征响应图上不同位置的值表示输入图像上不同位置对同一卷积核的响应结果。
注意:卷积层输入不局限于图像,可以是任意三维数据矩阵;该层的卷积核深度要求与输入的三维矩阵的深度一直。
卷积步长:卷积核可以按照指定的间隔进行卷积操作。
假设卷积核尺寸为F,卷积核步长为S,W、H为图像尺寸,则W2与W1的关系是:W2=(W1-F)/S+1,H2=(H1-F)/S+1.
卷积神经网络中最常用的填充方式是领填充。关系公式为W2=(W1-F+2P)/S+1,其中P为0填充层数。
给定输入数据矩阵时,影响输出的特征图组尺寸大小的因素:卷积核的宽高;是否采用边界填充操作;卷积步长;该层的卷积核个数。
池化:
对每一个特征响应图独立进行,降低特征响应图组中每个特征响应图的宽度和高度,减少后续卷积层的参数的数量,降低计算资源耗费,进而控制过拟合。
池化方法:最大池化、平均池化。
最大池化可以理解为类似于非最大值抑制,用最大的一个值来代替其他所有值。
损失函数:
交叉熵损失
优化算法:
SGD、带动量的SGD以及ADAM。
图像增强:
数据增强:从现有的训练样本中生成更多的训练数据,其方法是利用多种能够生成可信图像的随意变换来增加样本。
目标是为了使得模型在训练时不会两次查看完全相同的图像。

浙公网安备 33010602011771号