图像处理与计算机视觉学习记录(一)——第一周
基础部分
数字图像
定义为二维离散函数 $ f(x,y) $,其中 $ x,y $ 为空间坐标(像素位置),$ f(x,y) $ 为离散化的强度或颜色值。对于彩色图像,通常由RGB三通道函数组成。
图像处理与计算机视觉
- 图像处理:提升图像质量或提取底层特征(如去噪、增强对比度),输入输出均为图像,不一定要了解图像中的内容。
- 计算机视觉:理解图像内容(如物体识别、场景理解),输入为图像,输出为语义信息。
图像尺寸、分辨率与类型
图像尺寸可以通过size(img)获取;而分辨率:单位长度像素数(DPI),影响打印质量,通过imfinfo读取
图像类型:二值图像(logical类型,0/1)、灰度图像(单通道,uint8/double)、RGB图像(三通道,uint8/double)、索引图像(调色板映射,需imread读取颜色表)
图像处理核心方法
- 频域滤波:傅里叶变换,去除噪声或增强图像细节。
- 直方图修正:调整图像的灰度分布来增强对比度。
- 中值滤波:去噪尤其是消除椒盐噪声。
- 分割与分类:将图像划分为有意义的区域并对这些区域进行分类。
处理等级
- Low-level:输入输出均为图像(如直方图均衡化) ,目的是改善图像本身。
- Mid-level:输入图像,输出特征(如边缘检测),目标是从图像中提取特征和信息。
- High-level:输入特征,输出语义(如人脸识别),涉及图像的“理解”,执行通常与人类视觉相关的认知功能相关。
处理流程
数据采集 → 采样量化 → 预处理 → 特征提取 → 分类/识别 → 输出结果
MATLAB操作
- 图像读写:
imread(读取)、imwrite(保存)、imshow(显示)、imfinfo(显示详细信息) - 类型转换:
im2double(输入转换成double类型)、im2uint8(转换为uint8类)。 - 数组索引:图像用矩阵表示,比如:线性索引:单下标访问(如
A(5)访问第5个元素);多维索引:A(1,:)(第一行所有列),A(:,:,3)(第三颜色通道) - 数据类别:
uint8(0-255)、double([0,1]),需注意运算溢出。
一些注意:矩阵算术运算符.*使对应位置相乘,*行列相乘,别遗忘。
拓展部分
现有基于深度学习的图像去噪的方法改进与应用
图像去噪旨在减少数字图像中的噪声,提升视觉质量与后续任务(如检测、识别)的准确性。噪声来源复杂,主要分为:
- 加性噪声:与信号无关(如信道噪声),模型为 f(x,y)=g(x,y)+n(x,y)。
- 乘性噪声:与信号相关(如胶片颗粒噪声),模型为 f(x,y)=g(x,y)⋅n(x,y)。
- 量化噪声:由数字信号量化误差引起,常见于低比特率图像。
传统方法分为 基于滤波器的方法(如中值滤波、BM3D)和 基于模型的方法(如低秩矩阵分解、图正则化),难以应对复杂噪声场景。
深度学习数据驱动,自动学习噪声与干净图像间的映射关系,显著提升去噪性能,比如下面这几个基于模型的方法(https://zhuanlan.zhihu.com/p/390127131):
1. 监督学习:从噪声到干净的映射
核心思路:通过大量带标签的噪声-干净图像对,训练网络直接学习去噪
比如DnCNN,引入残差学习,即网络不直接输出干净图像,而是输出噪声,再通过减法得到结果,使用了Batch Normalization和Residual Learning加速训练过程和提升去噪性能。

2. 自监督学习:无需干净数据的去噪
核心思路:仅利用噪声图像本身进行训练,无需配对干净数据。
比如Neighbor2Neighbor:一种仅需要含噪图像即可训练任意降噪网络的方法。该方法是一种训练策略,可以训练任意降噪网络而无需改造网络结构、无需估计噪声参数,也无需对输出图像进行复杂的后处理。(https://zhuanlan.zhihu.com/p/414438856)
基于深度网络的方法具有很大的发展潜力,但是它主要依靠于经验设计,没有充分考虑到传统的方法,在一定程度上缺乏可解释性。
3. 可解释性:结合传统优化理论
核心思路:将传统图像先验(如梯度约束)融入深度学习框架,提升模型透明度。
DeamNet:在传统一致性先验中引入非线性滤波算子、可靠性矩阵和高维特征变换函数,提出一种新的自适应一致性先验(ACP),确保去噪结果符合自然图像的物理规律(如边缘连续、纹理平滑),同时利用深度学习自动学习复杂噪声的分布特征。(https://blog.csdn.net/Claire_wanqing/article/details/125696701)

4.一些应用
文化遗产修复:敦煌壁画褪色修复、古籍文字还原之类的,DeamNet约束历史色彩规律,避免过度艺术化。
自动驾驶感知:雨雾环境去噪、夜间红外图像增强,监督学习(CBDNet)消除雨滴干扰;自监督学习(Noise2Noise)适配未标定红外数据。
工业视觉检测:金属零件表面划痕检测、精密尺寸测量,监督学习(DnCNN、CBDNet)用于合成噪声数据训练;DeamNet确保边缘保留,避免几何误差。

浙公网安备 33010602011771号