2024-05-27 闲话
之前非常不能理解“拍照的算法增强”和“图片的语义分割”是怎么同属于 computer vision 的,今天闻了一下 ChatGPT 得到了一个答案:
What can ChatGPT say!
计算机视觉(CV)从信号层面发展到语义理解层面经历了几个重要阶段,每个阶段都受到了不同技术和方法的推动。
1. 早期信号处理阶段
在最初的计算机视觉研究中,主要关注的是图像处理和特征提取。这些方法大多基于信号处理技术,处理图像的低级特征,如边缘、纹理和颜色。这一阶段的主要任务包括:
- 边缘检测:如Canny边缘检测器,用于检测图像中的显著边缘。
- 纹理分析:使用Gabor滤波器等方法来提取图像中的纹理特征。
- 颜色空间转换:将图像从RGB转换为其他颜色空间,如HSV,以便更好地处理图像中的颜色信息。
2. 特征工程和机器学习阶段
随着计算能力的提高和机器学习算法的发展,研究人员开始使用手工设计的特征(如SIFT、HOG等)结合传统的机器学习算法(如支持向量机、随机森林等)来进行图像分类和目标检测。这一阶段的特征包括:
- SIFT(Scale-Invariant Feature Transform):一种用于提取和描述局部特征的算法,对图像缩放和旋转不变。
- HOG(Histogram of Oriented Gradients):一种描述局部梯度方向分布的特征,常用于行人检测等任务。
- 传统机器学习方法:如支持向量机(SVM),用于基于手工特征的图像分类。
3. 深度学习革命
深度学习,尤其是卷积神经网络(CNN)的引入,极大地改变了计算机视觉领域。这一阶段的主要进展包括:
- 卷积神经网络(CNN):如AlexNet、VGG、ResNet等,这些网络能够自动从数据中学习特征,大大提高了图像分类、目标检测和分割的精度。
- 大规模数据集和计算能力:如ImageNet数据集的出现和GPU的使用,使得训练深度神经网络成为可能。
- 转移学习和预训练模型:使用在大数据集上预训练的模型,然后通过微调在特定任务上应用,进一步提升了模型的性能和泛化能力。
4. 语义理解阶段
在深度学习的基础上,计算机视觉开始向更高层次的语义理解发展,包括图像语义分割、物体检测、图像描述和视觉问答等。这一阶段的进展包括:
- 语义分割:如FCN(Fully Convolutional Network)、U-Net等,用于将图像中的每个像素分配到一个特定的类。
- 目标检测:如Faster R-CNN、YOLO、SSD等,能够在图像中定位并识别多个目标。
- 图像描述生成:如Show and Tell模型,结合CNN和RNN生成自然语言描述。
- 视觉问答(Visual Question Answering, VQA):结合图像理解和自然语言处理,回答关于图像内容的问题。
5. 自监督学习和多模态融合
最近的研究趋势包括自监督学习和多模态融合,进一步推动了语义理解的深度和广度:
- 自监督学习:通过设计预训练任务(如图像修复、拼图、颜色填充等),使模型在没有标注数据的情况下学习有效特征。
- 多模态融合:将视觉信息与其他模态(如文本、音频等)结合起来,增强模型的理解能力。例如,CLIP模型结合了视觉和语言数据,提升了图像和文本之间的关联理解能力。
通过这些阶段的发展,计算机视觉从处理简单的信号层面问题,逐步发展到理解复杂的语义信息,极大地拓展了其应用领域和能力。
下午读了一篇青春色调的文章,评论中有这么一首诗写的很有趣,草草记录下来:
忽有故人心上过
回首山河已是秋
两处相思同淋雪
此生也算共白头
据说是龚自珍《己亥杂诗》中的一首。想来龚自珍的生活应该是涉足方方面面不至于落下什么遗憾了。
