计算机视觉入门

第一节课: 计算机视觉整体概述

这学期正在上一节计算机视觉课程，有些不懂的知识上百度搜索发现关于计算机视觉的文章寥寥无几。这节课主要讲解的是计算机视觉里面的图片识别，不会讲到识别一些正在运动的物体。

希望可以把自己学到的东西分享给大家。因为版权等问题，我无法将lecture notes放在这里，但是我会把自己所理解的东西写下来。

1. 什么是计算机视觉(Computer Vision)?

老师给出的定义: Enable machines to “see” the visual world as we do. (可以让机器像我们一样看见并且识别东西). 个人理解计算机视觉也就是我们平常说的人脸识别，车牌号识别，自动驾驶里面的树，人各种交通符号的识别，以及各种人们想要识别的东西都可以通过算法来识别出来。另外计算机视觉是人工智能（AI）的一个分支。

计算机视觉包含三点：

1. Measurement(测量): 通过visual data计算这个3D世界的不同属性。

2. Perception&interception(认知和翻译): 通过使用一些算法和representation(讲解)可以使机器认知一些物体，人，景色以及运动的东西。

3. Search&organization(搜索和整理)：通过一些算法来和visual data 挖掘，搜索和交互。

下图就是典型的计算机视觉技术分析出来一个公园里面的各种信息:

下图为计算机视觉以及其相关的科目:

下图为图片和模型之间的关系，应该很清楚的表示了从图片到模型属于视觉，反之则为图像：

2. 为什么计算机视觉很难实现？

　　提到几点：

　　　　1. 真是的世界比我们看到的图片中的要复杂得多(从3D世界到2D图片)。

　　　　2. 从图片还原出来当时的过程(process)是不可能的.　　　　

　　　　3. 物体的运动（比如奔跑中的人照片可能是模糊的).

　　　　4. 物体多元化，比如椅子可以有很多种很多不同颜色不同品牌等等...

　　　　5. 光源，物体的动作，背景杂乱的影响等等都会影响。见下图

　　　　　　

3. 现在的科学技术已经做到了哪些？

1. 图片分类(Image classification)，下图

2. 人脸识别(Face detection), 这个很好理解就不放图了

3. 物体识别(Object classification)，下图

4. 脸部匿名化(face anonymization)，其实就是变脸...

5. 交互式系统(比如xbox的kinect)

6. 自动驾驶中的人，树，和其他一些交通指示牌。

7. 动作的捕捉(motion capture)，见下图

8. 还有很多不一一列举了...

4. 计算机视觉的运用(Applications)

机器人学，自动驾驶，图片搜索，医学领域图片等等，平时用的美图秀秀和那个什么把人脸变成狗脸的faceu都是计算机视觉领域。

5. 总结

总之计算机视觉是一个新兴的领域，非常有用，有趣但是很难。。。这堂课我们会讲解图片构成，原理，如何变化以及如何识别。运用的语言是Matlab(上这节课之前我是一点都不会matlab[哭~])。

posted @ 2018-04-09 13:12 ccccccyx 阅读(334) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部