计算机视觉入门

 

 第一节课: 计算机视觉整体概述

 

这学期正在上一节计算机视觉课程,有些不懂的知识上百度搜索发现关于计算机视觉的文章寥寥无几。 这节课主要讲解的是计算机视觉里面的图片识别,不会讲到识别一些正在运动的物体。

希望可以把自己学到的东西分享给大家。因为版权等问题,我无法将lecture notes放在这里,但是我会把自己所理解的东西写下来。

 

1. 什么是计算机视觉(Computer Vision)?

老师给出的定义:  Enable machines to “see” the visual world as we do. (可以让机器像我们一样看见并且识别东西). 个人理解计算机视觉也就是我们平常说的人脸识别,车牌号识别,自动驾驶里面的树,人各种交通符号的识别,以及各种人们想要识别的东西都可以通过算法来识别出来。另外计算机视觉是人工智能(AI)的一个分支。

计算机视觉包含三点:

1. Measurement(测量): 通过visual data计算这个3D世界的不同属性。

2. Perception&interception(认知和翻译): 通过使用一些算法和representation(讲解)可以使机器认知一些物体,人,景色以及运动的东西。

3. Search&organization(搜索和整理): 通过一些算法来和visual data 挖掘,搜索和交互。

 

下图就是典型的计算机视觉技术分析出来一个公园里面的各种信息: 

 

下图为计算机视觉以及其相关的科目:

 

下图为图片和模型之间的关系,应该很清楚的表示了从图片到模型属于视觉,反之则为图像:

 

 

 2. 为什么计算机视觉很难实现?

  提到几点:

    1. 真是的世界比我们看到的图片中的要复杂得多(从3D世界到2D图片)。

    2. 从图片还原出来当时的过程(process)是不可能的.    

    3. 物体的运动(比如奔跑中的人照片可能是模糊的).

    4. 物体多元化,比如椅子可以有很多种很多不同颜色不同品牌等等...

    5. 光源,物体的动作,背景杂乱的影响等等都会影响。见下图

      

 

3. 现在的科学技术已经做到了哪些?

1. 图片分类(Image classification),下图

 

 

2. 人脸识别(Face detection), 这个很好理解就不放图了

3. 物体识别(Object classification),下图

 

4. 脸部匿名化(face anonymization),其实就是变脸...

5. 交互式系统(比如xbox的kinect)

6. 自动驾驶中的人,树,和其他一些交通指示牌。

7. 动作的捕捉(motion capture),见下图

 

8. 还有很多不一一列举了...

 

4. 计算机视觉的运用(Applications)

机器人学,自动驾驶,图片搜索,医学领域图片等等,平时用的美图秀秀和那个什么把人脸变成狗脸的faceu都是计算机视觉领域。

 

5. 总结

总之计算机视觉是一个新兴的领域,非常有用,有趣但是很难。。。 这堂课我们会讲解图片构成,原理,如何变化以及如何识别。 运用的语言是Matlab(上这节课之前我是一点都不会matlab[哭~])。

 

 

posted @ 2018-04-09 13:12  ccccccyx  阅读(334)  评论(0编辑  收藏  举报