学习困惑梳理

前期初步学习了一下机器学习和一些基本算法,对于支持向量机也看了一些程序和原理,

 顺着自己的思维一股流的写出来,结果发现自己这一年全部是在搞理论,没有任何解决具体问题的实践,不写出来还不知道原来我的思维是这样,虽然以前知道知识点很乱困惑多,但是不知道原来是这些,看来以后还是要经常写些东西 
 
 因为在这个过程中,我没有过什么任何明确的指示,比如说你写一个会度共生矩阵出来,这种有小问题然后去解决的过程,很缺乏。所以这些问题摆在我面前,根本就是一个庞然大物,即便要经常实践,也应该是一点一点来完成某个小目标然后积累起来的,可是我发现我没有,主要是我不知道以什么为小目标,其次,这个小目标还受到各种理论障碍。。。 
 

在应用中,支持向量机主要是集成了训练标签和测试标签。主要分类原理是把样本看成向量,然后提取特征,然后比对向量模的距离(值小于某一个范围就认为是同一类),

那么问题来了:

首先,这个分类有什么意义呢?正样本100张,负样本300张,就是说这个文件夹中有400张样本,你单纯的告诉我你的程序可以达到90%多的识别率,这个有什么实际意义?

其实,在识别过程中,样本无论多少,是靠循环来一张一张比对的,那么利用支持向量机建成的一个模型是什么东西呢?就好比是说先取部分训练样本,然后提取他的特征,那么这些特征存放在哪里呢?这个特征是存放在向量里么,这个识别率,是怎么个具体对比法?

在人脸识别中,400张样本,40个人,每人10张,暂且以一个比较简单的人脸识别为例吧,假设有100个嫌疑犯的面部图片,现在警察抓到一个人,有他的面部图片,要判断这个人是否是100个人中的某一个,那么问题来了,

利用图像识别理论,图片在数学中是矩阵,矩阵可以通过降维,变成性质相同的向量,那么现在数字也就是向量就代表人脸,不同的向量虽然只是模值不同,方向不同,但却能代表不同的图片信息。通过向量和向量之间的距离可以判断两幅图片是否一样,

现在是10个人了,那么应该是这样,取10个人的平均,得到平均向量,然后这10个人还是要依次和这个平均向量对比,看是否是一个人,也就有多少张图片就要对比多少次,在这个问题中,比较难点的地方就是降维,意思就是你要通过维度更少的向量来表示矩阵,然后还能保证向量的性质不变,那么这就要应用数学理论了,具体什么理论现在不记得了,反正就是那种协方差矩阵啊,奇异矩阵啊,之类的变换,

写到此,我仍不免困惑,那么识别正负样本的过程和人脸识别究竟有什么差异呢?

理论上应该是这样,现在有2个嫌疑犯图片,一男一女,但是我抓到了一个人,我能确定这个人就是嫌疑犯,但是不知道是男还是女,同理应用到人脸识别问题,先对男图片进行矩阵降维,得到一个能够表示其性质的向量,然后对女图片进行矩阵降维,得到一个表示性质的特征向量,

现在就是对抓到的人进行矩阵降维,得到一个表示其性质的特征向量。用这个向量与上面的男女向量对比,向量之间距离的差值就可以代表样本之间的相似性。

那么问题来了,我现在有100张正样本,300张负样本,我是不是应该把100张正样本求取平均向量,然后300张负样本求取平均向量,然后再逐渐每一张图片对比,正样本比对100次,负样本比对300次,

同样,在这个过程中,也是把矩阵问题变成向量最棘手,那么问题来了,我做这件事有什么具体意义呢?

在实际中,应该是这样的,这里有正负样本混合(正30,负70),现在手边有个病人图片,但是我想看看这个图片是正还是负,那么我只需要按照类似的方法来识别就可以了,为什么要在没有这种需要的情况下,去做这样一件事呢?

就是说现在没有图片需要我去判断,那么我去做这件事,只是理论上的思考而已,只能说我所做的这些工作只是为了说找找一些方法,试图提高一下效率和识别率,那么既然方法都固定了,在分类时主要是通过向量之间的差值来判断相似性,那么问题就只在降维上,那么只需要关注降维这个地方就可以了,

也就是说重点关注用向量表示矩阵这个过程和方法,那其他的问题又是从何而来,比如说核函数,比如说。。。。

 

posted on 2015-09-28 18:24  nataliebky  阅读(109)  评论(0)    收藏  举报

导航