学习困惑梳理

前期初步学习了一下机器学习和一些基本算法，对于支持向量机也看了一些程序和原理，

顺着自己的思维一股流的写出来，结果发现自己这一年全部是在搞理论，没有任何解决具体问题的实践，不写出来还不知道原来我的思维是这样，虽然以前知道知识点很乱困惑多，但是不知道原来是这些，看来以后还是要经常写些东西

因为在这个过程中，我没有过什么任何明确的指示，比如说你写一个会度共生矩阵出来，这种有小问题然后去解决的过程，很缺乏。所以这些问题摆在我面前，根本就是一个庞然大物，即便要经常实践，也应该是一点一点来完成某个小目标然后积累起来的，可是我发现我没有，主要是我不知道以什么为小目标，其次，这个小目标还受到各种理论障碍。。。

在应用中，支持向量机主要是集成了训练标签和测试标签。主要分类原理是把样本看成向量，然后提取特征，然后比对向量模的距离（值小于某一个范围就认为是同一类），

那么问题来了：

首先，这个分类有什么意义呢？正样本100张，负样本300张，就是说这个文件夹中有400张样本，你单纯的告诉我你的程序可以达到90%多的识别率，这个有什么实际意义？

其实，在识别过程中，样本无论多少，是靠循环来一张一张比对的，那么利用支持向量机建成的一个模型是什么东西呢？就好比是说先取部分训练样本，然后提取他的特征，那么这些特征存放在哪里呢？这个特征是存放在向量里么，这个识别率，是怎么个具体对比法？

在人脸识别中，400张样本，40个人，每人10张，暂且以一个比较简单的人脸识别为例吧，假设有100个嫌疑犯的面部图片，现在警察抓到一个人，有他的面部图片，要判断这个人是否是100个人中的某一个，那么问题来了，

利用图像识别理论，图片在数学中是矩阵，矩阵可以通过降维，变成性质相同的向量，那么现在数字也就是向量就代表人脸，不同的向量虽然只是模值不同，方向不同，但却能代表不同的图片信息。通过向量和向量之间的距离可以判断两幅图片是否一样，

现在是10个人了，那么应该是这样，取10个人的平均，得到平均向量，然后这10个人还是要依次和这个平均向量对比，看是否是一个人，也就有多少张图片就要对比多少次，在这个问题中，比较难点的地方就是降维，意思就是你要通过维度更少的向量来表示矩阵，然后还能保证向量的性质不变，那么这就要应用数学理论了，具体什么理论现在不记得了，反正就是那种协方差矩阵啊，奇异矩阵啊，之类的变换，

写到此，我仍不免困惑，那么识别正负样本的过程和人脸识别究竟有什么差异呢？

理论上应该是这样，现在有2个嫌疑犯图片，一男一女，但是我抓到了一个人，我能确定这个人就是嫌疑犯，但是不知道是男还是女,同理应用到人脸识别问题，先对男图片进行矩阵降维，得到一个能够表示其性质的向量，然后对女图片进行矩阵降维，得到一个表示性质的特征向量，

现在就是对抓到的人进行矩阵降维，得到一个表示其性质的特征向量。用这个向量与上面的男女向量对比，向量之间距离的差值就可以代表样本之间的相似性。

那么问题来了，我现在有100张正样本，300张负样本，我是不是应该把100张正样本求取平均向量，然后300张负样本求取平均向量，然后再逐渐每一张图片对比，正样本比对100次，负样本比对300次，

同样，在这个过程中，也是把矩阵问题变成向量最棘手，那么问题来了，我做这件事有什么具体意义呢？

在实际中，应该是这样的，这里有正负样本混合（正30，负70），现在手边有个病人图片，但是我想看看这个图片是正还是负,那么我只需要按照类似的方法来识别就可以了，为什么要在没有这种需要的情况下，去做这样一件事呢？

就是说现在没有图片需要我去判断，那么我去做这件事，只是理论上的思考而已，只能说我所做的这些工作只是为了说找找一些方法，试图提高一下效率和识别率，那么既然方法都固定了，在分类时主要是通过向量之间的差值来判断相似性，那么问题就只在降维上，那么只需要关注降维这个地方就可以了，

也就是说重点关注用向量表示矩阵这个过程和方法，那其他的问题又是从何而来，比如说核函数，比如说。。。。

posted on 2015-09-28 18:24 nataliebky 阅读(109) 评论(0) 收藏举报

刷新页面返回顶部

nataliebky

学习困惑梳理

导航

公告