[CV] Evaluate similarity among photos

故事背景

这里重点关注 Hash Method

Hash算法作为大多图片搜索引擎的核心算法，其准确率和效率均很高，本板块将介绍Hash的三种核心算法：aHash、pHash、dHash。

一、hash算法

aHash

此算法是基于比较灰度图每个像素与平均值来实现的。
步骤：
1.缩放图片：为了保留结构去掉细节，去除大小、横纵比的差异，把图片统一缩放到8*8，共64个像素的图片。
2.转化为灰度图：把缩放后的图片转化为256阶的灰度图。
3.计算平均值：计算进行灰度处理后图片的所有像素点的平均值。
4.比较像素灰度值：遍历灰度图片每一个像素，如果大于平均值记录为1，否则为0.
5.得到信息指纹：组合64个bit位，顺序随意保持一致性即可。
6.对比指纹：计算两幅图片的指纹，计算汉明距离（从一个指纹到另一个指纹需要变几次），汉明距离越大则说明图片越不一致，反之，汉明距离越小则说明图片越相似，当距离为0时，说明完全相同。（通常认为距离>10 就是两张完全不同的图片）

pHash

平均哈希算法过于严格，不够精确，更适合搜索缩略图，为了获得更精确的结果可以选择感知哈希算法，它采用的是DCT（离散余弦变换）来降低频率的方法
步骤：
1.缩小图片：32 * 32是一个较好的大小，这样方便DCT计算
2.转化为灰度图：把缩放后的图片转化为256阶的灰度图。（具体算法见平均哈希算法步骤）
3.计算DCT:DCT把图片分离成分率的集合
4.缩小DCT：DCT是32*32，保留左上角的8*8，这些代表的图片的最低频率
5.计算平均值：计算缩小DCT后的所有像素点的平均值。
6.进一步减小DCT：大于平均值记录为1，反之记录为0.
7.得到信息指纹：组合64个信息位，顺序随意保持一致性即可。
8.对比指纹：计算两幅图片的指纹，计算汉明距离（从一个指纹到另一个指纹需要变几次），汉明距离越大则说明图片越不一致，反之，汉明距离越小则说明图片越相似，当距离为0时，说明完全相同。（通常认为距离>10 就是两张完全不同的图片）

dHash

相比pHash，dHash的速度要快的多，相比aHash，dHash在效率几乎相同的情况下的效果要更好，它是基于渐变实现的。
步骤：
1.缩小图片：收缩到9*8的大小，一遍它有72的像素点
2.转化为灰度图：把缩放后的图片转化为256阶的灰度图。（具体算法见平均哈希算法步骤）
3.计算差异值：dHash算法工作在相邻像素之间，这样每行9个像素之间产生了8个不同的差异，一共8行，则产生了64个差异值
4.获得指纹：如果左边的像素比右边的更亮，则记录为1，否则为0.

二、感知哈希算法

Ref: 相似图片搜索的原理

"感知哈希算法"（Perceptual hash algorithm）

具体的代码实现，可以参见Wote用python语言写的imgHash.py。

它的最佳用途是根据缩略图，找出原图。

实际应用中，往往采用更强大的pHash算法和SIFT算法，它们能够识别图片的变形。只要变形程度不超过25%，它们就能匹配原图。这些算法虽然更复杂，但是原理与上面的简便算法是一样的，就是先将图片转化成Hash字符串，然后再进行比较。

三、颜色分布法

Ref: 相似图片搜索的原理（二）

每张图片都可以生成颜色分布的直方图（color histogram）。如果两张图片的直方图很接近，就可以认为它们很相似。

四、内容特征法

如果两张图片很相似，它们的黑白轮廓应该是相近的。于是，问题就变成了，第一步如何确定一个合理的阈值，正确呈现照片中的轮廓？

显然，前景色与背景色反差越大，轮廓就越明显。这意味着，如果我们找到一个值，可以使得前景色和背景色各自的"类内差异最小"（minimizing the intra-class variance），或者"类间差异最大"（maximizing the inter-class variance），那么这个值就是理想的阈值。

另外可参考：拍立淘-以图搜图中的图像搜索算法

设计思路

From: https://www.zhihu.com/question/19726630/answer/14452284

针对这个问题，请教了算法组的同事，他分享了基本的思路：

对于这种图像搜索的算法，一般是三个步骤：

1. 将目标图片进行特征提取，描述图像的算法很多，用的比较多的是：SIFT描述子，指纹算法函数，bundling features算法，hash function（散列函数）等。也可以根据不同的图像，设计不同的算法，比如图像局部N阶矩的方法提取图像特征。

2. 将图像特征信息进行编码，并将海量图像编码做查找表。对于目标图像，可以对分辨率较大的图像进行降采样，减少运算量后在进行图像特征提取和编码处理。

3. 相似度匹配运算：利用目标图像的编码值，在图像搜索引擎中的图像数据库进行全局或是局部的相似度计算；根据所需要的鲁棒性，设定阈值，然后将相似度高的图片预保留下来；最后应该还有一步筛选最佳匹配图片，这个应该还是用到特征检测算法。

自然而然引来一个问题：如何高效地生成并比较“大规模的hash值”。

GPU是首选？

posted @ 2018-11-01 14:51 郝壹贰叁阅读(283) 评论(0) 收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston