图像相似度感知hash算法
名称:图像感知算法PHASH
时间:2020-08-17
总览
-
感知哈希(hash)算法描述了一个有可比较的哈希函数的类。图像特征被用于生成独特的(但不是唯一的)指纹,而这些指纹是可比较的。
-
感知哈希与像MD5和SHA1这样的加密哈希(散列)函数是不同的概念。加密哈希的hash值是随机的,数据用于生成像随机数种子的散列行为,所以相同的数据会产生相同的结果,不同的数据会产生不同的结果。比较两个SHA1的hash值,如果hash值是不同的,则数据也是不同的;如果hash值是相同的,则数据是相似的。(因为可能存在hash冲突,相同的hash值会产生不同的数据)。相比之下,感知哈希是可比较的——给你一种两个数据集之间相似的感觉。
作用
- 它的作用是对每张图片生成一个”指纹”(fingerprint)字符串,然后比较不同图片的指纹。结果越接近,就说明图片越相似。
处理过程
-
缩小尺寸:将图像缩小到8*8的尺寸,总共64个像素。这一步的作用是去除图像的细节,只保留结构/明暗等基本信息,摒弃不同尺寸/比例带来的图像差异;
-
简化色彩:将缩小后的图像,转为64级灰度,即所有像素点总共只有64种颜色;
-
计算平均值:计算所有64个像素的灰度平均值;
-
比较像素的灰度:将每个像素的灰度,与平均值进行比较,大于或等于平均值记为1,小于平均值记为0;
-
计算哈希值:将上一步的比较结果,组合在一起,就构成了一个64位的整数,这就是这张图像的指纹。
-
获取指纹以后,就可以对比不同的图像。等同于”汉明距离”(两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数)。如果不相同的数据位数不超过5,就说明两张图像很相似;如果大于10,就说明这是两张不同的图像。
算法改进
- 对于一个查询,先使用低频分量DCT哈希值进行排序;
- 对查询图像进行纯色或者近似纯色图像检测,如果不是纯色或者近似纯色图像,当前排序结果为最终拷贝检索排序结果;
- 如果是纯色或者近似纯色图像,使用高频DCT哈希值对初排结果进行重新排序,对重排序结果只保留汉明距离只小于等于某一阈值的那些结果,将其作为最终排序结果;
验证流程
- 哈希算法进行图像相似验证
- 显著不同通过SSIM进行结构化处理
- 划分SIFT特征点,进行特征点二次处理比较