图片哈希算法_相似图片搜索的原理是怎样的

❶ 相似图片搜索的原理是怎样的

2011年，Google把“相似图片搜索”正式放上了首页。你可以用一张图片，搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。

有了50×50像素的黑白缩略图，就等于有了一个50×50的0-1矩阵。矩阵的每个值对应原图的一个像素，0表示黑色，1表示白色。这个矩阵就是一张图片的特征矩阵。

两个特征矩阵的不同之处越少，就代表两张图片越相似。这可以用”异或运算”实现（即两个值之中只有一个为1，则运算结果为1，否则运算结果为0）。对不同图片的特征矩阵进行”异或运算”，结果中的1越少，就是越相似的图片。

❷ 相似图片检测：感知哈希算法之dHash的python实现

某些情况下，我们需要检测图片之间的相似性，进行我们需要的处理：删除同一张图片、标记盗版等。
如何判断是同一张图片呢？最简单的方法是使用加密哈希（例如MD5, SHA-1）判断。但是局限性非常大。例如一个txt文档，其MD5值是根据这个txt的二进制数据计算的，如果是这个txt文档的完全复制版，那他们的MD5值是完全相同的。但是，一旦改变副本的内容，哪怕只是副本的缩进格式，其MD5也会天差地别。因此加密哈希只能用于判断两个完全一致、未经修改的文件，如果是一张经过调色或者缩放的图片，根本无法判断其与另一张图片是否为同一张图片。
那么如何判断一张被PS过的图片是否与另一张图片本质上相同呢？比较简单、易用的解决方案是采用感知哈希算法（Perceptual Hash Algorithm)。

感知哈希算法是一类算法的总称，包括aHash、pHash、dHash。顾名思义，感知哈希不是以严格的方式计算Hash值，而是以更加相对的方式计算哈希值，因为“相似”与否，就是一种相对的判定。

如果我们要计算上图的dHash值，第一步是把它 缩放到足够小 。为什么需要缩放呢？因为原图的分辨率一般都非常高。一张 200*200 的图片，就有整整4万个像素点，每一个像素点都保存着一个RGB值，4万个RGB，是相当庞大的信息量，非常多的细节需要处理。因此，我们需要把图片缩放到非常小，隐藏它的细节部分，只见森林，不见树木。建议缩放为9*8，虽然可以缩放为任意大小，但是这个值是相对合理的。而且宽度为9，有利于我们转换为hash值，往下面看，你就明白了。

(感谢评论区隔壁万能的小黑同学，建议在 image.resize 中加上Image.ANTIALIAS参数，加上此参数将会对所有可以影响输出像素的输入像素进行高质量的重采样滤波)

dHash全名为差异值hash，通过计算相邻像素之间的颜色强度差异得出。我们缩放后的图片，细节已经被隐藏，信息量已经变少。但是还不够，因为它是彩色的，由RGB值组成。白色表示为（255,255,255）,黑色表示为（0,0,0），值越大颜色越亮，越小则越暗。每种颜色都由3个数值组成，也就是红、绿、蓝的值。如果直接使用RGB值对比颜色强度差异，相当复杂，因此我们转化为灰度值——只由一个0到255的整数表示灰度。这样的话就将三维的比较简化为了一维比较。

差异值是通过计算每行相邻像素的强度对比得出的。我们的图片为9*8的分辨率，那么就有8行，每行9个像素。差异值是每行分别计算的，也就是第二行的第一个像素不会与第一行的任何像素比较。每一行有9个像素，那么就会产生8个差异值，这也是为何我们选择9作为宽度，因为8bit刚好可以组成一个byte，方便转换为16进制值。
如果前一个像素的颜色强度大于第二个像素，那么差异值就设置为True（也就是1），如果不大于第二个像素，就设置为False（也就是0）。

我们将差异值数组中每一个值看做一个bit，每8个bit组成为一个16进制值，将16进制值连接起来转换为字符串，就得出了最后的dHash值。

汉明距离这个概念不止运用于图片对比领域，也被使用于众多领域，具体的介绍可以参见Wikipedia。
汉明距离表示将A修改成为B，需要多少个步骤。比如字符串“abc”与“ab3”，汉明距离为1，因为只需要修改“c”为“3”即可。
dHash中的汉明距离是通过计算差异值的修改位数。我们的差异值是用0、1表示的，可以看做二进制。二进制0110与1111的汉明距离为2。
我们将两张图片的dHash值转换为二进制difference，并取异或。计算异或结果的“1”的位数，也就是不相同的位数，这就是汉明距离。

如果传入的参数不是两张图的dHash值，而是直接比较两张图片，那么不需要生成dHash值，直接用Step3中的difference数组，统计不相同的位数，就是汉明距离。

一般来说，汉明距离小于5，基本就是同一张图片。大家可以根据自己的实际情况，判断汉明距离临界值为多少。

https://github.com/hjaurum/DHash

❸ PHP 如何获取图片的哈希值啊。。

你好，哈希算法很多，自带有，sha1函数跟md5函数，获取图片的哈希值要读取内容去运算，
如$file=file_get_contents("图片路径"); echo sha1($file);//哈希值，echo md5($file);//md5值，这两个都是摘要。谢谢

❹ 关于哈希值

通俗来讲，哈希值就是文件的身份证，不过比身份证还严格。他是根据文件大小，时间，类型，创作者，机器等计算出来的，很容易就会发生变化，谁也不能预料下一个号码是多少，也没有更改他的软件。哈希算法将任意长度的二进制值映射为固定长度的较小二进制值，这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母，随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入，在计算上是不可能的。

有这样一种情境，有三万张图片我们要均匀放置于三个缓存服务器上
简单的做法是对缓存的key进行哈希计算，得到的值进行取模计算，所得到的余数，便是缓存的服务器编号

hash % 机器数 = 余数
当机器数为3时无论值为多少，其余数永远只有0，1，2三种情况
那么根据余数，我们给服务器进行编号s0,s1,s2,余数为0的放置于s0服务器上，1，2同理。

这样我们就将三万张图片的缓存均分成三份存放与三台缓存服务器中
因为对同一张图片进行哈希计算时，所得到的哈希值是不变的，所以当需要访问图片时，只要再次进行哈希计算和取模计算，就能获取到图片存放于哪台服务器，便可以去该服务器中查找满足了我们的需求。而这种算法也称之为哈希算法

这其中有一个问题，那便是如果我增加一台服务器呢
可以预见的是，当增加一台服务器服务器数变成了4.而余数也出现了4种情况

这时向s2的服务器查询时，无法读取到图片，这导致了程序无法从缓存服务器中读取数据，这时程序就会向后端服务器请求，而大量的缓存同时失效，会导致所有请求都指向后端服务器，这会引起后端服务器的崩溃。
这是就要引入一致性哈希算法

还是同样的三个缓存服务器，这次我们将哈希值对2^{32取模，所得到的数一定是1到2} 32之间的一个整数
然后我们想象一个圆环，其上的每一个点都代表1到2^32之间的一个整数，而这个圆环也被称为hash环
之后我们对服务器A进行取模计算，这样算出来的整数肯定在1到2^32之间，将这个整数代表为服务器A,并且我们可以将这个整数映射到哈希环上，同样的道理我们处理另外两个服务器，这时三个服务器都被映射到了哈希环上，对于图片我们也将他映射到哈希环上
那么我们只要从图片的哈希值开始，沿顺时针在哈希环上查找，遇到的第一个服务器便是图片缓存所在的服务器
这时哪怕新添加一个服务器在哈希环上，我门所丢失的缓存数据也只是新添加的服务器到逆时针方向遇到的第一个服务器这部分数据，而这样仍然有大部分缓存在缓存服务器中可以被查找到，这样可以帮助后端服务器分担大部分压力，不会使服务器崩溃，而这部分丢失的缓存数据，之后重新在后端加载便可以了

这又引入了另一个问题，哈希偏斜
我们无法确保三个服务器在哈希环上为均分的状态，很有可能其中一台服务器分到了很大部分而另两台分到了很少的部分，这样同样会有后端服务器崩溃的隐患
我们可以添加很多虚拟结点同一个服务器我们分出许多虚拟节点，映射在哈希环上，哈希环上的节点越多，缓存被均分的概率便越大，这样可以尽可能的保证缓存在服务器上是接近理想均分的状态，避免了哈希偏斜的问题

❺ 图片相似度判断

1. https://zhuanlan.hu.com/p/68215900
为了得到两张相似的图片，在这里通过以下几种简单的计算方式来计算图片的相似度：
直方图计算图片的相似度
通过哈希值，汉明距离计算
通过图片的余弦距离计算
通过图片结构度量计算

二、哈希算法计算图片的相似度
图像指纹：

图像指纹和人的指纹一样，是身份的象征，而图像指纹简单点来讲，就是将图像按照一定的哈希算法，经过运算后得出的一组二进制数字。

汉明距离：

假如一组二进制数据为101，另外一组为111，那么显然把第一组的第二位数据0改成1就可以变成第二组数据111，所以两组数据的汉明距离就为1。简单点说，汉明距离就是一组二进制数据变成另一组数据所需的步骤数，显然，这个数值可以衡量两张图片的差异，汉明距离越小，则代表相似度越高。汉明距离为0，即代表两张图片完全一样。

感知哈希算法是一类算法的总称，包括aHash、pHash、dHash。顾名思义，感知哈希不是以严格的方式计算Hash值，而是以更加相对的方式计算哈希值，因为“相似”与否，就是一种相对的判定。

几种hash值的比较：

aHash：平均值哈希。速度比较快，但是常常不太精确。
pHash：感知哈希。精确度比较高，但是速度方面较差一些。
dHash：差异值哈希。精确度较高，且速度也非常快

该算法是基于比较灰度图每个像素与平均值来实现。

aHash的hanming距离步骤：

先将图片压缩成8*8的小图
将图片转化为灰度图
计算图片的Hash值，这里的hash值是64位，或者是32位01字符串
将上面的hash值转换为16位的
通过hash值来计算汉明距离

def ahash(image):
# 将图片缩放为8*8的
image = cv2.resize(image, (8, 8), interpolation=cv2.INTER_CUBIC)
# 将图片转化为灰度图
gray = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
# s为像素和初始灰度值，hash_str为哈希值初始值
s = 0
# 遍历像素累加和
for i in range(8):
for j in range(8):
s = s + gray[i, j]
# 计算像素平均值
avg = s / 64
# 灰度大于平均值为1相反为0，得到图片的平均哈希值，此时得到的hash值为64位的01字符串
ahash_str = ''
for i in range(8):
for j in range(8):
if gray[i, j] > avg:
ahash_str = ahash_str + '1'
else:
ahash_str = ahash_str + '0'
result = ''
for i in range(0, 64, 4):
result += ''.join('%x' % int(ahash_str[i: i + 4], 2))
# print("ahash值：",result)
return result
2.感知哈希算法（pHash）：

均值哈希虽然简单，但是受均值影响大。如果对图像进行伽马校正或者进行直方图均值化都会影响均值，从而影响哈希值的计算。所以就有人提出更健壮的方法，通过离散余弦（DCT）进行低频提取。

离散余弦变换（DCT）是种图像压缩算法，它将图像从像素域变换到频率域。然后一般图像都存在很多冗余和相关性的，所以转换到频率域之后，只有很少的一部分频率分量的系数才不为0，大部分系数都为0（或者说接近于0）。Phash哈希算法过于严格，不够精确，更适合搜索缩略图，为了获得更精确的结果可以选择感知哈希算法，它采用的是DCT（离散余弦变换）来降低频率的方法。

pHash的hanming距离步骤：

缩小图片：32 * 32是一个较好的大小，这样方便DCT计算转化为灰度图
计算DCT：利用Opencv中提供的dct()方法，注意输入的图像必须是32位浮点型，所以先利用numpy中的float32进行转换
缩小DCT：DCT计算后的矩阵是32 * 32，保留左上角的8 * 8，这些代表的图片的最低频率
计算平均值：计算缩小DCT后的所有像素点的平均值。
进一步减小DCT：大于平均值记录为1，反之记录为0.
得到信息指纹：组合64个信息位，顺序随意保持一致性。
最后比对两张图片的指纹，获得汉明距离即可。

def phash(path):
# 加载并调整图片为32*32的灰度图片
img = cv2.imread(path)
img1 = cv2.resize(img, (32, 32),cv2.COLOR_RGB2GRAY)

# 创建二维列表
h, w = img.shape[:2]
vis0 = np.zeros((h, w), np.float32)
vis0[:h, :w] = img1

# DCT二维变换
# 离散余弦变换，得到dct系数矩阵
img_dct = cv2.dct(cv2.dct(vis0))
img_dct.resize(8,8)
# 把list变成一维list
img_list = np.array().flatten(img_dct.tolist())
# 计算均值
img_mean = cv2.mean(img_list)
avg_list = ['0' if i<img_mean else '1' for i in img_list]
return ''.join(['%x' % int(''.join(avg_list[x:x+4]),2) for x in range(0,64,4)])

相比pHash，dHash的速度要快的多，相比aHash，dHash在效率几乎相同的情况下的效果要更好，它是基于渐变实现的。

dHash的hanming距离步骤：

先将图片压缩成9*8的小图，有72个像素点
将图片转化为灰度图
计算差异值：dHash算法工作在相邻像素之间，这样每行9个像素之间产生了8个不同的差异，一共8行，则产生了64个差异值，或者是32位01字符串。
获得指纹：如果左边的像素比右边的更亮，则记录为1，否则为0.
通过hash值来计算汉明距离

def dhash(image):
# 将图片转化为8*8
image = cv2.resize(image, (9, 8), interpolation=cv2.INTER_CUBIC)
# 将图片转化为灰度图
gray = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
dhash_str = ''
for i in range(8):
for j in range(8):
if gray[i, j] > gray[i, j + 1]:
dhash_str = dhash_str + '1'
else:
dhash_str = dhash_str + '0'
result = ''
for i in range(0, 64, 4):
result += ''.join('%x' % int(dhash_str[i: i + 4], 2))
# print("dhash值",result)
return result

def campHash(hash1, hash2):
n = 0
# hash长度不同返回-1,此时不能比较
if len(hash1) != len(hash2):
return -1
# 如果hash长度相同遍历长度
for i in range(len(hash1)):
if hash1[i] != hash2[i]:
n = n + 1
return n

❻ 哈希（hash） - 哈希算法的应用

通过之前的学习，我们已经了解了哈希函数在散列表中的应用，哈希函数就是哈希算法的一个应用。那么在这里给出哈希的定义： 将任意长度的二进制值串映射为固定长度的二进制值串，这个映射规则就是哈希算法，得到的二进制值串就是哈希值 。
要设计一个好的哈希算法并不容易，它应该满足以下几点要求：

哈希算法的应用非常广泛，在这里就介绍七点应用：

有很多着名的哈希加密算法：MD5、SHA、DES...它们都是通过哈希进行加密的算法。
对于加密的哈希算法来说，有两点十分重要：一是很难根据哈希值反推导出原始数据；二是散列冲突的概率要很小。
当然，哈希算法不可能排除散列冲突的可能，这用数学中的 鸽巢原理 就可以很好解释。以MD5算法来说，得到的哈希值为一个 128 位的二进制数，它的数据容量最多为 2¹²⁸ bit，如果超过这个数据量，必然会出现散列冲突。
在加密解密领域没有绝对安全的算法，一般来说，只要解密的计算量极其庞大，我们就可以认为这种加密方法是较为安全的。

假设我们有100万个图片，如果我们在图片中寻找某一个图片是非常耗时的，这是我们就可以使用哈希算法的原理为图片设置唯一标识。比如，我们可以从图片的二进制码串开头取100个字节，从中间取100个字节，从结尾取100个字节，然后将它们合并，并使用哈希算法计算得到一个哈希值，将其作为图片的唯一标识。
使用这个唯一标识判断图片是否在图库中，这可以减少甚多工作量。

在传输消息的过程中，我们担心通信数据被人篡改，这时就可以使用哈希函数进行数据校验。比如BT协议中就使用哈希栓发进行数据校验。

在散列表那一篇中我们就讲过散列函数的应用，相比于其它应用，散列函数对于散列算法冲突的要求低很多（我们可以通过开放寻址法或链表法解决冲突），同时散列函数对于散列算法是否能逆向解密也并不关心。
散列函数比较在意函数的执行效率，至于其它要求，在之前的我们已经讲过，就不再赘述了。

接下来的三个应用主要是在分布式系统中的应用

复杂均衡的算法很多，如何实现一个会话粘滞的负载均衡算法呢？也就是说，我们需要在同一个客户端上，在一次会话中的所有请求都路由到同一个服务器上。

最简单的办法是我们根据客户端的 IP 地址或会话 ID 创建一个映射关系。但是这样很浪费内存，客户端上线下线，服务器扩容等都会导致映射失效，维护成本很大。

借助哈希算法，我们可以很轻松的解决这些问题：对客户端的 IP 地址或会话 ID 计算哈希值，将取得的哈希值域服务器的列表的大小进行取模运算，最后得到的值就是被路由到的服务器的编号。

假设有一个非常大的日志文件，里面记录了用户的搜索关键词，我们想要快速统计出每个关键词被搜索的次数，该怎么做呢？

分析一下，这个问题有两个难点：一是搜索日志很大，没办法放到一台机器的内存中；二是如果用一台机器处理这么大的数据，处理时间会很长。

针对这两个难点，我们可以先对数据进行分片，然后使用多台机器处理，提高处理速度。具体思路：使用 n 台机器并行处理，从日志文件中读出每个搜索关键词，通过哈希函数计算哈希值，然后用 n 取模，最终得到的值就是被分配的机器编号。
这样，相同的关键词被分配到了相同的机器上，不同机器只要记录属于自己那部分的关键词的出现次数，最终合并不同机器上的结果即可。

针对这种海量数据的处理问题，我们都可以采用多机分布式处理。借助这种分片思路，可以突破单机内存、CPU等资源的限制。

处理思路和上面出现的思路类似：对数据进行哈希运算，对机器数取模，最终将存储数据（可能是硬盘存储，或者是缓存分配）分配到不同的机器上。

你可以看一下上图，你会发现之前存储的数据在新的存储规则下全部失效，这种情况是灾难性的。面对这种情况，我们就需要使用一致性哈希算法。

哈希算法是应用非常广泛的算法，你可以回顾上面的七个应用感受一下。

其实在这里我想说的是一个思想： 用优势弥补不足 。
例如，在计算机中，数据的计算主要依赖 CPU ，数据的存储交换主要依赖内存。两者一起配合才能实现各种功能，而两者在性能上依然无法匹配，这种差距主要是： CPU运算性能对内存的要求远高于现在的内存能提供的性能。
也就是说，CPU运算很快，内存相对较慢，为了抹平这种差距，工程师们想了很多方法。在我看来，散列表的使用就是利用电脑的高计算性能（优势）去弥补内存速度（不足）的不足，你仔细思考散列表的执行过程，就会明白我的意思。

以上就是哈希的全部内容

❼ 哈希算法从原理到实战

引言

将任意长度的二进制字符串映射为定长二进制字符串的映射规则我们称为散列（hash）算法，又叫哈希（hash）算法，而通过原始数据映射之后得到的二进制值称为哈希值。哈希表（hash表）结构是哈希算法的一种应用，也叫散列表。用的是数组支持按照下标随机访问数据的特性扩展、演化而来。可以说没有数组就没有散列表。

哈希算法主要特点

        从哈希值不能反向推导原始数据，也叫单向哈希。

        对输入数据敏感，哪怕只改了一个Bit，最后得到的哈希值也大不相同。

        散列冲突的概率要小。

        哈希算法执行效率要高，散列结果要尽量均衡。

哈希算法的核心应用

    安全加密：对于敏感数据比如密码字段进行MD5或SHA加密传输。

       唯一标识：比如图片识别，可针对图像二进制流进行摘要后MD5，得到的哈希值作为图片唯一标识。

         散列函数 :是构造散列表的关键。它直接决定了散列冲突的概率和散列表的性质。不过相对哈希算法的其他方面应用，散列函数对散列冲突要求较低，出现冲突时可以通过开放寻址法或链表法解决冲突。对散列值是否能够反向解密要求也不高。反而更加关注的是散列的均匀性，即是否散列值均匀落入槽中以及散列函数执行的快慢也会影响散列表性能。所以散列函数一般比较简单，追求均匀和高效。

    *负载均衡：常用的负载均衡算法有很多，比如轮询、随机、加权轮询。如何实现一个会话粘滞的负载均衡算法呢？可以通过哈希算法，对客户端IP地址或会话SessionID计算哈希值，将取得的哈希值与服务器列表大小进行取模运算，最终得到应该被路由到的服务器编号。这样就可以把同一IP的客户端请求发到同一个后端服务器上。

*数据分片：比如统计1T的日志文件中“搜索关键词”出现次数该如何解决？我们可以先对日志进行分片，然后采用多机处理，来提高处理速度。从搜索的日志中依次读取搜索关键词，并通过哈希函数计算哈希值，然后再跟n(机器数)取模，最终得到的值就是应该被分到的机器编号。这样相同哈希值的关键词就被分到同一台机器进行处理。每台机器分别计算关键词出现的次数，再进行合并就是最终结果。这也是MapRece的基本思想。再比如图片识别应用中给每个图片的摘要信息取唯一标识然后构建散列表，如果图库中有大量图片，单机的hash表会过大，超过单机内存容量。这时也可以使用分片思想，准备n台机器，每台机器负责散列表的一部分数据。每次从图库取一个图片，计算唯一标识，然后与机器个数n求余取模，得到的值就是被分配到的机器编号，然后将这个唯一标识和图片路径发往对应机器构建散列表。当进行图片查找时，使用相同的哈希函数对图片摘要信息取唯一标识并对n求余取模操作后，得到的值k，就是当前图片所存储的机器编号，在该机器的散列表中查找该图片即可。实际上海量数据的处理问题，都可以借助这种数据分片思想，突破单机内存、CPU等资源限制。

*分布式存储：一致性哈希算法解决缓存等分布式系统的扩容、缩容导致大量数据搬移难题。

         JDK集合工具实现：HashMap、 LinkedHashMap、ConcurrentHashMap、TreeMap等。Map实现类源码分析，详见 https://www.jianshu.com/p/602324fa59ac

总结

        本文从哈希算法的原理及特点，总结了哈希算法的常见应用场景。

        其中基于余数思想和同余定理实现的哈希算法（除留取余法），广泛应用在分布式场景中（散列函数、数据分片、负载均衡）。由于组合数学中的“鸽巢”原理，理论上不存在完全没有冲突的哈希算法。（PS:“鸽巢”原理是指有限的槽位，放多于槽位数的鸽子时，势必有不同的鸽子落在同一槽内，即冲突发生。同余定理：如果a和b对x取余数操作时a%x = b%x，则a和b同余）

构造哈希函数的常规方法有：数据分析法、直接寻址法、除留取余法、折叠法、随机法、平方取中法等。

        常规的解决哈希冲突方法有开放寻址法（线性探测、再哈希）和链表法。JDK中的HashMap和LinkedHashMap均是采用链表法解决哈希冲突的。链表法适合大数据量的哈希冲突解决，可以使用动态数据结构（比如：跳表、红黑树等）代替链表，防止链表时间复杂度过度退化导致性能下降；反之开放寻址法适合少量数据的哈希冲突解决。

❽ 感知哈希算法

感知哈希算法是一类哈希算法的总称，其作用在于生成每张图像的“指纹”(fingerprint)字符串，比较不同图像的指纹信息来判断图像的相似性。结果越接近图像越相似。感知哈希算法包括均值哈希（aHash）、感知哈希（pHash）和dHash（差异值哈希）。
aHash速度较快，但精确度较低；pHash则反其道而行之，精确度较高但速度较慢；dHash兼顾二者，精确度较高且速度较快。
在得到64位hash值后，使用汉明距离量化两张图像的相似性。汉明距离越大，图像的相似度越小，汉明距离越小，图像的相似度越大。

a) 缩放图片：为了保留图像的结构，降低图像的信息量，需要去掉细节、大小和横纵比的差异，建议把图片统一缩放到8*8，共64个像素的图片；
b) 转化为灰度图：把缩放后的图片转化为256阶的灰度图；

c) 计算平均值：计算进行灰度处理后图片的所有像素点的平均值；
d) 比较像素灰度值：遍历灰度图片每一个像素，如果大于平均值记录为1，否则为0；
e) 构造hash值：组合64个bit位生成hash值，顺序随意但前后保持一致性即可；
f) 对比指纹：计算两幅图片的指纹，计算汉明距离。

感知哈希算法可以获得更精确的结果，它采用的是DCT（离散余弦变换）来降低频率。
a) 缩小尺寸
为了简化了DCT的计算，pHash以小图片开始（建议图片大于8x8，32x32）。
b) 简化色彩
与aHash相同，需要将图片转化成灰度图像，进一步简化计算量（具体算法见aHash算法步骤）。
c) 计算DCT
DCT是把图片分解频率聚集和梯状形。这里以32x32的图片为例。

d) 缩小DCT
DCT的结果为32x32大小的矩阵，但只需保留左上角的8x8的矩阵，这部分呈现了图片中的最低频率。
e) 计算平均值
如同均值哈希一样，计算DCT的均值
f) 进一步减小DCT
根据8x8的DCT矩阵进行比较，大于等于DCT均值的设为”1”，小于DCT均值的设为“0”。图片的整体结构保持不变的情况下，hash结果值不变。
g) 构造hash值
组合64个bit位生成hash值，顺序随意但前后保持一致性即可。
h）对比指纹：计算两幅图片的指纹，计算汉明距离。

相比pHash，dHash的速度更快，相比aHash，dHash在效率几乎相同的情况下的效果要更好，它是基于渐变实现的。
a) 缩小图片：收缩至9*8的大小，它有72的像素点；
b) 转化为灰度图：把缩放后的图片转化为256阶的灰度图。（具体算法见aHash算法步骤）；
c) 计算差异值：计算相邻像素间的差异值，这样每行9个像素之间产生了8个不同的差异，一共8行，则产生了64个差异值；
d) 比较差异值：如果前一个像素的颜色强度大于第二个像素，那么差异值就设置为“1”，如果不大于第二个像素，就设置“0”。
e) 构造hash值：组合64个bit位生成hash值，顺序随意但前后保持一致性即可。
f) 对比指纹：计算两幅图片的指纹，计算汉明距离。

❾ 均值哈希算法和感知哈希算法

1.离散余弦变换

离散余弦变换由于为数据与余弦函数乘积累计，将无规律数列改为规则排列，如图像数据原数据为无规则二维矩阵，离散余弦变换后矩阵左上角包含图像数据的低频信息部分，右下角为高频信息部分，低频信息为图像主体框架，高频信息记录图像细节，去掉50%高频信息存储部分，图像信息量损失不超过5%(未验证此数据)，常用于图像压缩(如jpeg图像)

2.汉明距离

两个字码中不同位值的数目叫汉明距离，即a^b后验证结果的非0个数即为汉明距离

3.均值哈希算法和感知哈希算法

均值哈希算法和感知哈希算法常用于相似图像识别，将基准图缩小为较小尺寸图片，均值哈希算法计算图像平均像素值(未验证添加权值，理论可使图像部分区域具有更大权重)，然后将每个元素点与平均像素值比较，大于或等于均值，记为位1，小于均值记为位0，得到一串哈希值；感知哈希算法先进行离散余弦变换，取矩阵左上角区域数据(图像低频信息区域)，计算均值并将每个数值与均值比较，得到一串哈希值。在原图片中取相同大小图片，计算出另一串哈希值，得到两串哈希值汉明距离，值越小两张图片相似度越高

❿ python之哈希算法

哈希(Hash)算法：`hash（object）`

哈希算法将一个不定长的输入，通过散列函数变换成一个定长的输出，即散列值。是一种信息摘要算法。对象的hash值比原对象拥有更低的内存复杂度。

它不同于加密。哈希（hash）是将目标文本转换成具有相同长度的，不可逆的杂凑字符串，而加密则是将文本转换为具有相同长度的，可逆的密文。

哈希（hash）算法是不可逆的，只能由输入产生输出，不能由输出产生输入。而加密则是可逆的。即可以从输入产生输出，也可以反过来从输出推出输入。

对于hash算法，不同的数据应该生成不同的哈希值。如果两个不同的数据经过Hash函数计算得到的Hash值一样。就称为哈希碰撞（collision）。哈希碰撞无法被完全避免。只能降低发生概率。

好的hash函数会导致最少的hash碰撞。

*

可哈希性（hashable）：

可哈希的数据类型为不可变的数据结构（如字符串srt，元组tuple，对象集objects等）。这种数据被称为可哈希性。

不可哈希性：

不可哈希的数据类型，为可变的数据结构（如字典dict，列表list和集合set等）。

如果对可变的对象进行哈希处理，则每次对象更新时，都需要更新哈希表。这样我们则需要将对象移至不同的数据集，这种操作会使花费过大。

因此设定不能对可变的对象进行hash处理。

**

**

Python3.x添加了hash算法的随机性，以提高安全性，因此对于每个新的python调用，同样的数据源生成的结果都将不同。

哈希方法有（MD5, SHA1, SHA256与SHA512等）。常用的有SH256与SHA512。MD5与SHA1不再常用。

- MDH5 (不常用)

- SHA1 (不常用)

- SHA256 (常用)

- SHA512 (常用)

一种局部敏感的hash算法，它产生的签名在一定程度上可以表征原内容的相似度。

> 可以被用来比较文本的相似度。

安装simhash：

Pip3 install simhash

感知哈希算法（perceptual Hash Algorithm）。用于检测图像和视频的差异。

安装Imagehash:

pip3 install Imagehash

比较下面两张图片的Imagehash值

可以看到两张图片的hash值非常相似。相似的图片可以生成相似的哈希值是Imagehash的特点。

导航:首页 > 源码编译 > 图片哈希算法

图片哈希算法

与图片哈希算法相关的资料