哈希碰撞算法_什么是哈希算法

‘壹’ hash算法是什么呢

hash算法是：一种特殊的函数，不论输入多长的一串字符，只要通过这个函数都可以得到一个固定长度的输出值，这就好像身份证号码一样，永远都是十八位而且全国唯一。

哈希算法的输出值就叫做哈希值。哈希算法也被称为“散列”，是区块链的四大核心技术之一。是能计算出一个数字消息所对应的、长度固定的字符串。

原理：

Hash算法的原理是把输入空间的值映射到Hash空间内，由于Hash值的空间远小于输入的空间，而且借助抽屉原理，可以得出一定会存在不同的输入被映射成相同输出的情况，如果一个Hash算法足够好，那么他就一定会有更小的发生冲突的概率，也就是说，一个好的Hash算法应该具有优秀的抗碰撞能力。

‘贰’ hash算法是什么

Hash，就是把任意长度的输入（又叫做预此模映射，pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。

这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

使用哈希查找有两个步骤：

1、使用哈希函数将被查找的键转换为数组的索引。在理想的情况下，不同的键会被转换为不同的索引值，但是在有些情况下乎扒腔我们需要处理多个键被哈希到同一个索引值的情况。所以哈希查找的第二个步骤就是处理冲突。

2、处理哈希碰撞冲突。有很多处理哈希碰撞冲突的方法，本文后面会介岁衫绍拉链法和线性探测法。

‘叁’ 什么是哈希算法

举个更形象点的例子。这东西其实就像字典（其实就是）。你给出来的字符串是一个单词，他在字典里面所属的条目是A-Z其中一个字母。不管你给的单词有多长，他总属于字典中某一个目录下（也就是首字母。。）。你现在有两个单词，你不知道他们都是什么，但是你知道一个在“A”里面一个在“E”里面。这样你就知道这俩肯定不是同样的单词。不过由于每个条目下都有一大堆的单词，所以你还是不知道这两个单词具体是什么。当然也有很大的概率两个单词都在E里面，这种情况叫做一种“碰撞”。两个不同的东西生成了同样的结果。拿到360的例子上来说就是，你开了家网站，起了个特别诡异的名字，用奇虎的哈希算法算出来的结果和某个不良网站一样。那么你的网站就被当不良网站屏蔽掉了。一个好的哈希算法要保证尽可能的少产生碰撞。还是说你之前查字典的例子。这次你把字典拆了。给里面每个首字母下面又加了26个条目，分别是A-Z，里面装着以这些当结尾的单词。这样你随便挑两个单词是一个坑里出来的概率就小多了。然后突然你有一天觉醒了。感觉就差俩单词太费劲了。所以你买了本空字典，把天下单词挨个试一遍，终于把所有目录里面都填满了。然后你以后找单词就很方便了。别人给你一个单词首字母是A，你就随便从A里面找个应附上。虽然不知道是不是他说的那个，但至少看起来是一个坑里出来的就过关了。这字典就叫彩虹表。这东西写起来比较耗时。没准你算了二十年发现试过的那些单词首字母全是XYZ，但是人家每次给的都是ETA，那之前的活都白干了。虽然这种方法得到的不是原始记录，而仅仅是与之具有相同特征的记录。而且有这个特征的记录可能有一大堆。有的时候你碰巧拿到的就是原来的那个，但大多数拿到的都是垃圾。如果你的表很全的话，那很有可能一堆记录里面有个和原来的那条一模一样的。这时候你可以根据别的什么信息猜猜找的是什么。比如你俩正打架，然后找出来他给你的单词是F开头的，那基本上就能猜出来了。这就是哈希算法。一个好的哈希算法仅仅知道结果的话是极难反算出原始数据来的，特别是有意义的原始数据。

‘肆’ python之哈希算法

哈希(Hash)算法：`hash（object）`

哈希算法将一个不定长的输入，通过散列函数变换成一个定长的输出，即散列值。是一种信息摘要算法。对象的hash值比原对象拥有更低的内存复杂度。

它不同于加密。哈希（hash）是将目标文本转换成具有相同长度的，不可逆的杂凑字符串，而加密则是将文本转换为具有相同长度的，可逆的密文。

哈希（hash）算法是不可逆的，只能由输入产生输出，不能由输出产生输入。而加密则是可逆的。即可以从输入产生输出，也可以反过来从输出推出输入。

对于hash算法，不同的数据应该生成不同的哈希值。如果两个不同的数据经过Hash函数计算得到的Hash值一样。就称为哈希碰撞（collision）。哈希碰撞无法被完全避免。只能降低发生概率。

好的hash函数会导致最少的hash碰撞。

*

可哈希性（hashable）：

可哈希的数据类型为不可变的数据结构（如字符串srt，元组tuple，对象集objects等）。这种数据被称为可哈希性。

不可哈希性：

不可哈希的数据类型，为可变的数据结构（如字典dict，列表list和集合set等）。

如果对可变的对象进行哈希处理，则每次对象更新时，都需要更新哈希表。这样我们则需要将对象移至不同的数据集，这种操作会使花费过大。

因此设定不能对可变的对象进行hash处理。

**

**

Python3.x添加了hash算法的随机性，以提高安全性，因此对于每个新的python调用，同样的数据源生成的结果都将不同。

哈希方法有（MD5, SHA1, SHA256与SHA512等）。常用的有SH256与SHA512。MD5与SHA1不再常用。

- MDH5 (不常用)

- SHA1 (不常用)

- SHA256 (常用)

- SHA512 (常用)

一种局部敏感的hash算法，它产生的签名在一定程度上可以表征原内容的相似度。

> 可以被用来比较文本的相似度。

安装simhash：

Pip3 install simhash

感知哈希算法（perceptual Hash Algorithm）。用于检测图像和视频的差异。

安装Imagehash:

pip3 install Imagehash

比较下面两张图片的Imagehash值

可以看到两张图片的hash值非常相似。相似的图片可以生成相似的哈希值是Imagehash的特点。

‘伍’ 什么是哈希算法

就是空间映射函数，例如，全体的长整数的取值作为一个取值空间，映射到全部的字节整数的取值的空间，这个映射函数就是HASH函数。通常这种映射函数是从一个非常大的取值空间映射到一个非常小的取值空间，由于不是一对一的映射，HASH函数转换后不可逆，即不可能通过逆操作和HASH值还原出原始的值，受到计算能力限制（注意，不是逻辑上不可能，前面的不可能是逻辑上的）而且也无法还原出所有可能的全部原始值。HASH函数运用在字典表等需要快速查找的数据结构中，他的计算复杂度几乎是O(1)，不会随着数据量增加而增加。另外一种用途就是文件签名，文件内容很多，将文件内容通过HASH函数处理后得到一个HASH值，验证这个文件是否被修改过，只需要把文件内容用同样的HASH函数处理后得到HASH值再比对和文件一起传送的HASH值即可，如不公开HASH算法，那么信道是无法篡改文件内容的时候篡改文件HASH值，一般应用的时候，HASH算法是公开的，这时候会用一个非对称加密算法加密一下这个HASH值，这样即便能够计算HASH值，但没有加密密钥依然无法篡改加密后HASH值。这种算法用途很广泛，用在电子签名中。HASH算法也可进行破解，这种破解不是传统意义上的解密，而是按照已有的HASH值构造出能够计算出相同HASH值的其他原文，从而妨碍原文的不可篡改性的验证，俗称找碰撞。这种碰撞对现有的电子签名危害并不严重，主要是要能够构造出有意义的原文才有价值，否则就是构造了一个完全不可识别的原文罢了，接收系统要么无法处理报错，要么人工处理的时候发现完全不可读。理论上我们终于找到了在可计算时间内发现碰撞的算法，推算了HASH算法的逆操作的时间复杂度大概的范围。HASH算法的另外一个很广泛的用途，就是很多程序员都会使用的在数据库中保存用户密码的算法，通常不会直接保存用户密码（这样DBA就能看到用户密码啦，好危险啊），而是保存密码的HASH值，验证的时候，用相同的HASH函数计算用户输入的密码得到计算HASH值然后比对数据库中存储的HASH值是否一致，从而完成验证。由于用户的密码的一样的可能性是很高的，防止DBA猜测用户密码，我们还会用一种俗称“撒盐”的过程，就是计算密码的HASH值之前，把密码和另外一个会比较发散的数据拼接，通常我们会用用户创建时间的毫秒部分。这样计算的HASH值不大会都是一样的，会很发散。最后，作为一个老程序员，我会把用户的HASH值保存好，然后把我自己密码的HASH值保存到数据库里面，然后用我自己的密码和其他用户的用户名去登录，然后再改回来解决我看不到用户密码而又要“偷窥”用户的需要。最大的好处是，数据库泄露后，得到用户数据库的黑客看着一大堆HASH值会翻白眼。

‘陆’ 哈希算法是什么呢

哈希算法就是一种特殊的函数，不论输入多长的一串字符，只要通过这个函数都可以得到一个固定长度的输出值，这就好像身份证号码一样，永远都是十八位而且全国唯一。哈希算法的输出值就叫做哈希值。

原理：

哈希算法有三个特点，它们赋予了区块链不可篡改、匿名等特性，并保证了整个区块链体系的完整。

第一个特点是具有单向性。比如输入一串数据，通过哈希算法可以获得一个哈希值，但是通过这个哈希值是没有办法反推回来得到输入的那串数据的。这就是单向性，也正是基于这一点，区块链才有效保护了我们信息的安全性。

哈希算法的第二个特点是抗篡改能力，对于任意一个输入，哪怕是很小的改动，其哈希值的变化也会非常大。

它的这个特性，在区块与区块的连接中就起到了关键性的作用。区块链的每个区块都会以上一个区块的哈希值作为标示，除非有人能够破解整条链上的所有哈希值，否则数据一旦记录在链上，就不可能进行篡改。

哈希算法的第三个特点就是抗碰撞能力。所谓碰撞，就是输入两个不同的数据，最后得到了一个相同的输入。

就跟我们逛街时撞衫一样，而坑碰撞就是大部分的输入都能得到一个独一无二的输出。在区块链的世界中，任何一笔交易或者账户的地址都是完全依托于哈希算法生产的。这也就保证了交易或者账户地址在区块链网络中的唯一性。

无论这笔转账转了多少钱，转给了多少个人，在区块链这个大账本中都是唯一的存在。它就像人体体内的白细胞，不仅区块链的每个部分都离不开它，而且它还赋予了区块链种种特点，保护着整个区块链体系的安全。

‘柒’ 哈希算法的原理

什么是哈希算法？哈希是一种加密算法，也称为散列函数或杂凑函数。哈希函数是一个公开函数，可以将任意长度的消息M映射成为一个长度较短且长度固定的值H（M），称H（M）为哈希值、散列值（Hash Value）、杂凑值或者消息摘要。它是一种单向密码体制，即一个从明文到密文的不可逆映射，只有加密过程，没有解密过程。

Hash的特点

易压缩：对于任意大小的输入x，Hash值的长度很小，在实际应用中，函数H产生的Hash值其长度是固定的。

易计算：对于任意给定的消息，计算其Hash值比较容易。

单向性：对于给定的Hash值，要找到使得在计算上是不可行的，即求Hash的逆很困难。在给定某个哈希函数H和哈希值H（M）的情况下，得出M在计算上是不可行的。即从哈希输出无法倒推输入的原始数值。这是哈希函数安全性的基础。

抗碰撞性：理想的Hash函数是无碰撞的，但在实际算法的设计中很难做到这一点。

有两种抗碰撞性：一种是弱抗碰撞性，即对于给定的消息，要发现另一个消息，满足在计算上是不可行的；另一种是强抗碰撞性，即对于任意一对不同的消息，使得在计算上也是不可行的。

高灵敏性：这是从比特位角度出发的，指的是1比特位的输入变化会造成1/2的比特位发生变化。消息M的任何改变都会导致哈希值H（M）发生改变。即如果输入有微小不同，哈希运算后的输出一定不同。

导航:首页 > 源码编译 > 哈希碰撞算法

哈希碰撞算法

与哈希碰撞算法相关的资料