❶ php的memcached分布式hash算法,如何解决分布不均crc32这个算法没办法把key值均匀的分布出去
memcached的总结和分布式一致性hash
当前很多大型的web系统为了减轻数据库服务器负载,会采用memchached作为缓存系统以提高响应速度。
目录: (http://hounwang.com/lesson.html)
memchached简介
hash
取模
一致性hash
虚拟节点
源码解析
参考资料
1. memchached简介
memcached是一个开源的高性能分布式内存对象缓存系统。
其实思想还是比较简单的,实现包括server端(memcached开源项目一般只单指server端)和client端两部分:
server端本质是一个in-memory key-value store,通过在内存中维护一个大的hashmap用来存储小块的任意数据,对外通过统一的简单接口(memcached protocol)来提供操作。
client端是一个library,负责处理memcached protocol的网络通信细节,与memcached server通信,针对各种语言的不同实现分装了易用的API实现了与不同语言平台的集成。
web系统则通过client库来使用memcached进行对象缓存。
2. hash
memcached的分布式主要体现在client端,对于server端,仅仅是部署多个memcached server组成集群,每个server独自维护自己的数据(互相之间没有任何通信),通过daemon监听端口等待client端的请求。
而在client端,通过一致的hash算法,将要存储的数据分布到某个特定的server上进行存储,后续读取查询使用同样的hash算法即可定位。
client端可以采用各种hash算法来定位server:
取模
最简单的hash算法
targetServer = serverList[hash(key) % serverList.size]
直接用key的hash值(计算key的hash值的方法可以自由选择,比如算法CRC32、MD5,甚至本地hash系统,如java的hashcode)模上server总数来定位目标server。这种算法不仅简单,而且具有不错的随机分布特性。
但是问题也很明显,server总数不能轻易变化。因为如果增加/减少memcached server的数量,对原先存储的所有key的后续查询都将定位到别的server上,导致所有的cache都不能被命中而失效。
一致性hash
为了解决这个问题,需要采用一致性hash算法(consistent hash)
相对于取模的算法,一致性hash算法除了计算key的hash值外,还会计算每个server对应的hash值,然后将这些hash值映射到一个有限的值域上(比如0~2^32)。通过寻找hash值大于hash(key)的最小server作为存储该key数据的目标server。如果找不到,则直接把具有最小hash值的server作为目标server。
为了方便理解,可以把这个有限值域理解成一个环,值顺时针递增。
如上图所示,集群中一共有5个memcached server,已通过server的hash值分布到环中。
如果现在有一个写入cache的请求,首先计算x=hash(key),映射到环中,然后从x顺时针查找,把找到的第一个server作为目标server来存储cache,如果超过了2^32仍然找不到,则命中第一个server。比如x的值介于A~B之间,那么命中的server节点应该是B节点
可以看到,通过这种算法,对于同一个key,存储和后续的查询都会定位到同一个memcached server上。
那么它是怎么解决增/删server导致的cache不能命中的问题呢?
假设,现在增加一个server F,如下图
此时,cache不能命中的问题仍然存在,但是只存在于B~F之间的位置(由C变成了F),其他位置(包括F~C)的cache的命中不受影响(删除server的情况类似)。尽管仍然有cache不能命中的存在,但是相对于取模的方式已经大幅减少了不能命中的cache数量。
虚拟节点
但是,这种算法相对于取模方式也有一个缺陷:当server数量很少时,很可能他们在环中的分布不是特别均匀,进而导致cache不能均匀分布到所有的server上。
如图,一共有3台server – 1,2,4。命中4的几率远远高于1和2。
为解决这个问题,需要使用虚拟节点的思想:为每个物理节点(server)在环上分配100~200个点,这样环上的节点较多,就能抑制分布不均匀。
当为cache定位目标server时,如果定位到虚拟节点上,就表示cache真正的存储位置是在该虚拟节点代表的实际物理server上。
另外,如果每个实际server的负载能力不同,可以赋予不同的权重,根据权重分配不同数量的虚拟节点。
// 采用有序map来模拟环
this.consistentBuckets = new TreeMap();
MessageDigest md5 = MD5.get();//用MD5来计算key和server的hash值
// 计算总权重
if ( this.totalWeight for ( int i = 0; i < this.weights.length; i++ )
this.totalWeight += ( this.weights[i] == null ) ? 1 : this.weights[i];
} else if ( this.weights == null ) {
this.totalWeight = this.servers.length;
}
// 为每个server分配虚拟节点
for ( int i = 0; i < servers.length; i++ ) {
// 计算当前server的权重
int thisWeight = 1;
if ( this.weights != null && this.weights[i] != null )
thisWeight = this.weights[i];
// factor用来控制每个server分配的虚拟节点数量
// 权重都相同时,factor=40
// 权重不同时,factor=40*server总数*该server权重所占的百分比
// 总的来说,权重越大,factor越大,可以分配越多的虚拟节点
double factor = Math.floor( ((double)(40 * this.servers.length * thisWeight)) / (double)this.totalWeight );
for ( long j = 0; j < factor; j++ ) {
// 每个server有factor个hash值
// 使用server的域名或IP加上编号来计算hash值
// 比如server - "172.45.155.25:11111"就有factor个数据用来生成hash值:
// 172.45.155.25:11111-1, 172.45.155.25:11111-2, ..., 172.45.155.25:11111-factor
byte[] d = md5.digest( ( servers[i] + "-" + j ).getBytes() );
// 每个hash值生成4个虚拟节点
for ( int h = 0 ; h < 4; h++ ) {
Long k =
((long)(d[3+h*4]&0xFF) << 24)
| ((long)(d[2+h*4]&0xFF) << 16)
| ((long)(d[1+h*4]&0xFF) << 8 )
| ((long)(d[0+h*4]&0xFF));
// 在环上保存节点
consistentBuckets.put( k, servers[i] );
}
}
// 每个server一共分配4*factor个虚拟节点
}
// 采用有序map来模拟环
this.consistentBuckets = new TreeMap();
MessageDigest md5 = MD5.get();//用MD5来计算key和server的hash值
// 计算总权重
if ( this.totalWeight for ( int i = 0; i < this.weights.length; i++ )
this.totalWeight += ( this.weights[i] == null ) ? 1 : this.weights[i];
} else if ( this.weights == null ) {
this.totalWeight = this.servers.length;
}
// 为每个server分配虚拟节点
for ( int i = 0; i < servers.length; i++ ) {
// 计算当前server的权重
int thisWeight = 1;
if ( this.weights != null && this.weights[i] != null )
thisWeight = this.weights[i];
// factor用来控制每个server分配的虚拟节点数量
// 权重都相同时,factor=40
// 权重不同时,factor=40*server总数*该server权重所占的百分比
// 总的来说,权重越大,factor越大,可以分配越多的虚拟节点
double factor = Math.floor( ((double)(40 * this.servers.length * thisWeight)) / (double)this.totalWeight );
for ( long j = 0; j < factor; j++ ) {
// 每个server有factor个hash值
// 使用server的域名或IP加上编号来计算hash值
// 比如server - "172.45.155.25:11111"就有factor个数据用来生成hash值:
// 172.45.155.25:11111-1, 172.45.155.25:11111-2, ..., 172.45.155.25:11111-factor
byte[] d = md5.digest( ( servers[i] + "-" + j ).getBytes() );
// 每个hash值生成4个虚拟节点
for ( int h = 0 ; h < 4; h++ ) {
Long k =
((long)(d[3+h*4]&0xFF) << 24)
| ((long)(d[2+h*4]&0xFF) << 16)
| ((long)(d[1+h*4]&0xFF) << 8 )
| ((long)(d[0+h*4]&0xFF));
// 在环上保存节点
consistentBuckets.put( k, servers[i] );
}
}
// 每个server一共分配4*factor个虚拟节点
}
// 用MD5来计算key的hash值
MessageDigest md5 = MD5.get();
md5.reset();
md5.update( key.getBytes() );
byte[] bKey = md5.digest();
// 取MD5值的低32位作为key的hash值
long hv = ((long)(bKey[3]&0xFF) << 24) | ((long)(bKey[2]&0xFF) << 16) | ((long)(bKey[1]&0xFF) << 8 ) | (long)(bKey[0]&0xFF);
// hv的tailMap的第一个虚拟节点对应的即是目标server
SortedMap tmap = this.consistentBuckets.tailMap( hv );
return ( tmap.isEmpty() ) ? this.consistentBuckets.firstKey() : tmap.firstKey();
更多问题到问题求助专区(http://bbs.hounwang.com/)
❷ 文本相似度之Sim_hash算法
本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。
最近项目有用到Sim_hash,做个简单记录。
Sim_hash是Google用来处理大量文本去重的算法,属于 局部敏感哈希(Locality Sensitive Hashing,LSH) ,LSH哈希能够使两篇只有小部分改动的文章编码后哈希值具有相似性,既可用于去重,也可用于计算相似度。对于只有小部分改动的两篇文章,在计算他们之间的相似度时,如果采用md5,两篇文章的md5编码值差异会非常大。但使用局部敏感哈希可以使相似的文章哈希编码后聚集在一起,删除符合阈值条件的文章,达到去重的效果。
一、算法流程
1)分词:对文本进行去停用词、分词,提取n个关键词和关键词的tf-idf权重来表征文章。如下图分词及权重。
2)关键词哈希编码:每个关键词通过hash函数生成固定位数二进制哈希。
3)权重编码:二进制编码中0调整为-1变为权重向量,与权重相乘。
4)权重编码叠加:将所有权重编码纵向求和,得到最终的文章权重。
5)二值化:按正数为1负数为0的规则将文章权重二值化。
6)汉明距离相似度:排除汉明距离小于阈值的文章,一般设置为3。汉明距离计算速度快,思路简单,原理是计算两个二值化编码相同位置处的不同值的个数。
二、Sim_hash整体流程
需求: 来了一个相似文章推荐需求,需要推荐出与文章内容相似的数据,但又不能完全相似。利用目前库中已有的POI标签和POI权重数据,结合simhash算法,计算出每个文章poi_sim_hash,计算距离
数据: 线上拉取10W文章数据
测试结果: 下图为随机抽样的测试结果(第一条为查询数据),基本 符合预期效果 。前期还可以使用 类目和发布时间 进行前置过滤,减少数据量。
❸ 百度主流相关性算法有哪些你知道多少
一般是谷歌能走到哪一步,网络也会跟到哪一步。除了PR值的算法,是基于李彦宏。 这里介绍的主流算法是—— Simhash算法 1、主流算法——Simhash算法 我们一般判断文本与文本之间的相关性是很容易的。你算法的效率,直接决定了你的使用性。 通过此算法能够了解网页间的相关性对比和搜索引擎达到去重的效果。网络和谷歌都有基于此原理。这个大家可以网络一下具体解释。 2、相关性算法的对比程度 我们了解算法,是为了获得更多的权重。在应用上,我们主要在以下几个方面。 第一:外链的有效性方面。比如,你是旅游类站点,那么你做的友链都是旅游类。那么有些企业站很难找到相关的。那么可以找,本地的,同行业的。但是我们心里清楚,相关性的总比不相关性的好。那么找本地的、同行业的大家都没有底,但是不管你是找同行业的还是本地的,其实没有那么大的影响。 第二,站内相关性。比如说内链,现在内链的列表都是随机推荐的。随机推荐的效果是最差的。随机推荐的越多,质量就最低,也是网络这次算法调整的内容之一,那么那些网站是最多的?医疗站,几乎是所有行业里面最普遍的。随机生成 这里,老师将会让你彻底改变关于相关性的看法。一个是外链相关性方面,一个是内链相关性方面,一定要看仔细了。 3.外链方面的相关性方面 分两个层次的应用。这里讲两个基础的两个概念,一个是谷歌PR值算法和网络的超文本链接算法,是怎么来识别权威性的?我们在一个行业为什么要进行权威性的识别?在任何团队里面都有自己的领袖,这个是一个自然现象。因为权威性的指导,能够给信息带来信用度。对信用的评级是有一定的层级的。因为搜索引擎是一个信息平台,那么对信息就必须有一个权威性指导。所以搜索引擎就必须有两个识别,一个是枢纽,一个是权威性。那么什么是枢纽?中心的意思。 权威性的建立,是有一些枢纽组成的。一个权威性站点,是接收了很多枢纽的指向的。枢纽是链接,但是链接不一定是枢纽。这个就是ICO标签。如果你想成为权威性网站,那么你要做的应该是不同行业的链接。如果你做的都是同行业的链接,你就成为不了权威性网站。 权威是指整个互联网的权威,还是某个行业?权威可不可以跨行?旅游行业的权威网站可不可以对酒店行业网站投票?我们所说的 高权重站点,针对的是行业,不是跨行业。 我们听说一个高权重网站,我们都去发外链,以为可以带来大量权重,其实错了。他只能给他的那个行业的网站带来权重。 枢纽链接是对不同的权威网站进行指向的。这个链接的导出页面(枢纽),是对不同行业进行导向的。 如果你的网站都是同行业的,那么你不是枢纽,也不可能称为权威。做外链,请找枢纽 了解搜索引擎的相关性算法了吗?
❹ simhash如何进行文本查重
有1亿个不重复的64位的01字符串,任意给出一个64位的01字符串f,如何快速从中找出与f汉明距离小于3的字符串?
大规模网页的近似查重
主要翻译自WWW07的Detecting Near-Duplicates for Web Crawling
WWW上存在大量内容近似相同的网页,对搜索引擎而言,去除近似相同的网页可以提高检索效率、降低存储开销。
当爬虫在抓取网页时必须很快能在海量文本集中快速找出是否有重复的网页。
论文主要2个贡献:
1. 展示了simhash可以用以海量文本查重
2. 提出了一个在实际应用中可行的算法。
两篇文本相似度普遍的定义是比较向量化之后两个词袋中词的交集程度,有cosine,jaccard等等
如果直接使用这种计算方式,时间空间复杂度都太高,因此有了simhash这种降维技术,
但是如何从传统的向量相似度能用simhash来近似,论文没提,应该是有很长一段推导要走的。
Simhash算法
一篇文本提取出内容以后,经过基本的预处理,比如去除停词,词根还原,甚至chunking,最后可以得到一个向量。
对每一个term进行hash算法转换,得到长度f位的hash码,每一位上1-0值进行正负权值转换,例如f1位是1时,权值设为 +weight, fk位为0时,权值设为-weight。
讲文本中所有的term转换出的weight向量按f对应位累加最后得到一个f位的权值数组,位为正的置1,位为负的置0,那么文本就转变成一个f位的新1-0数组,也就是一个新的hash码。
Simhash具有两个“冲突的性质”:
1. 它是一个hash方法
2. 相似的文本具有相似的hash值,如果两个文本的simhash越接近,也就是汉明距离越小,文本就越相似。
因此海量文本中查重的任务转换位如何在海量simhash中快速确定是否存在汉明距离小的指纹。
也就是:在n个f-bit的指纹中,查询汉明距离小于k的指纹。
在文章的实验中(见最后),simhash采用64位的哈希函数。在80亿网页规模下汉明距离=3刚好合适。
因此任务的f-bit=64 , k=3 , n= 8*10^11
任务清晰,首先看一下两种很直观的方法:
1. 对输入指纹,枚举出所有汉明距离小于3的simhash指纹,对每个指纹在80亿排序指纹中查询。
(这种方法需要进行C(64,3)=41664次的simhash指纹,再为每个进行一次查询)
2. 输入指纹不变,对应集合相应位置变。也就是集合上任意3位组合的位置进行变化,实际上就是提前准备41664个排序可能,需要庞大的空间。输入在这群集合并行去搜....
提出的方法介于两者之间,合理的空间和时间的折中。
• 假设我们有一个已经排序的容量为2d,f-bit指纹集。看每个指纹的高d位。该高低位具有以下性质:尽管有很多的2d位组合存在,但高d位中有只有少量重复的。
• 现在找一个接近于d的数字d’,由于整个表是排好序的,所以一趟搜索就能找出高d’位与目标指纹F相同的指纹集合f’。因为d’和d很接近,所以找出的集合f’也不会很大。
• 最后在集合f’中查找和F之间海明距离为k的指纹也就很快了。
• 总的思想:先要把检索的集合缩小,然后在小集合中检索f-d’位的海明距离
要是一时半会看不懂,那就从新回顾一下那两种极端的办法:
方法2,前61位上精确匹配,后面就不需要比较了
方法1,前0位上精确匹配,那就要在后面,也就是所有,上比较
那么折中的想法是 前d- bits相同,留下3bit在(64-d)bit小范围搜索,可行否?
d-bits的表示范围有2^d,总量N个指纹,平均 每个表示后面只有N/(2^d)个
快速定位到前缀是d的位置以后,直接比较N/(2^k)个指纹。
如此只能保证前d位精确的那部分N/(2^d)指纹没有遗漏汉明距离>3的
因此要保证64bits上所有部分都安全,全部才没有遗漏。
方法2其实就是把所有的d=61 部分(也就是64选61)都包含了。
按照例子,80亿网页有2^34个,那么理论上34位就能表示完80亿不重复的指纹。
我们假设最前的34位的表示完了80亿指纹,假设指纹在前30位是一样的,那么后面4位还可以表示24个,只需要逐一比较这16个指纹是否于待测指纹汉明距离小于3。
假设:对任意34位中的30位都可以这么做。
因此在一次完整的查找中,限定前q位精确匹配(假设这些指纹已经是q位有序的,可以采用二分查找,如果指纹量非常大,且分布均匀,甚至可以采用内插搜索),之后的2d-q个指纹剩下64-q位需要比较汉明距离小于3。
于是问题就转变为如何切割64位的q。
将64位平分成若干份,例如4份ABCD,每份16位。
假设这些指纹已经按A部分排序好了,我们先按A的16位精确匹配到一个区间,这个区间的后BCD位检查汉明距离是否小于3。
同样的假设,其次我们按B的16位精确匹配到另一个区间,这个区间的所有指纹需要在ACD位上比较汉明距离是否小于3。
同理还有C和D
所以这里我们需要将全部的指纹T复制4份,T1 T2 T3 T4, T1按A排序,T2按B排序… 4份可以并行进行查询,最后把结果合并。这样即使最坏的情况:3个位分别落在其中3个区域ABC,ACD,BCD,ABD…都不会被漏掉。
只精确匹配16位,还需要逐一比较的指纹量依然庞大,可能达到2d-16个,我们也可以精确匹配更多的。
例如:将64位平分成4份ABCD,每份16位,在BCD的48位上,我们再分成4份,WXZY,每份12位,汉明距离的3位可以散落在任意三块,那么A与WXZY任意一份合起来做精确的28位…剩下3份用来检查汉明距离。同理B,C,D也可以这样,那么T需要复制16次,ABCD与WXYZ的组合做精确匹配,每次精确匹配后还需要逐一比较的个数降低到2d-28个。不同的组合方式也就是时间和空间上的权衡。
最坏情况是其中3份可能有1位汉明距离差异为1。
算法的描述如下:
1)先复制原表T为Tt份:T1,T2,….Tt
2)每个Ti都关联一个pi和一个πi,其中pi是一个整数,πi是一个置换函数,负责把pi个bit位换到高位上。
3)应用置换函数πi到相应的Ti表上,然后对Ti进行排序
4)然后对每一个Ti和要匹配的指纹F、海明距离k做如下运算:
a) 然后使用F’的高pi位检索,找出Ti中高pi位相同的集合
b) 在检索出的集合中比较f-pi位,找出海明距离小于等于k的指纹
5)最后合并所有Ti中检索出的结果
由于文本已经压缩成8个字节了,因此其实Simhash近似查重精度并不高: