‘壹’ Google和百度SEO有哪些区别
网络seo与谷歌seo总结如下18条,具体如下:
1: 网络与谷歌优化区别—内链规则
SEO博客 www.dfsseo.com
网络非常看重网站的首页,网络的权重按首页到内页依次降权,所以网络要好的排名就从首页抓起。而谷歌不一样,谷歌不太关心网站的深度问题,这样
就导致在谷歌有些网站的二级或者更低级的页面有比较好的排名的原因。另外,网络对做好内部的链接也非常重视,一个好的内部链接,既有利于网络蜘蛛爬行,又
利于用户的体验。总之,网络对网站的内部比较重视点,而谷歌对网站的外部链接质量比较重视点。
Google基本不考虑链接的深度问题,他所考虑的是符合检索者,所以很多低一级的目录页面很容易得到好的排名。而网络对待链接深度有一定的等级制度,首页权重最高,内页则会下降一个等级。
2、网络与谷歌优化区别—新站页面收录时间
网络对新站的收录往往比谷歌要慢,一个新站谷歌往往在1到2天内就收录,网络也许需要更长的时间,在内页的收录上谷歌收录速度快而且很快放出
来,而网络即使很快收录了首页,但是对新站内页的收录特别慢,即使是收录了放出来也很慢,这就是很多新网站的站长经常会问,为什么网站被网络收录了,但是
发表的文章网络总是没有收录而谷歌早就收录了。
说了那么多,很多人可能会认为网络优化和谷歌优化会有很的区别,其实不然,网络优化和谷歌优化本质是一样的,只是有些细节不同而已。不要迷信谷歌优化和网络优化的不同,一个真正的SEO高手往往在谷歌优化和网络优化都能做得不错,
网络喜欢从一个网站的链接找到另外一个网站,我现在做站一般都不去提交,而是找几个蜘蛛经常去的站加几个链接,交换友情链接,开个新浪博客,基本上只要收录很快网站也会收录。然后慢慢的更新,慢慢的收录。通过链接来让搜索引擎收录是个不错的选择。
google喜欢看你一个网站的更新度与内容,如果内容重复就会变成了补充资料。更新这个环节,其实不管对什么搜索引擎都是一个很重要的因素。谁也不喜欢一潭死水的站,因为对互联网贡献不大,搜索引擎当然不会重视。我们经常说的互联网精神就是共享,贡献。
从新站收录的时间来讲,google快于网络,网络对于新站不会立刻收录,甚至相当长的时间内都不会收录,只有通过网络的考验期后,网络才会大量收录该站点内容,这需要很长一段时间,这点通常都让站长们感到焦急。
一般情况下谷歌的收录要比网络快,只要在谷歌登陆入口提交网址或者是在一些比较活跃网站做一些外链,很快便会被谷歌收录;网络对于新站不会立刻
收录,甚至相当长的时间都不收录,新网站通过网络的考核期后,网络才开始收录你的网站,这个考核期对于很多站长来说是比较难熬的,考核期的时间有时候确实
让人琢磨不透,有的网站甚至一个多月两个月才开始收录,也有的网站两三天就收录了,如果说是一些高质量的网站收录快,质量较差的网站收录慢也能理解,可是
据我了解一些非法的网站、质量很差的网站也有很多很快就被收录了,这就让人有些琢磨不透了。我的这个博客上线第二天谷歌就收录了,第二十天才被网络收录。
谷歌和网络对与新站的收录上规则是明显不一样的,谷歌一般是一开始不管你网站内容的质量就开始大量的收录,然后再慢慢的审核筛选和删除,这也是一些网站为
什么刚收录的时候收录的页面还挺多的,可是过一段时间以后收录的页面就变少的原因。而网络一般是先通过一段时间对你网站内容的审核,才开始收录你的网站,
可能大蜘蛛很早就抓取你的网页了,可是要过好长时间才释放出来。
3、网络与谷歌优化区别—排名优化规则
google比网络慢,因为对于新站google有一个沙盒效应,新站优化的再好,六个月之内也可能没有很好的排名!不过沙盒是可以避免的,这
就需要SEO人员去好好规划和设置了!因为google排名本身就比网络慢!优化不可一下子过多,要循序渐进,不能操之过急。网络可能当你收录后就可能排
名很靠前,而Google不会这样,当然各搜索引擎排名也有其自身不确定的因素.需要各站长们自己在seo实践中进行总结。
网络关键词排名经常大起大落,经常是优化到一段时间,所有的关键词会同时提升,流量也会突然暴涨,对于新站的关键词排名,网络要快于谷歌,一般
是被收录后,关键词密度高的往往很快获得很好的排名,但是不久排名就会下降,而且只要网站被惩罚,网络上的排名可能在一夜之间全部消失,而谷歌则不是这
样,谷歌对新站考核期比较长,新站要想在谷歌中有好的排名,需要一步一步的去优化,也就是谷歌对网站的排名处理总是循序渐进的过程,在几个月的时间内平稳
的增长,即使网站作弊,只要不是很严重关键词排名也不会一夜之间全部消失。
以下是总结的网络和google的排名规则:
网络的排名规则:
<1>、网络喜欢收录title里为单个关键字的网页,并且排名很靠前。
<2>、网络喜欢收录静态的以关键字命名的目录或者html文件。排名当然也很靠前。
<3>、网络喜欢给title关键字列表里面的,列表内容含有的title关键字多的页面排名靠前。
<4>、网络喜欢把顶级域名首页title里的关键字排名靠前,并且不论是alexa是多少,都有挺靠前的排名。(要求当然是顶级域名的,而且是首页文件,超级热门的关键字除外。)
<5>、网络喜欢从其他优秀网站自动收录你的网站,比如我在网络空间发表的文章里面含有自己网站的地址,那么网络会自动收录的。而且速度比较快。
<6>、建议大家使用的meta标签:
google的排名规则:
<1>、google喜欢把网站地址含有关键字的网站排名靠前。
<2>、google喜欢收录网站地图。
<3>、google网站管理员工具。相信有很多站长都知道这个工具但很少听人介绍他的加速功能,没错!他能加速google对你
网站的收录使你的网站被他收录得更多,就是在你登陆google网站管理员工具以后点击管理你的站点,里面有个工具菜单,打开他你可以看到设定检索速率
,你根据他的提示把速率提升到较快就可以了。
4、网络与谷歌优化区别—外链权重
谷歌重视的是链接的相关性,网络不仅重视相关性,而且还考虑连接的广泛度。所以新站需要投放大量的高质外链来增加网站的权重。不管怎样,只要是
高质量的站点,网络和Google都会喜欢的。网络非常在意外链的数量,但同样重视质量,但是谷歌比网络更加看重外链的质量。综合这一点来看谷歌给内文链
接权重比较高,便网络给首页外链权重比较高。所以说,我们做网站优化时,我们应该既要做好外链的数量,更要做好外链的质量。这样都做好了,网络和谷歌才能
同步发展。
在对待外链上,谷歌对外链很重视,查看谷歌排在前几十位的网页外部链接,你就会发现比较一致的趋势,排在前面的通常比排在后面的外部链接质量
高,数量也多,哪怕你的网站比较垃圾,但是如果拥有大量高质量相关的外链,你的网站也可以得到比较好的排名;但是在网络,如果你网站太垃圾的话,高质量的
外链对你的帮助是没有谷歌那么大的。不管怎么说只要是高权重、高质量的外链,网络和谷歌都会喜欢,对提升你网站的权重和排名都是有帮助的,只是帮助的大小
上有些区别。
在对待外链上,网络不仅仅要链接的相关度,也要链接的广泛度;而谷歌更多考虑的是链接的相关性和时序性,谷歌比网络更加看重外链,哪怕你的网站
比较垃圾,但是如果拥有大量高质量相关的外链,你的网站也可以得到比较好的排名;但是在网络,如果你网站的太垃圾的话,高质量的外链对你的帮助是没有谷歌
那么大的。不管怎么说只要是高权重、高质量的外链,网络和谷歌都会喜欢,对提升你网站的权重和排名都是有帮助的,只是帮助的大小上有些区别;如果能把网站
质量提高、内容做好,再加上高质量的外链,不管是在网络和谷歌都能取得好的排名的。
5、网络与谷歌优化区别—内容喜好偏重
网络偏重于游戏,娱乐,音乐,休闲生活等类,就像一个小伙子,如网络很喜欢的猫扑。google偏重于技术类,
google像一个技术前辈,喜欢原创,也喜欢有技术含量的东西。其中有很多判断原创的因素,其中就有网页的反向链接,收录的时间,PR值的高低等等,很
多因素加在一起决定了你的网站的排名和权重。
6、网络与谷歌优化区别—分词方法与算法
网络和谷歌SEO优化的分词方法有区别,网络是中国,谷歌更倾向于英文,所以说在分词的时候,网络和谷歌大有不同。网络谷歌分词技术的很大不
同,只能说网络更懂中文。所有我们不要选一些容易让搜索引擎分错的关键词,不然吃亏的是自己。
谷歌不知道分词的时候要用描文本链接来提示它,这个描文本无论站内的站外的都可以。我们可能都有这样的体验,我们网站的主关键词明明已经排到网络的第一
页,而在谷歌却排在第二页或是第三页,为什么呢?经过研究发现就是因为网络和谷歌的分词方法不同而造成的,所以说我们一定做好关键词的描文本链接来提示。
自身的算法方面:网络没有一个标准的算法,可能有多套算法,因此排名也不稳定,一直会变动,而谷歌的算法基本上可以说是定下来了,这就给新站更有了机会去
提高排名,而网络给新站都是没有排名的。分词技术的不同,经常导致一些排名结果的不一样。所以说,当你SEO选择关键词,或者是给网站起名字,写MATA
代码等工作的时候,千万记住了。一定要弄一个网络跟谷歌都不会分错的词。这样对于你的
SEO结果来说。无论是网络,还是谷歌都可以获得很好的排名,这就不少人在网络SEO的时候,最后谷歌的排名也上去了的一些原因吧。
7、网络与谷歌优化区别—页面收录
网络和谷歌SEO优化的页面收录有区别,这个收录的区别主要是谷歌对图片站可以很宽容,即使文字内容不多也会收录,但是对于网络而言就不是这样
了,网络很难识别图片,当蜘蛛爬进我们的页面的时候就有些摸不到头脑了,网络蜘蛛识别图片的能力比较差,所以说网络要先观察一个周期没发现异常才会放出
来,收录的数量也没有谷歌多。而谷歌比网络更能接受图片站。综合这一点来看,我们做网站优化的时候就应该针对网络和谷歌收录内容的区别来优化网站,内容图
片和文字的一定都要做好。
8、网络与谷歌优化区别—外链锚文本
网络和谷歌SEO优化的外链锚文本有区别,而这个区别主要表现在:网络和谷歌都比较看重锚文本外链,两者相对而言谷歌比网络更加注重外链锚文
本。例如拿一个人的权威必做网站的权重,别人对这个人的评价必做描文本,网络更注重这个人的权威,而谷歌更注重老百姓对他的评价,即用户体验度。两者重视
的方向不同,所以就会出现不同的收录情况。但对于我们做站长的而言,我们要做的就是既要注重外链锚文本的数量,同样注重外链锚文本的质量,这样一来,网络
和谷歌我们就做好同步的优化。
9、网络与谷歌优化区别—网站内容更新频率:
网络对网站更新比较看重,持续有规律的增加内容往往可以有效的提高在网络的排名,谷歌似乎对网站内容的更新没有网络那么敏感,有些网站几年不更新内容,但是排名往往没有下降。
网络喜欢一直更新内容的网站,这就是为什么那么多站长都会坚持着重新自己的文章的原因,而谷歌,不太看重,有些网站不经常更新,排名也可以稳定,若网络这样的话,排名可能很就掉了几名。
10、网络与谷歌优化区别—网站页面权重:
网络似乎很多网站的权重主要都集中在首页,二三级页面似乎比首页要低一个等级,所以二三级页面的关键字排名靠前的比较少,而谷歌对所有
的页面一视同仁,不管是首页还是内页,在搜索结果页面上,谷歌较多的返回网站内页,而要想在网络上获得比较好的排名,经常需要靠首页,当然很多大网站内页
在网络的排名也是不错的。
11、网络与谷歌优化区别—对于网站内容页
在对待网站的内容页的关键字排名上谷歌和网络应该说也是有一些比较大的区别的,个人觉得谷歌比网络考虑更多的是搜索结果要更加符合搜索者的需
求,所以很多二三级页面在谷歌也能得到一个比较好的排名;然而在网络似乎很多网站的权重主要都集中在首页,二三级页面似乎比首页要低一个等级,所以二三级
页面的关键字排名靠前的比较少。
12、网络与谷歌优化区别—对待原创与转载
网络对于转载的文章,如果是在权重比较高的网站,搜索文章的时候往往会把权重高的放在前面,而原始的博客比较靠后,而谷歌不一样,谷歌比较重视
原创的网站,只有转载的文章都带有原创文章的地址,搜索文章的时候,排在前面的就是原创的网站。这也是一部份人说谷歌搜索比较准确的原因。
网络喜欢抓取一个内容页的第一部分内容,当然title的重要性仍是不言而喻的。我们在添加文章或者网站信息的时候,对第一段的文字要适当的加工一下。
大家自己注意把握。网络目前好像还是天天小更新,一周基本上有个大点的更新,大家摸索到他的脾气后会更好的做站。
google还是喜欢抓取描述这一部分内容。比较喜欢严谨点的东西。描述的写法就是把核心的关键词写进去,但是写的时候要不留一点痕迹。一般而言,通顺符合一般说话的语言是比较好了,不能太长。
13、网络与谷歌优化区别—惩罚规则:
网络相对于谷歌较多的为人工干预,而谷歌基本上不参与人工干预。网络比谷歌看重你网站的代码title,MATA,H1
H2等等,网络也比较喜欢title里面只有当页的关键字的网站,这样有可能得到比较好的排名。另外,网络对于国内的一些热点词语比较敏感,比如说当前的
温州动车事件,如果你的网站出现,网络就更有可能去你的网站观顾。
网络比较喜欢从高权重的网站里收录你的网站,比如说我在一高权重的网站发表了文章,文章里面有我们的网址,这样我们的网站就比较快被收录,这种高权重网站,我觉得网络空间为首选,毕竟也是网络自己的产品。
网络如果把你的一个站突然降权了,相信这是一个调整,会在二天内调整回来,权重可能有一些小降!因为搜索引擎的算法是不断改变的,你只能是摸索,适应。
以上八点就是关于网络和谷歌SEO优化时的区别,我们做为站长的掌握了网络和谷歌的区别,那么我们才能找到更好的针对网络和谷歌的找到优化方
法,只有这样,我们才能百战百胜,俗话说的好,知已知彼方能战无不胜,就是这个道理。网络和谷歌我们需要利用好,才能有利于我们网站的发展,互联网依赖于
搜索引擎,而搜索引擎同样依赖于互联网的网站。
14、网络与谷歌优化区别—公正公开
网络不公平,不公正,不公开,有很大的漏洞可以钻;
谷歌公平,公正,公开,很容易优化,对新站很友好,但是给新站每天带来的流量很少很少,少到可以忽略不计
15、网络与谷歌优化区别—操作难易度
做SEO的朋友都知道Google优化简单,网络优化难琢磨,呵呵,
因为Google按照标准来就行了,但是网络不行,所以说SEO就是一个研究与试验的过程。
15、网络与谷歌优化区别—优化风格
网络靠内在修为,这也是老生常谈的话题了。的确如此,网络非常看重你网站的代码title,MATA,H1
H2等等。当然还有你的内部链接数量,你内部链接的质量。还有你网站的内容,我经常,网络跟谷歌是不同的MM泡他们需要不同的手段[网络是时尚MM,那么
Google就是时尚女性]
。网络对于一些新潮敏感的词汇,给与的抓取权重是非常高的。比如现今的残奥会,如果你的网站有这个内容,那么网络的蜘蛛爬行速度是非常快的。GOOGLE
的蜘蛛爬行还是靠你外部链接的数量决定的。所以来说。GOOGLE更注重你网站的外部链接。你的网站外部链接越优秀,谷歌就会认为你的网站越好。如果你有
一篇原创的文章,被大量的转载,然后转载的链接都有一条地址,指向你的原文。那么谷歌就会认为。哦,这个是你的内容,很好大家都喜欢,NICE。然后他就
会经常回访你的网站。
其实如果你针对GOOGLE优化来说,最好放弃自己网站上的description,keywords,这些内容干脆什么都不写,让谷歌自己去认。这样的
优点就是,相同的页面,可以符合更多的关键词。远远比你写在代码里面要多的多,如果你在keywords里面写入很多的关键词的话,谷歌会认为你这样不
好,可是当你的页面的确有很多关键词,而且代码里面没固定写什么关键词的话。谷歌就会自己进行匹配。。所以。他自己作的事。你说他自己认为好不好。
网络更注重的就是网站的用户体验度,也就是我们所说的网站要保持更新,保持原创,如果某个网站的回头率比较搞的话,用户停留的时间比较长,内容比较多的话网络的排名肯定会更好!
而GG更注重网站的外链,这一点我绝对有体会,我曾经用了两个小时的时间手动发链接把一个几乎没有任何文字的网站的一个关键从第三页弄到首页的底三位(当然关键词不是很热!),也就是说要想自己网站要想在GG上有个好的排名,外链是很重要的!
但网络就不行了!他讲究的是用户的体验度的问题讲究的是网站的质量,这也就是很多的网站公司为什么不承诺把网站做个网络的首页,而承诺做在GG
的首页,以为他们无法改变网站的体验度的问题!他们不可能每天都去更新别人的网站(网络公司每个seoer同时有几十个网站),他们只能来拼命的加网站的
外链!我的良心比较好一点,我不用群发!
16、网络与谷歌优化区别—优化重视点:
我们常常讲“内容为王,外链为皇”,就seo实际而言,网络注重的是“王”,而GG注重的是“皇”。从这也就看出来了,为什么网络会霸占中国的市场,而GG在中国只能在门外!这也就是为什么国人们如此喜欢网络了!
说明一点:我所说的网络注重网站的内容,没有说网络不需要外链!GG注重外链,如果是热门的关键词的话,还是要内容的!
网络优化:网络更倾向于网站内部的因数,包括原创内容、网站结构、关键字布局、内部链接等,当然外部链接也很重要但网络对其不是很感冒。
google优化:外部链接就是王牌,就算你的网站有点垃圾,但拥有大量高质量的内容相关的外部链接,google排名也不错。
网络优化:网络对内容的丰富、关键字密度、html代码规范、RSS很敏感,对外部链接重视程度不如google。
‘贰’ 为什么我的网站在google很快就有了排名,而百度却一直没有,百度和google的SEO有什么区别
对于不同搜索引擎的优化,原理是相通的,基本方法也大同小异,只是在一些细节有不同罢了。不同搜索引擎的未来趋势是越来越相似,SEO人员应该更多地考虑搜索引擎的相似之处。只要抓住SEO的根本原理,做好基础优化,一般来说所有的搜索引擎排名都会不错,不同的搜索引擎上细微差别造成不同的排名是正常的,但对一个优秀的网站来说,不会有太大的区别。
在收录方面,Google很容收录新的网站,一个新网站上线后,如果有几个相对不错的外链,Google就会很快收录新网站,网站上内容就是转载的文章不是原创,影响也不会太大。但是GOOGLE有沙盒效应,收录容易,想获得好的排名就比较难了。网络正好相反,新网站让网络收录是一个难题,要需要比较长的考核期。但是一旦被收录,比较容易获得排名和流量。网站在开始的时候原创性对于网络来说比较重要。
网络对首页比较看重,对内页相对要次要,而GOOGLE对所有页面一视同仁,不管是首页还内页,在搜索结果时,Google返回的内页想对要多。而要在网络获得好的排名,而是需要首页,因此可能会影响网站架构及不同关键词在网站上的分布处理。
Google对外链接很重视,对页面内容则没有这么敏感。经常看到排在第一页的页面中,关键词在页面上出现一次的也没有,有的出现十次的也有。但是还是建议大家把关键词密度控制在2%到8%之间。Google对于关键词在页面上出现在的次数、位置、看不出明显、有规律的偏好。而查看排在前几十位的页面的外部链接,排在前面的通常比排在后面的外部链接质量高,数量也多。
网络对外部链接的依赖性相对要小,对页面的相关性却比较敏感,主要体现在,在网页的正确位置出现关键词有助于排名,但对关键词显得堆积时更容易引来惩罚。相对于GOOGLE不会因为关键字出现多次给予好的排名,也不会因为关键词出现次数给予惩罚。
网络排名经常大起大落,而GOOGLE对网站的排名总是渐近式的,在几个月的时间内平稳增长。网络上的排名可能在一夜之间全部消失。网络对网站更新比较看重,持续有规律增加内容往往可以有效地提高在网络的排名。GOOGLE对更新没有这么敏感,当然持续更新肯定是好事。总的来说。本质上各搜索引擎没有区别,只要大家做好基本优化工作就可以了。
希望能够帮助你!
‘叁’ 百度和Google的搜索算法,技术有何差异
我们直接分析博百优在网络和谷歌首页排名情况,就可以知道,网络与谷歌的排名算法有较大的出入,不过随着时间的推移,这种差异会越来越小,毕竟搜索引擎排名的核心思想都是差不多的,都是给用户提供最实用的信息。
一、分析谷歌与网络的细节异同
1、从这次比赛看来,谷歌对新站有特别照顾机会,前期会获得不错的排名,不过,慢慢的又会降下来,网络虽然对新站也有特别照顾机会,不过和老网站比起来,这些机会几乎看不到了。
2、网络的老站权重继承
很明显,这次比赛,大部分人都是通过修改标题形式参赛,所以在短时间内都在网络获得不错的排名,这都利益于老站权重的继承,看谁原站的权重高,在前期就排的最前面,谷歌似乎这种情况不太明显,改了标题后,就会从新对你考察,考察你的相关内容是否丰富,是否相关性很强,在决定你的排名情况,而不考虑以前权重有多高。
3、虽然网络和谷歌对外链的数量和质量影响网站权重的重要因素,但谷歌更注重外链的质量上,如果你的站外链质量非常多,一般都能获得不错的排名。
4、对原创文章的分析上,谷歌分析水平比网络更高,对原创质量要求更高,伪原创分辩能力更强。这一点不得不承认谷歌技术的先进。
5、谷歌对主域名排名更具有优先权,博百优官方网子论坛,虽然外链和内容上都远远超过其它参赛站点,但在谷歌前几页都找不到博百优官方网子论坛,期重要原因是谷歌对主域名具有更高的权重。
二、分析以下几个重要因素的异同
1、原创方面
网络和谷歌对原创都非常看重,内容为王,这是永久的真理,不过谷歌对原创文章质量分析能力更强。
2、外链方面
无论是网络和谷歌,外链绝对是影响排名的重要因素,质量比数量更重要,但谷歌更看重高质量的外链,对排名的作用会更大一些。
3、内容相关性方面
无论哪个搜索引擎,内容与主题越相关,排名肯定更有优势,,但放在一起对比,发现,谷歌对内容高度相关的站点,更具有排名优先权。而网络可能还会去考察其它因素。
4、快照方面
这一点二者都一样,快照越新,相应权重会越高一些,但要在其它重要因素的前提下才能发挥作用。这个分析并不是很权威,有些可能和大家所想的有出入,不过没关系,这个分析是初版,以后会总结和分析出更完美版,请关注!
‘肆’ 了解google用来对网页进行排序的pagerank算法,明确哪些因素会影响网页的pager
一、网页排名和谷歌算法的诞生
在谷歌诞生之前那段时间,流行的网页排名算法都很类似,它们都使用了一个非常简单的思想:越是重要的网页,访问量就会越大,许多大公司就通过统计网页的访问量来进行网页排名。但是这种排名算法有两个很显着的问题:
1、因为只能够抽样统计,所以统计数据不一定准确,而且访问量的波动会比较大,想要得到准确的统计需要大量的时间和人力,还只能维持很短的有效时间。
2、访问量并不一定能体现网页的“重要程度”,可能一些比较早接触互联网的网民还记得,那时有很多人推出了专门“刷访问量”的服务。
那有没有更好的方法,不统计访问量就能够为网页的重要度排序呢?
就是在这种情况下,1996年初,谷歌公司的创始人,当时还是美国斯坦福大学研究生的佩奇和布林开始了对网页排序问题的研究。
在1999年,一篇以佩奇为第一作者的论文发表了,论文中介绍了一种叫做PageRank的算法(具体算法可查看马海祥博客《pr值是什么》的相关介绍),这种算法的主要思想是:越“重要”的网页,页面上的链接质量也越高,同时越容易被其它“重要”的网页链接。
于是,算法完全利用网页之间互相链接的关系来计算网页的重要程度,将网页排序彻底变成一个数学问题,终于摆脱了访问量统计的框框。
二、模拟PageRank算法的运行过程
在详细讲述这个算法之前,不妨让我们用一个游戏,先来简单模拟一下PageRank算法的运行过程,以便读者更好地理解。
三兄弟分30颗豌豆,起初每人10颗,他们每次都要把手里的豌豆全部平均分给自己喜欢的人,下图表示了三兄弟各自拥有的初始豌豆数量,以及相互喜欢的关系(箭头方向表示喜欢,例如老二喜欢老大,老大喜欢老二和老三)。
第一次分配后,我们会得到结果如下:
就这样,让游戏一直进行下去,直到他们手中的豌豆数不再变化为止。
那么这个游戏到底是否可以结束呢,如果可以,最终的结果又是什么样的?
在此我们用电脑模拟了这个过程,得出的结果是:老大和老二的盘子里各有12颗豌豆,而老三的盘子里有6颗豌豆,这时候无论游戏怎么进行下去,盘子里的豌豆数量都不会再变化。
看到这里,读者可能会问:这个游戏和网页排序有什么关系?
实际上,PageRank会给每个网页一个数值,这个数值越高,就说明这个网页越“重要”。
而刚刚的游戏中,如果把豌豆的数量看作这个数值(可以不是整数),把孩子们看作网页,那么游戏的过程就是PageRank的算法,而游戏结束时豌豆的分配,就是网页的PageRank值。
三、PageRank算法的数学模型
不同于之前的访问量统计,PageRank求解了这样一个问题:一个人在网络上浏览网页,每看过一个网页之后就会随机点击网页上的链接访问新的网页。
如果当前这个人浏览的网页x已经确定,那么网页x上每个链接被点击的概率也是确定的,可以用向量Nx表示。
在这种条件下,这个人点击了无限多次链接后,恰好停留在每个网页上的概率分别是多少?
在这个模型中,我们用向量Ri来表示点击了i次链接之后可能停留在每个网页上的概率(则为一开始就打开了每个网页的概率,后面我们将证明的取值对最终结果没有影响)。很显然R i的L1范式为1 ,这也是PageRank算法本身的要求。
仍以上面的游戏为例,整个浏览过程的一开始,我们有:
其中,A表示每一次点击链接概率的矩阵,A的第i列第j行的含义是如果当前访问的网页是网页i,那么下一次点击链接跳转到网页j的概率为 。
这样设计矩阵A的好处是,通过矩阵A和向量相乘,即可得出点击一次链接后每个网页可能的停留概率向量。例如,令,可以得到点击一次链接后停留在每个网页的概率:
之后一直迭代下去,有:
对于上面的例子,迭代结果如下图:
由上图我们可以看到,每个网页停留的概率在振荡之后趋于稳定。
在这种稳定状态下,我们可以知道,无论如何迭代,都有,这样我们就获得了一个方程:
而整个迭代的过程,就是在寻求方程R = AR的解,而无论是多少,迭代无限多次之后,一定会取得令R = AR成立的R值,整个求解R的过程,就如同一个人在一张地图上的不同位置之间随机地行走一样,所以被称为“随机行走模型”。
随机行走模型有一个显着的特点,那就是每一次迭代的结果只与前一次有关,与更早的结果完全无关,这种过程又被称为马尔可夫过程(Markov Process)或马尔可夫链(Markov Chain)。
马尔可夫过程的数学定义是:如果对于一个随机变量序列, 其中X n表示时间n的状态及转移概率P,有:
即只受的影响,则此过程成为马尔可夫过程。其中称作“一步转移概率”,而两步、三步转移概率则可以通过一步转移概率的积分求得。
当状态空间有限时,转移概率可以用用一个矩阵A来表示,称作转移矩阵(transition matrix),此时转移概率的积分即为矩阵的幂,k步转移概率可以用表示,这也是随机行走模型中的情况,而对于一个正的(每个元素都为正的)转移矩阵A ,可以证明一定有:
这就完整解释了为什么的取值对最终结果没有影响。
四、修正“悬挂网页”带来的不良影响
但是这里有一个问题:即便的取值对最终结果没有影响,用R作为网页排序的依据是否真的合理?
在马海祥看来,这个其实并不合理,因为当一个网页只有链入链接没有链出链接的时候,这个网页就会像一个“黑洞”一样,将同一个连通子图中其它网页流向它的PageRank慢慢“吞掉”(因为算法中虚拟的用户一旦进入那样的网页,就会由于没有对外链接而永远停留在那里),这种网页我们称之为“悬挂网页”(Dangling Link)。
这种“黑洞”效应是如此显着,以至于在一个连通性良好的互联网上,哪怕只有一个“悬挂网页”,也足以使整个互联网的网页排序失效,可谓是“一粒老鼠屎坏了一锅粥”。
为了解决这个问题,佩奇和布林进行了修正,他们意识到,当用户访问到“悬挂网页”时,都不可能也不应该就停留在了这个页面,而是会自行访问其它网页。
虽然对每个用户来说,自行访问的网页与各人的兴趣有关,但马海祥觉得从平均意义上来讲,佩奇和布林假定用户将会在整个互联网上随机选取一个网页进行访问。
所以他们给PageRank算法加入了一个新的向量E,它的作用是,按照其中所描述的比例来向全部网页分配悬挂网页每一次“吞掉”的PageRank。
这样,相当于为悬挂网页添加了链向网络上全部网页的链接,避免了悬挂链接的出现。
以上就是谷歌背后最重要的PageRank算法奥秘,与以往那种凭借关键词出现次数所作的排序不同,这种由所有网页的相互链接所确定的排序是不那么容易做假的,因为做假者再是把自己的网页吹得天花乱坠,如果没有真正吸引人的内容,别人不链接它,一切就还是枉然。
而且“佩奇排序”还有一个重要特点,那就是它只与互联网的结构有关,而与用户具体搜索的东西无关,这意味着排序计算可以单独进行,而无需在用户键入搜索指令后才临时进行,谷歌搜索的速度之所以快捷,在很大程度上得益于此。
马海祥博客点评:
最后,我要强调的一点是,虽然PageRank是Google搜索结果排序的重要依据,并以此发家,不过它并不是全部依据,实际上,Google发展到现在,已同时用了数百种不同的算法来确定最终显示给用户的搜索结果顺序。