A. 一推响:2017年Google搜索引擎优化趋势预测
SEO的世界是千变万化的,每年Google搜索算法都要更新数百次,对于SEOer来说,绝对是个挑战。在2016年里,通过思科视觉网络指数(Visual Networking Index)可以看出,PC流量终将被移动设备所超越。到2020年的时候,全网IP流量的71%为非PC设备,包括平板、智能机和电视。而在2015年,这个比例还仅为47%。那么2017年Google搜索引擎优化的最新趋势会是什么?请允许我脑洞大开预测一下吧。
一、机器学习
谷歌在去年已经发布了人工智能算法“RankBrain”来对搜索结果进行排序,这套算法的推出可以说是个重磅信号。目前来看,虽然机器学习对SEO的影响不大,但可以肯定的是以前古老的SEO策略会逐渐退出历史舞台,到了2017年,Google的人工智能算法“RankBrain”估计会更加成熟。当然从长期来看,新的算法也会给SEOer们带来更多发挥空间,也许是件好事。
二、位置营销
位置营销是指企业和商家基于自己的位置,针对处于或进入其商业半径范围内、具有位置属性的目标客户进行精准营销。谷歌对每一个网站进行排名时,一方面会考虑到加载速度,另一方面还会考虑服务器位置和IP地理定位。前不久,一款基于地理位置的AR游戏《口袋妖怪GO》席卷了全球,《口袋妖怪GO》的的核心概念在于将AR(增强现实)与地理位置完美结合,虚拟的宠物小精灵会出现在真实熟悉的生活场景中,科幻剧情般的高阶创意令游戏迷大呼过瘾。受它启发,更多基于地理位置的产品或营销方式也将陆续出现。
三、语音搜索
语音搜索技术越来越成熟,目前几大主流的搜索引擎均在积极推进语音搜索业务,在5月份的Google I/O大会上,谷歌CEO桑德尔•皮蔡提到:“Google Home可以将Google助手智能服务带入到用户家中的每一个房间,让用户通过对话的方式享受娱乐,管理日常任务,获得Google搜索的问题答案。”不难看出,2017年语音搜索市场将会保持高速增长。
一推响工作室认为,对话式搜索将是未来SEO新趋势,到了那时,我们可能就要考虑如何做好语音搜索引擎优化了。
B. PR值是什么意思呢
PR值,即PageRank,网页的级别技术。取自Google的创始人Larry
Page,它是Google排名运算法则(排名公式)的一部分,用来标识网页的等级/重要性。级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。
C. Google有哪些黑科技
谷歌作为 科技 类公司,有很多很牛的技术,其中有一个鲜为人知的技术就是实时自动生成字幕!随着人工智能的快速发展,语音识别技术准确率越来越好,实时生成字幕的效率越来越高。
谷歌在YouTobe中早已引入实时字幕生成功能,而且在其他产品,例如android和chrome中也有这个功能。
首先说Android。在安卓10版本中,谷歌加入了实时字幕功能,不过默认是关闭的,需要手动启用,启用后,该功能会应用在手机正在播放的媒体文件,不管是视频还是语音消息,都可以生成实时字幕。不过只支持英文。
接着说说chrome。首先将chrome更新到canary84.0.4246.1或更高版本,接着进入实验功能界面,搜索“live captions”,将这个实时字幕的选项打开。重启chrome,进入到设置界面,在“高级”中找到“无障碍”,就可以看到实时字幕功能,开启即可。
谷歌Google公司,被公认为全球最大的搜索引擎公司,业务包括了互联网搜索、云计算、广告技术等涉及领域广。我认为 我认为谷歌的“黑 科技 ”,有以下领域体现:
互联网搜索引擎是我们上网几乎必备的查找网站关键词的入口,而谷歌就是互联网搜索引擎的鼻祖。在1998年,美国斯坦福大学的学生拉里·佩奇和谢尔盖·布林在宿舍共同开发了谷歌在线搜索引擎。发展至今,谷歌已经建立强大的搜索服务和数据挖掘能力。涉及的服务包括:网页,图片,音乐,视频,地图以及新闻等,这依赖于强大的搜索算法。为了处理海量的数据,提高网站排名质量,搜索算法经过了反复的修正,在2013年,谷歌依靠强大的“蜂鸟”(Hummingbird)算法,彻底代替旧版搜索算法,以应对来自网络用户更长、更复杂的查询。 总之,谷歌强大的互联网搜索引擎黑 科技 ,更加便利搜索关键词找到全球范围内的相关网站。
谷歌搭建的云计算平台能力强大,甚至能够帮助人类分析病毒基因序列解决高难度问题。据今年的新闻报道,谷歌向全球COVID-19计划提供大规模并行计算工作,以筛选出潜在的抗病毒药物,帮助医药研发。通过强大的计算机运算能力,发现高质量的新颖分子。 因此,谷歌硬核的云计算能力,能够帮助解决现实世界的科学难题,造福人类。
谷歌拥有成熟精准的广告和网站分析技术。对于广告分析,我们平时有目共睹,比较成熟精准,我们可以在平时的互联网访问过程中发现谷歌的推送广告,基本也都是和自身相关度高,而且人性化可以屏蔽不展示。
对于网站分析技术,我们完全可以看当下各大电商、互联网平台网站,通过他们的代码都可以看出,都是接入的谷歌分析服务GoogleAnalytics(GA)。这是因为,谷歌提供了各种维度的数据分析能力,包括PV、UV等等众多数据统计。这已经成为行业标准和标杆,普遍公认的网站分析技术。
谷歌的 科技 创造能力是世界领先的,人工智能、无人驾驶等高尖端 科技 ,谷歌都有涉及。这依赖于谷歌拥有全世界顶尖的 科技 人才。在编程领域方面,谷歌的Android操作系统被广泛在世界范围内运行,提供的安卓开发框指引领世界开发者。谷歌还开发出了Go语言、Dart语言等,谷歌的 科技 引领世界技术的发展潮流。 谷歌拥有先进的 科技 创造能力黑 科技 ,引领着世界范围内的科学技术更新换代。
作为引领世界 科技 发展、拥有众多黑 科技 的谷歌,正在引领世界 科技 发展,推动人类文明进步。在这个时代,发挥重要价值。我们应当学习谷歌的这种不断更新 科技 的能力,提高我国的信息化建设,推动 社会 发展。
1,google机器人最近很火,但知道到属不属实
2,android7.0 的全新架构让性能提升20%以上,但除了内部程序员,没人知道google怎么达成的。
3,谷歌翻译里,你将摄像头对准你要翻译的语言,它就会直接把你拍到的外文改为选定的目标语言。
4,谷歌邮箱的附件空间从第一天使用起会变得越来越大,速度奇快。
一、智能可穿戴设备的雷达感知手部动作技术
谷歌的Project Soli是其正在研发中的用于可穿戴设备的手势操作感应技术,它能利用微芯片雷达识别出细微的手指活动,旨在实现非触控用户界面操控。自去年Google I/O 2015现场公布了Project Soli,似乎已经有开发人员获得了谷歌最新的开发工具包
二、互联网热气球,让发展中国家人民免费上网
Project Loon气球互联网项目是Google最神秘的部门Google X于2013年推出的一项计划,该计划试图通过热气球为世界上最偏远的地区覆盖网络,以及在灾后帮助人们提供互联网连接。等
D. 二十个你必须知道的SEO概念
二十个你必须知道的SEO概念
如果你拥有一个网站或独立博客,或者你的工作多少和互联网有关,那你一定耳濡目染多多少少对SEO(搜索引擎优化)有一定了解。本文将列举其中20个SEO领域最常用的名词和概念,如果你打算熟悉和了解他们请继续阅读。当然,如果你已经无所不晓,那你可以权当补习功课,或可以直接忽略本文。
1. 搜索引擎营销(SEM)
搜索引擎营销(SEM)英文全称为Search Engine Marketing,意指通过搜索引擎进行服务和产品的营销。搜索引擎营销又主要分为两种:搜索引擎优化(SEO)和付费点击(PPC,Pay-Per-Click)。搜索引擎优化(SEO)指通过优化网站和页面并让它们在搜索结果的页面中展示,而付费点击(PPC)指通过购买搜索引擎的点击将用户带到自己的网站。(通常)这些点击来自搜索结果页面中的“赞助商链接”(译注:显然不适用于网络)。
2. 反向链接(Backlink)
反向链接(Backlink)又称为“回指链接”“入链”和“简易链接”,指从其他网站指向你的网站的一个超级链接。反向链接之所以对SEO异常重要,是因为它们直接影响一个网页的页面等级(PageRank),以及这个页面在搜索结果中的排名。
3. 页面等级(PageRank)
页面等级( PageRank) 是Goolgle用来评估一个页面相对于其他页面的重要性的一个算法规则。这个算法规则最基本的意思就是说,如果A页面有一个链接指向B页面,那就可以看作是A页面对B页面的一种信任或推荐。所以,如果一个页面的反向链接越多,再根据这些链接的价值加权越高,那搜索引擎就会判断这样的页面更为重要,页面等级(PageRank)也就越高。
4. 链接诱饵(饵链)(Linkt)
链接诱饵(Linkt),顾名思义这是一个网站或一个博客上为了尽可能多地吸引反向链接(目的是提高网站的PR值)而存在的一段内容。通常,这些做为诱饵的内容为文字内容,但也可以是一段视频、一张图片、一个测验或其他的热门的内容。最经典的诱饵内容的例子是“十大(Top 10)”,因为这样的内容在一些社交网站很容易流行起来成为热门话题(译注:这个话题貌似已经臭街了)。
5. 互链车间或互链作坊(Link farm)
互链工厂或互链作坊(Link farm)是指很多网站(通常数量很大)为了提高组成一个类似车间或作坊式的团体,通过彼此的互相链接来提高团体每一个的网站的页面评级的手段。早期,这种方法很有用,但现在已经成为一种不耻的作弊手段(并可能会收到惩罚)。
6. 锚文本(Anchor text)
锚文本(Anchor text)在反向链接中是指一个页面中可点击的文本,而其中的关键词对搜索引擎优化(SEO)有很大的帮助,因为Google会将这些关键词和你的内容关联起来。
7. 链接属性-NoFollow
Nofollow是网站管理员使用的一个链接属性,其目的是告诉搜索引擎他们并不是为该链接所指向的网站投票。这种链接也可能是网站用户自己创造的内容(比如博客评论中的.链接),或者是一个付费交易的链接(比如广告或赞助商的链接)。当Google识别到这些反向链接的NoFollow属性后,基本就不会在页面评级和搜索结果排名的算法中将这些链接的贡献计算在内了。
8. 链接修饰(Link Sculpting)
链接修饰(Link Sculpting)是指网站管理员对网站上其他网站的反向链接进行属性设置。比如,管理员给链接添加Nofollow属性,这可以让管理员决定利用自己的网站为具体某个网站提高页面评级,或者不帮助具体某个网站提高网页评级。不过,现在这种做法的作用已经微乎其微,因为Google已经决定要用自己的算法来决定怎么处理链接的Nofollow属性。
9. 页面标题(Title Tag)
页面标题(Title Tag),顾名思义是指一个页面的标题中,这也是Google搜索算法中最重要的一个参考。理论上,你的页面标题要独一无二并尽可能多地包括页面内容中的关键词。你在浏览网页时可以从浏览器最上方看到一个网页的标题。
10. 元标签(Meta Tags)
元标签(Meta Tags)和页面标题一般,主要用于为搜索引擎提供更多关于你页面内容的信息。元标签位于HTML代码的头部,还有就是对长眼睛的访客是不可见的。
11. 搜索算法(Search Algorithm)
Google的搜索算法是为了给每一次搜索请求找到最为相关的网站和页面而设定。这个算法考量的因素超过200种(谷歌自称),其中包括页面等级、标题、元标签、网站内容,以及域名的年龄等。
12. 搜索结果页面(SERP)
搜索结果页面(SERP)的英文全称为Search Engine Results Page.基本上,这就是你平时在Google键入关键词回车后的页面了。你的网站从这个页面得到的流量取决于你的网站在搜索结果中的排名等级。
13. 沙盒(Sandbox)
Google除了所有网站的索引之外,还有一个单独的索引沙盒,那里面是新近发现和收录的网站。当你的网站存在这个沙盒之中时,它就不会在一般的搜索结果中出现,而只有当Google确认了你的网站是合法的,这才会将其从沙盒中移出进入所有网站的索引。
E. 百度seo和google seo算法比较
网络seo和google seo算法比较
1、自家产品优势
输入任意一个热门关键词,网络首页基本都会出现网络自家产品的排名,即使这些自家产品没有做过任何SEO,它们依然能够坚挺的排在首页。SEO人如果能学会利用网络自家产品借力使力,可以达到事半功倍的效果。
而谷歌对于自家产品一视同仁,如果违反谷歌站长指南,即使是自家产品,谷歌一样格杀勿论,谷歌日本、谷歌浏览器等被降权就是很好的例子们。
所以,要做好谷歌SEO,必须严格遵守谷歌站长指南,没有捷径;要做好网络SEO,如果要短期获得效果,尝试借助网络自身平台的优势将会是一个很不错的想法。
2、搜索结果首页用户行为
在谷歌,用户找到他们想要的信息通常只需要网络用户一半的时间(谷哥是30秒,而度娘是55秒),大部分用户只看前三个结果;
反之,在网络,用户通常会把搜索结果上的内容从头扫到尾,同时我们注意在网络的那张热力图上,红点表示点击,大量出现在网络搜索框和底部相关搜索上,而非搜索结果的网页,这对于网络来说可不算是一个给力的数据,那为啥会这样子?很大程度原因要和搜索质量有关,网络的搜索结果相对是比较混沌的,很多时候用户根本分不清那些是付费广告,那些是自然结果,而通常这些付费广告的内容又不能很好满足用户的需求,所以用户可能会选择再次提炼搜索字词,或者干脆拉到底部看相关推荐去再次寻找他们真正想要的内容。当然,可也是为什么网络用户平均要花费55秒,几乎是谷歌的两倍的搜索时间去发现他们想要的信息。
3、页面收录
从页面收录的时间来看,谷歌绝对是比网络快很多,而且通常只要在外围放置少量的外链入口谷歌就能顺着链接爬到你的网站并且建立索引,而网络则不同,对于新站不会立刻收录,甚至相当长的时间都不收录。新网站通过网络的考核期后,网络才开始收录你的网站,这个考核期对于很多站长来说是比较难熬的,考核期的时间有时候确实让人琢磨不透,有的网站甚至一个多月两个月才开始收录,也有的网站两三天就收录了,如果说是一些高质量的网站收录快,质量较差的网站收录慢也能理解,可是据了解一些非法的网站、质量很差的网站也有很多很快就被收录了,这就让人有些琢磨不透了。
所以,做网络SEO,特别是新站,不要随便去保证别人二、三个月见效之类的话,很可能两个月网络都没有把你的网站放出来,呵呵。所以一般我们和客户去谈这样类型的SEO优化,都是至少要6个月的优化期,少于这个时间一般是不做的,除非他不要保证绩效。
4、对待新站的策略
对待新站网络和谷歌都有各自的审核标准,谷歌有谷歌沙盒,网络也有自己的审核期,从持续的时间来看,基本上也差不过,都为3-6个月的时间。不同的是,过了审核期后,谷歌评判关键词排名的标准更多是从这个页面本身的质量度和外部链接的推荐情况来排序,不会因为你的站点年轻而影响某个具体页面的排名,而网络依旧会考虑整站的权重,所以新站很难从网络获取热词、难词的排名,更多的情况是通过大网站转载之后,被大网站抢去流量和排名,而对于谷歌来说,新站获取热词排名是极有可能的事情。
5、网站被K后的恢复机制
网站一定被谷歌K了之后,不用过于担心,按照谷歌站长指南调整好自己的网站,再通过谷歌管理员工具和谷歌沟通,谷歌会重新观察网站是否改正之前的作弊手段,一旦改正之后,谷歌还是会恢复的。但网络,如果网站被K,那么恢复的几率就很小了,虽然网络也有申诉通道,但是个人认为这些只是形式上的摆设,大部分得到的回复都是答非所问,当然网络也可以怪大部分站长问的问题很不明确,属于无效提问。但事实上,即使是有效提问,处理的速度和回复效率仍然是很低下的,如果要举例,足可以写一篇博文,这里暂不详述。当然这个也是和网络自身人员的素质有关,没有专人专项去管这件事情必然导致目前这种尴尬的局面。所以对于网络SEO,一定要严格遵守网络站长指南,虽然可以说有些网站作弊也能排到网络首页,这种情况我无法解释,就像为什么有些人无所作为,在公司里混混也能拿高工资,或许看到的只是表面现象。
6、robots协议遵守情况
谷歌完全遵守robots协议,一旦robots设置屏蔽谷歌蜘蛛之后,谷歌就不会对网站进行抓取和索引,但是网络似乎并不严格遵守,当给网站设置robots协议之后,网络蜘蛛有时会绕过/无视robots文件,仍然会继续爬行空间文件,当然这里只是说它们在爬行,没有放出来而已,但,个人猜测,网站数据都完完整整的被网络记录在他们的服务器内,只是没有生成摘要在搜索结果页显示而已。网络并不严格遵守robots协议。
7、外部链接评判标准
谷歌和网络对于外链的评判标准其实很不同,对于谷歌而言,外链更像是外部推荐,不仅仅局限于那个写在a标签里面可以直接点击的链接,来自social端的推荐因素也能够影响排名。而对于网络来说,链接就是链接,和social没有直接关系,同时网络也会认可那些没有写在a标签里的链接(这点谷歌是不接受的),这个也是取决于互联网这个大环境,很多人不愿意给可以点击的外链,但是这些外链又确实是真心推荐的,到底算还是不算呢?网络站长平台说过,评判链接的唯一标准就是这条链接是否是用户真心推荐。所以,不管链接形式如何,只要这条链接推荐的东西有价值,就被网络算做一条外部链接,并且可以传递权重。
另外,外链重要程度网络和谷歌也各不相同。谷歌认为外链(外部的真实推荐)是网站的一个非常重要的信号,甚至要比一些站内SEO优化,如关键词密度,H标签、内链、URL结构都重要,因为谷歌完全有能力去索引和识别一个网站,而用户推荐的数据是谷歌所看中的。
而网络则不同,外部链接重要性占比没有谷歌那么大,一方面中国互联网的推荐机制还不够成熟,外链的可信度其实并不怎么高;另一方面,网络自身对于网站的索引和识别能力并没有谷歌那么强,所以对于网络SEO,做好站内优化、特别是关键词部署、网站结构梳理包括导航、内链机制都是非常重要的。
8、内容更新
网络似乎比谷歌更重视内容的更新,一个网站或者页面有持续更新的内容对于网络来说是很友好的。也可以搜索一些冷门行业的热门关键词看看搜索结果前十的网站异同,你会发现排在谷歌前十的网站的内容几乎不怎么更新,而如果要排到网络首页的话,网站则必须是有海量内容更新机制,网络给予新鲜内容的权重度要远高于谷歌。
9、原创识别机制
中国互联网转载和抄袭是司空见惯的事情,这个时候对搜索引擎来说,识别原创的能力就显得尤为重要,网络这方面做得非常不好。
10、热门事件效应速度
谷歌对于热门信息的处理相对较快,往往能够很准确的找到新闻源的位置,而网络更多的是依靠大网站来获取热门信息,一旦小网站上有热点内容而又没有被大网站即时发现的话,网络是很难在短期内挖掘到的,所以这就是为什么网络要和新浪微博达成战略合作关系来共享数据,也是看中微博的一个短频快的特性,包括网络也会开放API接口与各大网站进行数据共享,就是为了弥补网络蜘蛛抓取的局限性和对热点把控能力弱这样一个无法在短期弥补的特性。
F. 百度和Google的搜索算法,技术有何差异
网络是中国的,谷歌是美国的。各有侧重不能不可比较。技术都是一样的侧重不同罢了。网络侧重的是中国民俗,谷歌是侧重美国民俗。因为国情国法不同所以无可能比较量级。【搜索引擎技术是硬件加软件。硬件是实际使用的机器,软件是程序编程】搜索产品搜索引擎产品其实包括很多种类,并不限于我们最熟悉的全网搜索引擎。简单分类罗列一下:*全网搜索:包括市场份额最高的几大搜索引擎巨头,Google,Yahoo,Bing。*中文搜索:在中文搜索市场中,网络一家独大,其它几家如搜狗、搜搜、有道,市场份额相对还比较小。*垂直搜索:在各自的垂直领域成为搜索入口的,购物的淘宝,美食的大众点评,旅游的去哪儿,等等。*问答搜索:专注于为问句式提供有效的答案,比如Ask.com;其它的如问答社区像Quora和国内的知乎,应该也会往这方面发展。*知识搜索:典型代表就是WolframAlpha,区别于提供搜索结果列表,它会针对查询提供更详细的整合信息。*云搜索平台:为其它产品和应用提供搜索服务托管平台(SaaS或是PaaS),Amazon刚刚推出它的CloudSearch,IndexTank在被Linkedin收购之前也是做这项服务。*其它:比始DuckDuckGo,主打隐私保护,也有部分用户买帐。各种搜索产品在各自领域都需要解决特定的技术和业务问题,所以也可以建立相对通用搜索的优势,来得到自己的市场和用户。搜索技术搜索引擎所涉及和涵盖的技术范围非常广,涉及到了系统架构和算法设计等许多方面。可以说由于搜索引擎的出现,把互联网产品的技术水平提高到了一个新的高度;搜索引擎无论是在数据和系统规模,还是算法技术的研究应用深度上,都远超之前的简单互联网产品。列举一些搜索引擎所涉及到的技术点:*爬虫(Crawling)*索引结构(InvertedIndex)*检索模型(VSM&TF-IDF)*搜索排序(RelevanceRanking&Evaluation)*链接分析(LinkAnalysis)*分类(Document&QueryClassification)*自然语言处理(NLP:Tokenization,Lemmatization,POSTagging,NER,etc.)*分布式系统(DistributedProcessing&Storage)*等等虽然搜索引擎涉及的技术方方面面,但归结起来最关键的几点在于:*系统:大规模分布式系统,支撑大规模的数据处理容量和在线查询负载*数据:数据处理和挖掘能力*算法:搜索相关性排序,查询分析,分类,等等系统搜索引擎系统是一个由许多模块组成的复杂系统。核心模块通常包括:爬虫,索引,检索,排序。除了必需的核心模块之外,通常还需要一些支持辅助模块,常见的有链接分析,去重,反垃圾,查询分析,等等。[附图:搜索系统架构概念模型]*爬虫从互联网爬取原始网页数据,存储于文档服务器。*文档服务器存储原始网页数据,通宵是分布式Key-Value数据库,能根据URL/UID快速获取网页内容。*索引读取原始网页数据,解析网页,抽取有效字段,生成索引数据。索引数据的生成方式通常是增量的,分块/分片的,并会进行索引合并、优化和删除。生成的索引数据通常包括:字典数据,倒排表,正排表,文档属性等。生成的索引存储于索引服务器。*索引服务器存储索引数据,主要是倒排表。通常是分块、分片存储,并支持增量更新和删除。数据内容量非常大时,还根据类别、主题、时间、网页质量划分数据分区和分布,更好地服务在线查询。*检索读取倒排表索引,响应前端查询请求,返回相关文档列表数据。*排序对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性。*链接分析收集各网页的链接数据和锚文本(AnchorText),以此计算各网页链接评分,最终会作为网页属性参与返回结果排序。*去重提取各网页的相关特征属性,计算相似网页组,提供离线索引和在线查询的去重服务。*反垃圾收集各网页和网站历史信息,提取垃圾网页特征,从而对在线索引中的网页进行判定,去除垃圾网页。*查询分析分析用户查询,生成结构化查询请求,指派到相应的类别、主题数据服务器进行查询。*页面描述/摘要为检索和排序完成的网页列表提供相应的描述和摘要。*前端接受用户请求,分发至相应服务器,返回查询结果[附图:爬虫系统架构]爬虫系统也是由多个模块构成:*URLScheler存储和高度待爬取的网页地址。*Downloader根据指定的网页列表爬取网页内容,存储至文档服务器。*Processer对网页内容进行简单处理,提取一些原始属性,为爬取的后续操作服务。*TrafficController爬取流量控制,防止对目标网站在短时间内造成过大负载[附图:搜索系统架构实例:Google这是Google早期的一张系统架构图,可以看出Google系统的各模块基本和前面概念模型一致。所以一个完整的全网搜索系统的大致系统架构是类似的,区别和竞争力体现在细节实现和优化上。数据除了搜索引擎系统提供了系统支撑外,搜索结果质量很大程度上依赖于源数据的数量和质量,以及数据处理的能力。全网数据的主要来源通常是从互联网上进行自动爬取,从一些高质量的种子站点开始,并沿网页链接不断,收集巨量的网页数据;这通常能达到数据在数量的要求,但也不可避免混入了大量的低质量网页。除了自动爬取来的数据外,搜索引擎的数据来源还可以来自人工收集、合作伙伴提供、第三方数据源和API、以及购买;这些来源通常会有更好的质量保证,但在数量规模和覆盖率上会相对少一些,可以和爬取的数据形成有效的互补。收集到足量的原始数据后,需要进行各种数据处理操作,把原始数据转换成在线检索需要的数据。这个过程通常包括:网页分析,数据抽取,文本处理和分词,索引及合并;最终生成的数据会包括:词典,倒排表,正排表,文档权重和各种属性。最终生成的数据要布署上相应的在线检索服务器上,通常会进行数据分区和分片布署,数据内容更丰富时还可能根据内容分类和主题进行分别布署,比如新闻时效类的网页可能就会独立布署,针对性地响应时效类的查询[附图:索引数据:字典、倒排表、正排表]这张图来源于Google早期的索引数据结构,包括词典、倒排表、正排表。算法有了相当数量的高质量数据之后,搜索结果的质量改进就取决于搜索算法的准确性上。现在的搜索引擎通常通过向量空间模型(VSM=VectorSpaceModel)来计算查询和各文档之间的文本相似性;即把查询或文档抽象成一个词向量,然后再计算向量在向量空间中的夹角,可以用余弦公式得出,作为文本相似度的度量值。在基本的向量空间模型基础上通常会进一步加入词的权重值进行改进,通过经典的TF-IDF公式得出,即词频(TF)乘上逆文档频率(IDF);其中TF=TermFrequency,即该词在所在文档中的出现次数;IDF=InvertDocumentFrequency,即包含该词的文档数除以总文档数,再取反,通常还会取对数来降维,这个值值越大表示这个词越能代表文档特征。除了通过向量空间模型得出的文本匹配评分外,每个文档还会有自己本身的质量评分,通常由网页链接数据计算得出,代表了该网页本身的流行度权重。最终的评分会以文本匹配的查询时动态评分和文档静态评分为基础计算得出;搜索引擎的评分计算都会考虑很多因素,但这两项通常是评分计算的基础。有了确定的排序算法后,另一个重要的任务就是评估搜索结果的质量。由于搜索结果的好与坏是一个比较主观的过程,所以进行定量的评估并不容易。常见的做法是通过事先选定一批查询,通过人工评估或是预先设定标准值的方式,逐个评估每个设定查询搜索结果,最终得到一个统计结果,作为搜索算法的评估度量。另一类做法是直接通过线上的用户点击数据来统计评估搜索结果质量,或是通过A/B测试来比较两种排序算法的点击效果来衡量。合理而有效的评估方法,是搜索算法可以不断改进和比较的前提。查询分析是另一个对搜索结果影响很大的方面,主要任务是把用户的查询文本转换成内部的结构化的搜索请求。涉及的处理可能包括基本的分词处理,专有名词的识别和提取,或是查询模式的识别,或是查询分类的识别。这些处理的准确性将能极大地改进搜索请求的方式,进一步影响搜索结果的相关性和质量。开源方案近年来在搜索公司内部搜索系统和技术的改进和发展的同时,一批开源的搜索系统和解决方案也逐渐发展和成熟起来。当然开源系统在功能全面性、复杂性和规模上都不能与专业的搜索引擎系统相比,但对于中小企业的搜索应用来说应该已经能很好地满足需求,而且也成功应用到了一些大规模的产品系统中(比如Twitter的搜索就使用和改进了Lucene)。现在比较常见的开源搜索解决方案有:*LuceneLucene自然是现在最流行,使用度最高的搜索开源方案。它用Java开发,以索引和检索库的方式提供,可以很容易地嵌入需要的应用中。*Solr&SolrCloudSolr是Lucene的子项目,同属Apache软件基金会项目;它是基于Lucene之上实的一个完整的搜索服务应用,提供了大量的搜索定制功能,可以满足大部分的搜索产品需求。SolrCloud是Solr为了加强其分布式服务能力而开发的功能,目前还在开发阶段,将在Solr4.0发布。*Zoie&Sensei(Linkedin)Zoie是Linkedin公司在Lucene基础上实现的准实时索引库,通过加入额外的内存索引,来达到准实时索引的效果。Sensei是Linkedin公司在Zoie基础上实现的分布式搜索服务,通过索引分区来实现分布式搜索服务。*ElasticSearchElasticSearch也是刚推出不久的一个基于Lucene实现的分布式搜索服务,据说在分布式支持和易用性上都有不错的表现。因为还比较年轻,真实的应用应该还不多,需要观察。因为也是基于Lucene的分布式开源搜索框架,基本上会与SolrCloud和Sensei形成正面竞争关系。*其它开源产品除了Lucene家族以外,还有一些其它的开源产品,比如Sphinx和Xapian,也有不少的应用;但近年来的更新频率和社区活跃度都不太能和Lucene系的产品相比。*托管平台除了开源产品外,现在还出现了一些基于云计算和云服务的搜索服务,比如Amazon新近推了的CloudSearch,还有更早一些的IndexTank(已被Linkedin收购)。这类服务无需自己布置搜索系统,直接使用在线服务,按需付费,所以也将是开源产品的替代方案和竞争对手。附几张上面提到的开源系统的概念模型和架构图:[附图:Lucene概念模型][附图:Lucene工作流程][附图:Sensei系统架构][附图:SolrCloud系统架构]现状与未来:传统的搜索引擎经过了十几年的发展,目前在技术和产品上都已走向逐渐稳定和成熟,通用搜索的市场也基本进入饱和,不像早些年一直呈现高增长率。同时,在各个垂直领域,也出现了很多和产品结合的很好的垂直搜索产品,比如淘宝的购物搜索,大众点评的美食搜索,去哪儿和酷讯的旅游搜索等,也都在各自领域占据了相当大的市场,成为除了通用搜索引擎之外的重要的用户入口。在开源领域,各种开源产品和解决方案也逐渐发展成熟,通用搜索技术不再为大公司所专有,中小企业能够以较低的成本实现自己的搜索应用。现在搜索引擎产品之间的竞争的在数据、应用方式和产品形态上,在系统架构和基本算法上区分并不大。搜索引擎在未来发展上,一是搜索将不仅仅以独立产品的形式出现,的会作为搜索功能整合到的产品和应用中。在产品形态上,基于传统的搜索引擎,会演化出像推荐引擎,知识引擎,决策引擎等形式的产品,更好地满足和服务用户需求。而搜索引擎所涉及和发展起来的各种技术,会更广泛地应用到各种基它产品上,比如自然语言处理,推荐和广告,数据挖掘,等等。总之,搜索引擎对互联网技术和产品带来的影响是巨大的,未来也仍将有很大的发展和应用空间。
G. Google 图片搜索的原理是什么
Google图片搜索的原理,一般是三个步骤:
1. 将目标图片进行特征提取,描述图像的算法很多,用的比较多的是:SIFT描述子,指纹算法函数,bundling features算法,hash function(散列函数)等。也可以根据不同的图像,设计不同的算法,比如图像局部N阶矩的方法提取图像特征。
2. 将图像特征信息进行编码,并将海量图像编码做查找表。对于目标图像,可以对分辨率较大的图像进行降采样,减少运算量后在进行图像特征提取和编码处理。
3. 相似度匹配运算:利用目标图像的编码值,在图像搜索引擎中的图像数据库进行全局或是局部的相似度计算;根据所需要的鲁棒性,设定阈值,然后将相似度高的图片预保留下来;最后应该还有一步筛选最佳匹配图片,这个应该还是用到特征检测算法。
H. 深圳SEO历史上谷歌Google推出了哪些算法
马加比更新(Maccabees Update)
上线时间:2017年12月12号
受影响网站:刻意为各种关键词组合建立大量着陆页,比如“地名A+服务a“、”地名A+服务b”、“地名B+服务a”等等,为了覆盖这些关键词,制造大量页面,质量通常不会高。
马加比这个名字是 SERoundtable.com的Barry Schwartz起的,不是Google官方给的名字,因为Google貌似不会再公布算法更新了,更不要说起名字了。Barry Schwartz起这个名字是因为这次更新发生在犹太人的光明节期间,光明节是纪念马加比家族的。Google在某种程度上确认了这次更新,不过只是说,在这段时间上线了几个小更新,是提高相关性日常工作的一部分。
移动优先索引(Mobile First Index)
上线时间:2017年10月中旬
受影响网站:移动优先索引指的是Google优先索引网站移动版本,并作为排名依据。以前都是索引PC版本并计算排名的。移动优先索引Google在2016年底就开始宣传了,但一直没有推出,估计影响面比较大。2017年10月中旬左右,Google透露一小部分网站已经开始转为移动优先索引。
猫头鹰更新(Project Owl)
公布时间:2017年4月25号
受影响网站:虚假新闻内容,如编造的假新闻,极度偏见、煽动仇恨,谣言等。参见以前写的关于猫头鹰算法的帖子。
弗雷德更新(Fred Update)
上线时间:2017年3月8号
受影响网站:广告过多的低质量内容站,这类网站之所以存在,就是为了放 Adsense之类的广告,并没有提供给用户更多价值。
为什么叫Fred更新呢?因为SEO们问Google员工Gary Illyes这次更新叫啥名字时,Gary Illyes随便给了个名字,貌似是他养的鱼的名字,为什么想起这条鱼的名字呢?因为Gary Illyes刚给这条鱼拍了张照片,就是右边这张。Gary Illyes说,以后除非另行说明,不然所有更新都叫Fred了。就这么任性,就这么草率。
移动页面干扰插页惩罚算法(Intrusive Interstitial Penalty)
上线时间:2017年1月10号
受影响网站:这个惩罚算法针对移动页面:挡住主题内容的弹窗,干扰用户访问的大幅插页式广告,用户需要关掉插页才能看到页面实际内容,有时候需要等5-10秒才能关掉。不过据统计,被惩罚的网站并不多。
企鹅更新4.0(Penguin 4.0)
上线时间:2016年9月23号,10月12号左右完成
受影响网站:和以前的企鹅更新一样,受影响的是有低质量外链的网站。Penguin 4.0是最后一次企鹅系列算法更新了,因为企鹅算法以后成为核心排名算法的一部分,实时更新。
另外,以前的企鹅更新是惩罚网站,4.0是不计算低质量外链,降低负面SEO的可能性。
移动友好算法2(Mobile Friendly Algorithm 2)
上线时间:2016年4月21号
受影响网站:2015年4月21号第一次Google移动友好算法的一次更新,使更多移动友好页面能被用户看到。
APP安装插页广告惩罚(APP Install Interstitial Penalty)
上线时间:2015年11月2号
受影响网站:页面会弹出大幅、遮挡主体内容的插页,要求用户下载APP,这种页面被认为不移动友好,在移动搜索中会被降低排名。页面可以建议用户下载APP,但广告不要大幅甚至全屏,做成顶部banner之类的是没问题的。
RankBrain
上线时间:消息公布时间是2015年10月26号,通过 Bloomberg的一篇文章。算法上线时间应该是数月前,2015年上半年。
RankBrain严格说来不算是排名算法,而是以人工智能为基础的深入理解用户查询词的系统,尤其是长尾的、不常出现的查询。2015年刚上线时,15%查询词经过RankBrain处理,可能是效果很好,2016年开始所有查询词都经过RankBrain处理。RankBrain的例子参考以前的帖子。
被黑网站删除算法(Hacked Spam)
上线时间:2015年10月
受影响网站:被黑的网站,包括病毒、引导流量到色情、侵权产品、非法药物网站等。这些页面会从搜索结果这直接删除,所以有时候搜索结果页面可能只有8、9个结果。以前通常是在搜索结果中标注这个页面可能被黑了,现在直接删除了。5%左右的查询受到影响。检查自己网站是否被黑还是挺重要的。
熊猫算法4.2(Panda Update 4.2)
上线时间:2015年7月18号
自2011年推出以来,熊猫算法经历了近30次更新,Panda 4.2是最后一次,几个月才完成。这之后,熊猫算法成为Google核心算法的一部分,虽然还会有更新,但不再单独给名字了。
质量更新(Quality Update)
上线时间:2015年5月1号左右
受影响网站:内容质量低的页面,但不是熊猫算法。Google虽然确认了这次更新,但表示,这只是Google经常做的算法更新之一,调整了评估内容质量的方法,没什么特殊的。
移动友好算法(Mobile Friendly Algorithm)
上线时间:2015年4月21号
受影响网站:在移动搜索中给予移动友好的网站排名提升。也被称为Mobilegeddon – 天劫算法。
所谓移动友好,其实没那么复杂,用户能正常在手机访问页面就行了,所以字体不要太小,字距行距不要太小,用户不需要左右拉屏幕,手指头点击链接时不会点错地方,速度够快等等。自己用手机看看自己网站就知道是否移动友好了。也可以参考一下本博客移动SEO的帖子。
移动友好算法是针对页面级别的,需要页面重新抓取、索引后才能判断是否移动友好。所以算法本身4月底上线,但受影响的页面可能不是马上见到效果。
Google曾经预报说移动友好算法比熊猫和企鹅更新的影响还要大,但由于Google很早就提醒SEO们移动友好的重要性,很多网站已经做了移动优化,所以这次更新没有预计的那么有震撼性。
HTTPS更新(HTTPS Update)
上线时间:2014年8月7号
受影响网站:使用了https的页面排名会稍微提升一点。Google声明这只是个很小的排名因素,但事实上对网站采用https起到了很大推动作用。
鸽子更新(Pigeon Update)
上线时间:2014年7月24号
受影响网站:鸽子更新是本地搜索算法的一次更新,改进了距离和定位排名算法参数。这个名字不是Google起的,是SearchEngineLand给起的。之所以取“鸽子”这个名字是因为,鸽子会回家,有本地意识。
蜂鸟更新(Hummingbird Algorithm)
上线时间:2013年8月
受影响网站:蜂鸟更新是一次排名算法的重写,改进对查询词真实意图的理解,更重要的是未来的扩展性。虽然代码是完全重写的,但排名因素及参数大概变化不多,所以上线后基本上SEO行业没有人注意到。
发薪日贷款算法(Payday Loan Algorithm)
上线时间:2013年6月13号
受影响网站:针对垃圾和黑帽手法盛行的一些行业的查询词重点打击,如payday loan(发薪日贷款,一种小额、短期、利息高的贷款,一般下个发薪日就还上)、色情等。这些行业常用的作弊手法也经常是非法的。
2014年5月16号,发薪日贷款算法2.0上线,2014年6月12号,算法3.0上线。
完全匹配域名惩罚(EMD Update)
上线时间:2012年9月29号
受影响网站:低质量的完全匹配域名(exact match domain)网站,也就是域名与目标关键词完全一样。URL中包含关键词对排名有一些帮助,所以不少SEO用目标关键词注册域名。这种域名确实有过好处,但现在内容不行的话可能被惩罚。
DMCA惩罚算法(DMCA Takedown Penalty)
上线时间:2012年8月13号
受影响网站:DMCA,Digital Millennium Copyright Act,数字千年版权法案,根据这个法案,版权作品被侵权,版权所有人可以向服务商要求删除侵权内容,服务商可以是主机商,域名注册商,ISP,以及搜索引擎。DMCA算法就是对收到很多侵权投诉删除要求的网站,Google给予排名惩罚。
DMCA Takedown Penalty又被称为pirate update,海盗算法。
2014年10月21号,DMCA惩罚算法上线2.0版本,很多BT种子网站、视频网站被大幅惩罚。
企鹅更新(Penguin Update)
上线时间:2012年4月24号
受影响网站:Google的官方帖子声明打击的是违反Google质量指南的垃圾网站,后续排名变化的分析表明主要受惩罚的是为获得排名制造大量垃圾外链、低质量外链的网站。企鹅算法1.0影响了3.1%英文查询,3%左右的中文、德文等查询。
企鹅算法和熊猫算法是两个最着名的Google惩罚性算法,受到影响的网站范围大,据调查,60%的SEO反映自己网站被Penguin算法惩罚了。
企鹅对今天的SEO方法,尤其是外链建设方法,产生了很大影响。不仅制造外链要非常小心,大部分以前常用的方法现在都被Google明确警告可能会被惩罚,现在SEO们更头疼的是怎样删除低质量外链和以前发的垃圾外链,这比制造外链还困难。
页面布局惩罚算法(Page Layout Algorithm)
上线时间:2012年1月
受影响网站:第一屏显示过多广告的页面被降低排名。因此也常被称为Ads Above The Fold(第一屏广告)算法。
1%的查询词受影响。被惩罚的网站修改页面布局后,Google重新抓取、索引,如果页面用户体验已经改善,就会自动恢复。
2012年10月9号,Page Layout 2.0,2014年2月6号,Page Layout 3.0分别上线。
新鲜度更新(Freshness Update)
上线时间:2011年11月3号
受影响网站:Google官方帖子明确表示:更新鲜的内容会被更多展示在搜索结果中,尤其是最近的事件或热门话题、定期举办或发生的事件(如奥运会之类)、经常会更新的信息(如最新产品)。影响了35%的查询。
当然,这只适用于更需要新鲜信息的查询,有的查询并没有太大实效性,如菜谱,就不必太担心。
熊猫更新(Panda Update)
上线时间:2011年2月24号
受影响网站:内容低质量的页面排名被降低,如转载、抄袭的内容,大量用户发的垃圾留言、主体内容太少、关键词堆积等等。
熊猫更新打击面大,影响大致12的查询结果,对现今SEO方法产生了重要影响。Panda算法最初是后台计算,集中上线,从2011年上线到2015年融入到核心算法中,经历了近30次更新。
熊猫算法更新最初被SearchEngineLand命名为Farmers Update,内容农场更新,后来Google自己公布了算法代码是Panda,和咱们的熊猫没关系,是Google内部开发此算法的主要工程师之一的名字叫Panda。
采集惩罚算法(Scraper Algorithm)
上线时间:2011年1月28号
受影响网站:Matt Cutts的博客帖子公布的这个算法,采集、抄袭的内容页面被惩罚,奖励原出处。2%查询受影响。
负面评价处理(Negative Review)
上线时间:2010年12月1号
受影响网站:这个算法是由于 Google的人读到纽约时报的一篇报道,一位顾客在某商家的体验很差,所以上网写了负面评论,但负面评论却给商家带来更多链接,链接又导致商家网站排名上升,带来更多生意。Google很快采取措施,检测这类负面评论,降低相应商家排名。
咖啡因更新(Caffeine)
上线时间:2010年6月1号
受影响网站:咖啡因更新是一次索引系统代码的重写,新系统比旧系统50%的内容更新,索引数量也更大,更有扩展性,速度更快。原来的索引系统是分层的,有的内容(重要内容)抓取索引更快,有的内容就得等比较长时间。咖啡因系统把网络分成小区块,持续更新索引库,发现新页面,或老页面上的新内容,直接进入索引库。
Mayday Update
上线时间:2010年4月28号-5月3号
受影响网站:根据Matt Cutts的视频说明,Mayday更新主要针对长尾查询词,算法会寻找哪些网站的页面质量更符合要求。当然这种说明说了也是和没说差不多。SEO们的观察是,受影响的主要是大型网站上离首页点击距离比较远、没什么外链、内容没有什么附加价值的页面 — 很多电商网站的产品页面就是这样的,内容是供应商给的,也不大可能有外链。
Mayday指的是发生在5月份,不是求救的那个Mayday。
页面速度因素(Page Speed Ranking Factor)
上线时间:2010年4月
受影响网站:顾名思义,打开速度快的页面排名会给予提升,虽然幅度不大。速度的测量包括蜘蛛抓取时页面的反应速度和工具条记录的用户打开页面时间。
2013年6月,Matt Cutts暗示,速度特别慢的页面可能会被惩罚,不过也不用特别担心,除非页面速度慢到一定程度。
Vince/品牌更新(Vince/Brand Update)
上线时间:2009年2月1号
受影响网站:大品牌网站页面在很多查询结果中(都是非长尾的大词)排名显着提高,所以最初被称为品牌更新。以前帖子写过Vince/品牌更新。
Matt Cutts后来解释,这次更新其实其实只是很小的变化,负责的Google工程师名字叫Vince,所以Google内部代码名称是Vince。这个变化并不是刻意针对大品牌,而是提升信任度在排名中的作用,而信任度、质量、链接这些方面,大品牌更有优势,所以表现出来的效果好像是大品牌页面被提升。
Dewey Update
上线时间:2008年3月
受影响网站:不明,SEO行业观察到排名剧烈变动,但没有找到明显规律。Dewey这个名字的来源是因为Matt Cutts在 webmasterworld论坛里征求这次算法更新的反馈意见,站长需要在反馈中标明Dewey这个词,可能是Google内部的识别代码。
大爸爸(Big Daddy)
上线时间:2005年12月-2006年3月
大爸爸是一次Google算法基础架构的重写,解决了网址规范化、301/302转向等技术问题。大爸爸是一个数据中心一个数据中心更新的,不是同时上线的。
大爸爸这名字怎么来的?据Matt Cutts帖子说,2005年12月的Pubcon会议上,Matt Cutts征求大家对这次更新的反馈,Matt Cutts知道更新已经在一个数据中心上线了,所以问大家有什么好名字来指这个数据中心,一位站长说,叫BigDaddy吧,他孩子就这么叫他的,Matt Cutts觉得挺好,就叫这个名字了。
我当年开始写SEO每天一贴就是大爸爸完成更新那段时间,第3篇帖子就是介绍大爸爸更新情况。Robin同志给我的第一个留言就在那篇帖子上,沙发,后来才有了点石,和很多中国SEO行业的故事。
Jagger Update
上线时间:2005年9-11月
受影响网站:Jagger分3个阶段上线,所以有Jagger1, Jagger2, Jagger3的名字。Jagger更新主要打击低质量链接,如交换链接、链接农场、买卖链接等。
早期的Google算法更新基本上都是webmasterworld命名的,Jagger也是webmasterworld创始人Brett Tabke起的名字,下面提到的更新名称大多是他们命名的。但貌似Jagger是最后一个,后来的名字大多是Google自己公布的了。
Bourbon Update
上线时间:2005年5月
受影响网站:早期Google更新往往没有官方信息,所以针对的是哪些网站经常不明,只是监测到排名有比较大变化。Bourbon一般认为与网址规范化有关。
Bourbon这个名字也是webmasterworld起的,原因是webmasterworld即将在新奥尔良举行一个行业会议,Bourbon是新奥尔良的一条着名老街道。
Allegra Update
上线时间:2005年2月
受影响网站:不明确,或者说范围广泛,包括低质量外链、关键词堆积、过度优化等。
公布支持nofollow
上线时间:2005年1月
现在SEO对nofollow肯定都很熟悉了,包括网络,所有主流搜索引擎都支持nofollow。还不知道的请参考以前关于nofollow的帖子。
Brandy Update
上线时间:2004年2月
受影响网站:链接锚文字作用提高,链接需要来自好邻居的概念第一次被提出来。索引库增长,抓取索引了很多新的链接,一些网站获得了更高权威度。
弗罗里达更新(Florida Update)
上线时间:2003年11月
受影响网站:弗罗里达更新是早期最着名的Google算法更新,影响面大,受影响的以商业意图明显的词为主,一些靠搜索流量的小公司倒闭,有的SEO公司因此陷入困境,因为客户网站排名下降,不续费了。弗罗里达更新的后果大到,Google曾经承诺,以后不在年底上线这么大的更新了,以免剧烈影响很多商家的圣诞季销售业绩。
Florida Update打击了一系列不自然的优化方法,包括隐藏文字、关键词堆积、链接农场、大量交换链接、过度优化。Florida彻底改变了SEO,可以说是现在SEO方法的起点。
Florida也是webmasterworld命名的,因为他们的命名方法该排到字母F打头了(为什么到了F打头,见下面Boston更新说明),而第二年2月他们要在弗罗里达的奥兰多举行Pubcon大会,所以就用了Florida。
Update Fritz
上线时间:2003年7月
Fritz更新是Google转为每天持续小幅更新索引的开始,这种更新方法又被称为everflux。
Update Fritz这个名字是Matt Cutts在他2006年的博客帖子里提到的Google内部名称,不是webmasterworld命名系列里的。
Esmeralda Update
上线时间:2003年6月1号
这是早期每个月发生一次的Google Dance的最后一次。这次更新之后,Google算法更新改为小幅、持续性的,当然这是相对Google Dance每个月一次、持续数天、排名剧烈波动而言。准确地说,Google Dance是索引更新,不是算法更新。Esmeralda更新之后,Google就不再Dance了。
Dominic Update
上线时间:2003年5月1号
早期Google Dance的一次。Dominic也是webmasterworld命名,名称来源于参加Boston Pubcon大会时大家常去的一家披萨饭馆。
Cassandra Update
上线时间:2003年4月1号
Brett Tabke和webmasterworld第一次特意给Google更新起名字。既然第一个名字是Boston,是个男名,这次应该是C打头的女名,大家投票,Cassandra胜出,没有其它特别意义。
Boston Update
上线时间:2003年2月1号
2003年波士顿举行的SES大会上,Google员工公布了这次更新,为了和其它Google Dance以示区别,取名Boston。
webmasterworld的创始人Brett Tabke就想,给更新取名字是个挺好的主意,所以就效仿台风的命名方法给Google更新取名,按字母排序,男名女名间隔,也得到了Google的首肯。所以早期的Google算法更新大多是webmasterworld命名的。
Google Dance
早期Google索引库每个月更新一次,是线下计算,然后集中上线。由于数据量大,需要一个数据中心一个数据中心地上线,不是同时上线的。在更新期间,用户这分钟访问的是一个数据中心,下一分钟可能访问的是另一个数据中心,看到的搜索结果可能有很大差别,因此被称为Google Dance。
从2000年7月开始,webmasterworld每个月开一个新帖,讨论每一次Google Dance情况,一直到2003年2月的Boston更新第一次有了名称,以前的Google Dance都是没有名字的。这里是当年Google Dance更新讨论的大列表。
I. Google搜索比百度搜索好在哪些地方
google有可开关的“安全搜索”,根据让用户根据自己喜好和接受度打开或关闭安全搜索。而网络,什么都不说,先主动帮你和谐了一些内容,遇到某些敏感词的时候,再和谐一些内容,然后这样告诉你:根据相关法律法规和政策,部分搜索结果未予显示。但从来不会告诉你是哪个法律和政策。google可以搜到几乎全网的视频,而网络大多是国内的。话说youtube有的视频我真的懒得去优酷等悠长又乏味的广告。网络除国内网页收录数量不错外,其他网页收录(包括港台网页)很不足。google可筛选不同地区不同文字的网页,网络不可以。google的算法更尊重原创内容。软件“格式工厂”为例:google上的首个链接就是格式工厂的官网。而网络,第一页是各种第三方下载站,至于官网,在第二页。在google上,包含更多原创内容的维基网络权重比其他网络高,而网络上,网络常常排在维基网络前面。知乎日报刚上线,搜索“知乎日报”,google的第一条是“知乎日报”的新闻搜索,第二条就是官网知乎日报。而网络,知乎日报的官网在第五页的最后的一条。google的图片和网页搜索可对搜索内容按“使用权限”进行筛选。网络不可以。google的图片搜索算法更精准。google的以图搜图比网络的精准太多。你在网络搜”cat“看看,第一页第二行有几张鞋子的照片……google可对图片设置安全搜索、使用权限搜索。google的进阶搜索(高级搜索)可筛选条件更多,网络稍缺。下面都是google有而网络没有的。按不同地区搜索按不同语言搜索视频按不同画质搜索图片和网页按使用权限搜索还有一些按类型的筛选,如论坛搜索、博客搜索。关于框计算。(google也有类似框计算的东西,但不知道它叫什么名字,先这么称呼吧。)以下可看出google想做搜索,而网络想做接口。以“一代宗师”为例,网络的框计算UI很突兀,又按钮又色块,google的就易接受很多。而且网络的框计算来自自己的内容和其他商业公司的内容,google的框计算内容来自维基网络。以”camera360“ 为例,网络框计算为网络应用的内容,首页没有google play和苹果商店,而google搜索页面有google play和苹果商店(并有打分),也有豌豆荚等第三方商店页面。除了网络应用,网络的其他产品也喜欢掺合进来,例如你在网络音乐搜音乐,其实是在“网络音乐”这个站内搜音乐,而不是全网的音乐,例如你在网络文库搜文档,其实是在“网络文库”这个站内搜文档,而不是全网。google的产品和google搜索分得比较开,google的产品在那个黑又硬导航条上面,和google搜索是分开的。google搜索上,除了地图,google的产品不会独成一个搜索。简体中文搜索方面,差别没有很大,个人感觉网络相关度不够google,并且广告站过多。再加上面差距积累下来,影响明显。—完—本文作者:Soso标签:Google 网络 转载申明:为了给广大网友提供更有价值的内容,我会把我认为优秀的互联网方面的文章转载于此。