導航:首頁 > 源碼編譯 > google搜索演算法

google搜索演算法

發布時間:2022-12-09 22:25:13

A. 一推響:2017年Google搜索引擎優化趨勢預測

SEO的世界是千變萬化的,每年Google搜索演算法都要更新數百次,對於SEOer來說,絕對是個挑戰。在2016年裡,通過思科視覺網路指數(Visual Networking Index)可以看出,PC流量終將被移動設備所超越。到2020年的時候,全網IP流量的71%為非PC設備,包括平板、智能機和電視。而在2015年,這個比例還僅為47%。那麼2017年Google搜索引擎優化的最新趨勢會是什麼?請允許我腦洞大開預測一下吧。

一、機器學習

谷歌在去年已經發布了人工智慧演算法「RankBrain」來對搜索結果進行排序,這套演算法的推出可以說是個重磅信號。目前來看,雖然機器學習對SEO的影響不大,但可以肯定的是以前古老的SEO策略會逐漸退出歷史舞台,到了2017年,Google的人工智慧演算法「RankBrain」估計會更加成熟。當然從長期來看,新的演算法也會給SEOer們帶來更多發揮空間,也許是件好事。

二、位置營銷

位置營銷是指企業和商家基於自己的位置,針對處於或進入其商業半徑范圍內、具有位置屬性的目標客戶進行精準營銷。谷歌對每一個網站進行排名時,一方面會考慮到載入速度,另一方面還會考慮伺服器位置和IP地理定位。前不久,一款基於地理位置的AR游戲《口袋妖怪GO》席捲了全球,《口袋妖怪GO》的的核心概念在於將AR(增強現實)與地理位置完美結合,虛擬的寵物小精靈會出現在真實熟悉的生活場景中,科幻劇情般的高階創意令游戲迷大呼過癮。受它啟發,更多基於地理位置的產品或營銷方式也將陸續出現。

三、語音搜索

語音搜索技術越來越成熟,目前幾大主流的搜索引擎均在積極推進語音搜索業務,在5月份的Google I/O大會上,谷歌CEO桑德爾•皮蔡提到:「Google Home可以將Google助手智能服務帶入到用戶家中的每一個房間,讓用戶通過對話的方式享受娛樂,管理日常任務,獲得Google搜索的問題答案。」不難看出,2017年語音搜索市場將會保持高速增長。

一推響工作室認為,對話式搜索將是未來SEO新趨勢,到了那時,我們可能就要考慮如何做好語音搜索引擎優化了。

B. PR值是什麼意思呢

PR值,即PageRank,網頁的級別技術。取自Google的創始人Larry
Page,它是Google排名運演算法則(排名公式)的一部分,用來標識網頁的等級/重要性。級別從0到10級,10級為滿分。PR值越高說明該網頁越受歡迎(越重要)。例如:一個PR值為1的網站表明這個網站不太具有流行度,而PR值為7到10則表明這個網站非常受歡迎(或者說極其重要)。

C. Google有哪些黑科技

谷歌作為 科技 類公司,有很多很牛的技術,其中有一個鮮為人知的技術就是實時自動生成字幕!隨著人工智慧的快速發展,語音識別技術准確率越來越好,實時生成字幕的效率越來越高。

谷歌在YouTobe中早已引入實時字幕生成功能,而且在其他產品,例如android和chrome中也有這個功能。

首先說Android。在安卓10版本中,谷歌加入了實時字幕功能,不過默認是關閉的,需要手動啟用,啟用後,該功能會應用在手機正在播放的媒體文件,不管是視頻還是語音消息,都可以生成實時字幕。不過只支持英文。

接著說說chrome。首先將chrome更新到canary84.0.4246.1或更高版本,接著進入實驗功能界面,搜索「live captions」,將這個實時字幕的選項打開。重啟chrome,進入到設置界面,在「高級」中找到「無障礙」,就可以看到實時字幕功能,開啟即可。

谷歌Google公司,被公認為全球最大的搜索引擎公司,業務包括了互聯網搜索、雲計算、廣告技術等涉及領域廣。我認為 我認為谷歌的「黑 科技 」,有以下領域體現:



強大的互聯網搜索引擎

互聯網搜索引擎是我們上網幾乎必備的查找網站關鍵詞的入口,而谷歌就是互聯網搜索引擎的鼻祖。在1998年,美國斯坦福大學的學生拉里·佩奇和謝爾蓋·布林在宿舍共同開發了谷歌在線搜索引擎。發展至今,谷歌已經建立強大的搜索服務和數據挖掘能力。涉及的服務包括:網頁,圖片,音樂,視頻,地圖以及新聞等,這依賴於強大的搜索演算法。為了處理海量的數據,提高網站排名質量,搜索演算法經過了反復的修正,在2013年,谷歌依靠強大的「蜂鳥」(Hummingbird)演算法,徹底代替舊版搜索演算法,以應對來自網路用戶更長、更復雜的查詢。 總之,谷歌強大的互聯網搜索引擎黑 科技 ,更加便利搜索關鍵詞找到全球范圍內的相關網站。



硬核的雲計算能力

谷歌搭建的雲計算平台能力強大,甚至能夠幫助人類分析病毒基因序列解決高難度問題。據今年的新聞報道,谷歌向全球COVID-19計劃提供大規模並行計算工作,以篩選出潛在的抗病毒葯物,幫助醫葯研發。通過強大的計算機運算能力,發現高質量的新穎分子。 因此,谷歌硬核的雲計算能力,能夠幫助解決現實世界的科學難題,造福人類。



成熟精準的廣告和網站分析技術

谷歌擁有成熟精準的廣告和網站分析技術。對於廣告分析,我們平時有目共睹,比較成熟精準,我們可以在平時的互聯網訪問過程中發現谷歌的推送廣告,基本也都是和自身相關度高,而且人性化可以屏蔽不展示。

對於網站分析技術,我們完全可以看當下各大電商、互聯網平台網站,通過他們的代碼都可以看出,都是接入的谷歌分析服務GoogleAnalytics(GA)。這是因為,谷歌提供了各種維度的數據分析能力,包括PV、UV等等眾多數據統計。這已經成為行業標准和標桿,普遍公認的網站分析技術。



先進的 科技 創造能力

谷歌的 科技 創造能力是世界領先的,人工智慧、無人駕駛等高尖端 科技 ,谷歌都有涉及。這依賴於谷歌擁有全世界頂尖的 科技 人才。在編程領域方面,谷歌的Android操作系統被廣泛在世界范圍內運行,提供的安卓開發框指引領世界開發者。谷歌還開發出了Go語言、Dart語言等,谷歌的 科技 引領世界技術的發展潮流。 谷歌擁有先進的 科技 創造能力黑 科技 ,引領著世界范圍內的科學技術更新換代。


結尾

作為引領世界 科技 發展、擁有眾多黑 科技 的谷歌,正在引領世界 科技 發展,推動人類文明進步。在這個時代,發揮重要價值。我們應當學習谷歌的這種不斷更新 科技 的能力,提高我國的信息化建設,推動 社會 發展。

1,google機器人最近很火,但知道到屬不屬實
2,android7.0 的全新架構讓性能提升20%以上,但除了內部程序員,沒人知道google怎麼達成的。
3,谷歌翻譯里,你將攝像頭對准你要翻譯的語言,它就會直接把你拍到的外文改為選定的目標語言。
4,谷歌郵箱的附件空間從第一天使用起會變得越來越大,速度奇快。

一、智能可穿戴設備的雷達感知手部動作技術

谷歌的Project Soli是其正在研發中的用於可穿戴設備的手勢操作感應技術,它能利用微晶元雷達識別出細微的手指活動,旨在實現非觸控用戶界面操控。自去年Google I/O 2015現場公布了Project Soli,似乎已經有開發人員獲得了谷歌最新的開發工具包

二、互聯網熱氣球,讓發展中國家人民免費上網

Project Loon氣球互聯網項目是Google最神秘的部門Google X於2013年推出的一項計劃,該計劃試圖通過熱氣球為世界上最偏遠的地區覆蓋網路,以及在災後幫助人們提供互聯網連接。等

D. 二十個你必須知道的SEO概念

二十個你必須知道的SEO概念

如果你擁有一個網站或獨立博客,或者你的工作多少和互聯網有關,那你一定耳濡目染多多少少對SEO(搜索引擎優化)有一定了解。本文將列舉其中20個SEO領域最常用的名詞和概念,如果你打算熟悉和了解他們請繼續閱讀。當然,如果你已經無所不曉,那你可以權當補習功課,或可以直接忽略本文。

1. 搜索引擎營銷(SEM)

搜索引擎營銷(SEM)英文全稱為Search Engine Marketing,意指通過搜索引擎進行服務和產品的營銷。搜索引擎營銷又主要分為兩種:搜索引擎優化(SEO)和付費點擊(PPC,Pay-Per-Click)。搜索引擎優化(SEO)指通過優化網站和頁面並讓它們在搜索結果的頁面中展示,而付費點擊(PPC)指通過購買搜索引擎的點擊將用戶帶到自己的網站。(通常)這些點擊來自搜索結果頁面中的“贊助商鏈接”(譯注:顯然不適用於網路)。

2. 反向鏈接(Backlink)

反向鏈接(Backlink)又稱為“回指鏈接”“入鏈”和“簡易鏈接”,指從其他網站指向你的網站的一個超級鏈接。反向鏈接之所以對SEO異常重要,是因為它們直接影響一個網頁的頁面等級(PageRank),以及這個頁面在搜索結果中的排名。

3. 頁面等級(PageRank)

頁面等級( PageRank) 是Goolgle用來評估一個頁面相對於其他頁面的重要性的一個演算法規則。這個演算法規則最基本的意思就是說,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,再根據這些鏈接的價值加權越高,那搜索引擎就會判斷這樣的頁面更為重要,頁面等級(PageRank)也就越高。

4. 鏈接誘餌(餌鏈)(Linkt)

鏈接誘餌(Linkt),顧名思義這是一個網站或一個博客上為了盡可能多地吸引反向鏈接(目的是提高網站的PR值)而存在的一段內容。通常,這些做為誘餌的內容為文字內容,但也可以是一段視頻、一張圖片、一個測驗或其他的熱門的內容。最經典的誘餌內容的例子是“十大(Top 10)”,因為這樣的內容在一些社交網站很容易流行起來成為熱門話題(譯注:這個話題貌似已經臭街了)。

5. 互鏈車間或互鏈作坊(Link farm)

互鏈工廠或互鏈作坊(Link farm)是指很多網站(通常數量很大)為了提高組成一個類似車間或作坊式的團體,通過彼此的互相鏈接來提高團體每一個的網站的頁面評級的手段。早期,這種方法很有用,但現在已經成為一種不恥的作弊手段(並可能會收到懲罰)。

6. 錨文本(Anchor text)

錨文本(Anchor text)在反向鏈接中是指一個頁面中可點擊的文本,而其中的關鍵詞對搜索引擎優化(SEO)有很大的幫助,因為Google會將這些關鍵詞和你的內容關聯起來。

7. 鏈接屬性-NoFollow

Nofollow是網站管理員使用的一個鏈接屬性,其目的是告訴搜索引擎他們並不是為該鏈接所指向的網站投票。這種鏈接也可能是網站用戶自己創造的內容(比如博客評論中的.鏈接),或者是一個付費交易的鏈接(比如廣告或贊助商的鏈接)。當Google識別到這些反向鏈接的NoFollow屬性後,基本就不會在頁面評級和搜索結果排名的演算法中將這些鏈接的貢獻計算在內了。

8. 鏈接修飾(Link Sculpting)

鏈接修飾(Link Sculpting)是指網站管理員對網站上其他網站的反向鏈接進行屬性設置。比如,管理員給鏈接添加Nofollow屬性,這可以讓管理員決定利用自己的網站為具體某個網站提高頁面評級,或者不幫助具體某個網站提高網頁評級。不過,現在這種做法的作用已經微乎其微,因為Google已經決定要用自己的演算法來決定怎麼處理鏈接的Nofollow屬性。

9. 頁面標題(Title Tag)

頁面標題(Title Tag),顧名思義是指一個頁面的標題中,這也是Google搜索演算法中最重要的一個參考。理論上,你的頁面標題要獨一無二並盡可能多地包括頁面內容中的關鍵詞。你在瀏覽網頁時可以從瀏覽器最上方看到一個網頁的標題。

10. 元標簽(Meta Tags)

元標簽(Meta Tags)和頁面標題一般,主要用於為搜索引擎提供更多關於你頁面內容的信息。元標簽位於HTML代碼的頭部,還有就是對長眼睛的訪客是不可見的。

11. 搜索演算法(Search Algorithm)

Google的搜索演算法是為了給每一次搜索請求找到最為相關的網站和頁面而設定。這個演算法考量的因素超過200種(谷歌自稱),其中包括頁面等級、標題、元標簽、網站內容,以及域名的年齡等。

12. 搜索結果頁面(SERP)

搜索結果頁面(SERP)的英文全稱為Search Engine Results Page.基本上,這就是你平時在Google鍵入關鍵詞回車後的頁面了。你的網站從這個頁面得到的流量取決於你的網站在搜索結果中的排名等級。

13. 沙盒(Sandbox)

Google除了所有網站的索引之外,還有一個單獨的索引沙盒,那裡面是新近發現和收錄的網站。當你的網站存在這個沙盒之中時,它就不會在一般的搜索結果中出現,而只有當Google確認了你的網站是合法的,這才會將其從沙盒中移出進入所有網站的索引。

E. 百度seo和google seo演算法比較

網路seo和google seo演算法比較

1、自家產品優勢
輸入任意一個熱門關鍵詞,網路首頁基本都會出現網路自家產品的排名,即使這些自家產品沒有做過任何SEO,它們依然能夠堅挺的排在首頁。SEO人如果能學會利用網路自家產品借力使力,可以達到事半功倍的效果。
而谷歌對於自家產品一視同仁,如果違反谷歌站長指南,即使是自家產品,谷歌一樣格殺勿論,谷歌日本、谷歌瀏覽器等被降權就是很好的例子們。
所以,要做好谷歌SEO,必須嚴格遵守谷歌站長指南,沒有捷徑;要做好網路SEO,如果要短期獲得效果,嘗試藉助網路自身平台的優勢將會是一個很不錯的想法。

2、搜索結果首頁用戶行為
在谷歌,用戶找到他們想要的信息通常只需要網路用戶一半的時間(谷哥是30秒,而度娘是55秒),大部分用戶只看前三個結果;
反之,在網路,用戶通常會把搜索結果上的內容從頭掃到尾,同時我們注意在網路的那張熱力圖上,紅點表示點擊,大量出現在網路搜索框和底部相關搜索上,而非搜索結果的網頁,這對於網路來說可不算是一個給力的數據,那為啥會這樣子?很大程度原因要和搜索質量有關,網路的搜索結果相對是比較混沌的,很多時候用戶根本分不清那些是付費廣告,那些是自然結果,而通常這些付費廣告的內容又不能很好滿足用戶的需求,所以用戶可能會選擇再次提煉搜索字詞,或者乾脆拉到底部看相關推薦去再次尋找他們真正想要的內容。當然,可也是為什麼網路用戶平均要花費55秒,幾乎是谷歌的兩倍的搜索時間去發現他們想要的信息。

3、頁面收錄
從頁面收錄的時間來看,谷歌絕對是比網路快很多,而且通常只要在外圍放置少量的外鏈入口谷歌就能順著鏈接爬到你的網站並且建立索引,而網路則不同,對於新站不會立刻收錄,甚至相當長的時間都不收錄。新網站通過網路的考核期後,網路才開始收錄你的網站,這個考核期對於很多站長來說是比較難熬的,考核期的時間有時候確實讓人琢磨不透,有的網站甚至一個多月兩個月才開始收錄,也有的網站兩三天就收錄了,如果說是一些高質量的網站收錄快,質量較差的網站收錄慢也能理解,可是據了解一些非法的網站、質量很差的網站也有很多很快就被收錄了,這就讓人有些琢磨不透了。
所以,做網路SEO,特別是新站,不要隨便去保證別人二、三個月見效之類的話,很可能兩個月網路都沒有把你的網站放出來,呵呵。所以一般我們和客戶去談這樣類型的SEO優化,都是至少要6個月的優化期,少於這個時間一般是不做的,除非他不要保證績效。

4、對待新站的策略
對待新站網路和谷歌都有各自的審核標准,谷歌有谷歌沙盒,網路也有自己的審核期,從持續的時間來看,基本上也差不過,都為3-6個月的時間。不同的是,過了審核期後,谷歌評判關鍵詞排名的標准更多是從這個頁面本身的質量度和外部鏈接的推薦情況來排序,不會因為你的站點年輕而影響某個具體頁面的排名,而網路依舊會考慮整站的權重,所以新站很難從網路獲取熱詞、難詞的排名,更多的情況是通過大網站轉載之後,被大網站搶去流量和排名,而對於谷歌來說,新站獲取熱詞排名是極有可能的事情。

5、網站被K後的恢復機制
網站一定被谷歌K了之後,不用過於擔心,按照谷歌站長指南調整好自己的網站,再通過谷歌管理員工具和谷歌溝通,谷歌會重新觀察網站是否改正之前的作弊手段,一旦改正之後,谷歌還是會恢復的。但網路,如果網站被K,那麼恢復的幾率就很小了,雖然網路也有申訴通道,但是個人認為這些只是形式上的擺設,大部分得到的回復都是答非所問,當然網路也可以怪大部分站長問的問題很不明確,屬於無效提問。但事實上,即使是有效提問,處理的速度和回復效率仍然是很低下的,如果要舉例,足可以寫一篇博文,這里暫不詳述。當然這個也是和網路自身人員的素質有關,沒有專人專項去管這件事情必然導致目前這種尷尬的局面。所以對於網路SEO,一定要嚴格遵守網路站長指南,雖然可以說有些網站作弊也能排到網路首頁,這種情況我無法解釋,就像為什麼有些人無所作為,在公司里混混也能拿高工資,或許看到的只是表面現象。

6、robots協議遵守情況
谷歌完全遵守robots協議,一旦robots設置屏蔽谷歌蜘蛛之後,谷歌就不會對網站進行抓取和索引,但是網路似乎並不嚴格遵守,當給網站設置robots協議之後,網路蜘蛛有時會繞過/無視robots文件,仍然會繼續爬行空間文件,當然這里只是說它們在爬行,沒有放出來而已,但,個人猜測,網站數據都完完整整的被網路記錄在他們的伺服器內,只是沒有生成摘要在搜索結果頁顯示而已。網路並不嚴格遵守robots協議。

7、外部鏈接評判標准
谷歌和網路對於外鏈的評判標准其實很不同,對於谷歌而言,外鏈更像是外部推薦,不僅僅局限於那個寫在a標簽裡面可以直接點擊的鏈接,來自social端的推薦因素也能夠影響排名。而對於網路來說,鏈接就是鏈接,和social沒有直接關系,同時網路也會認可那些沒有寫在a標簽里的鏈接(這點谷歌是不接受的),這個也是取決於互聯網這個大環境,很多人不願意給可以點擊的外鏈,但是這些外鏈又確實是真心推薦的,到底算還是不算呢?網路站長平台說過,評判鏈接的唯一標准就是這條鏈接是否是用戶真心推薦。所以,不管鏈接形式如何,只要這條鏈接推薦的東西有價值,就被網路算做一條外部鏈接,並且可以傳遞權重。
另外,外鏈重要程度網路和谷歌也各不相同。谷歌認為外鏈(外部的真實推薦)是網站的一個非常重要的信號,甚至要比一些站內SEO優化,如關鍵詞密度,H標簽、內鏈、URL結構都重要,因為谷歌完全有能力去索引和識別一個網站,而用戶推薦的數據是谷歌所看中的。
而網路則不同,外部鏈接重要性佔比沒有谷歌那麼大,一方面中國互聯網的推薦機制還不夠成熟,外鏈的可信度其實並不怎麼高;另一方面,網路自身對於網站的索引和識別能力並沒有谷歌那麼強,所以對於網路SEO,做好站內優化、特別是關鍵詞部署、網站結構梳理包括導航、內鏈機制都是非常重要的。

8、內容更新
網路似乎比谷歌更重視內容的更新,一個網站或者頁面有持續更新的內容對於網路來說是很友好的。也可以搜索一些冷門行業的熱門關鍵詞看看搜索結果前十的網站異同,你會發現排在谷歌前十的網站的內容幾乎不怎麼更新,而如果要排到網路首頁的話,網站則必須是有海量內容更新機制,網路給予新鮮內容的權重度要遠高於谷歌。

9、原創識別機制
中國互聯網轉載和抄襲是司空見慣的事情,這個時候對搜索引擎來說,識別原創的能力就顯得尤為重要,網路這方面做得非常不好。

10、熱門事件效應速度
谷歌對於熱門信息的處理相對較快,往往能夠很准確的找到新聞源的位置,而網路更多的是依靠大網站來獲取熱門信息,一旦小網站上有熱點內容而又沒有被大網站即時發現的話,網路是很難在短期內挖掘到的,所以這就是為什麼網路要和新浪微博達成戰略合作關系來共享數據,也是看中微博的一個短頻快的特性,包括網路也會開放API介面與各大網站進行數據共享,就是為了彌補網路蜘蛛抓取的局限性和對熱點把控能力弱這樣一個無法在短期彌補的特性。

F. 百度和Google的搜索演算法,技術有何差異

網路是中國的,谷歌是美國的。各有側重不能不可比較。技術都是一樣的側重不同罷了。網路側重的是中國民俗,谷歌是側重美國民俗。因為國情國法不同所以無可能比較量級。【搜索引擎技術是硬體加軟體。硬體是實際使用的機器,軟體是程序編程】搜索產品搜索引擎產品其實包括很多種類,並不限於我們最熟悉的全網搜索引擎。簡單分類羅列一下:*全網搜索:包括市場份額最高的幾大搜索引擎巨頭,Google,Yahoo,Bing。*中文搜索:在中文搜索市場中,網路一家獨大,其它幾家如搜狗、搜搜、有道,市場份額相對還比較小。*垂直搜索:在各自的垂直領域成為搜索入口的,購物的淘寶,美食的大眾點評,旅遊的去哪兒,等等。*問答搜索:專注於為問句式提供有效的答案,比如Ask.com;其它的如問答社區像Quora和國內的知乎,應該也會往這方面發展。*知識搜索:典型代表就是WolframAlpha,區別於提供搜索結果列表,它會針對查詢提供更詳細的整合信息。*雲搜索平台:為其它產品和應用提供搜索服務託管平台(SaaS或是PaaS),Amazon剛剛推出它的CloudSearch,IndexTank在被Linkedin收購之前也是做這項服務。*其它:比始DuckDuckGo,主打隱私保護,也有部分用戶買帳。各種搜索產品在各自領域都需要解決特定的技術和業務問題,所以也可以建立相對通用搜索的優勢,來得到自己的市場和用戶。搜索技術搜索引擎所涉及和涵蓋的技術范圍非常廣,涉及到了系統架構和演算法設計等許多方面。可以說由於搜索引擎的出現,把互聯網產品的技術水平提高到了一個新的高度;搜索引擎無論是在數據和系統規模,還是演算法技術的研究應用深度上,都遠超之前的簡單互聯網產品。列舉一些搜索引擎所涉及到的技術點:*爬蟲(Crawling)*索引結構(InvertedIndex)*檢索模型(VSM&TF-IDF)*搜索排序(RelevanceRanking&Evaluation)*鏈接分析(LinkAnalysis)*分類(Document&QueryClassification)*自然語言處理(NLP:Tokenization,Lemmatization,POSTagging,NER,etc.)*分布式系統(DistributedProcessing&Storage)*等等雖然搜索引擎涉及的技術方方面面,但歸結起來最關鍵的幾點在於:*系統:大規模分布式系統,支撐大規模的數據處理容量和在線查詢負載*數據:數據處理和挖掘能力*演算法:搜索相關性排序,查詢分析,分類,等等系統搜索引擎系統是一個由許多模塊組成的復雜系統。核心模塊通常包括:爬蟲,索引,檢索,排序。除了必需的核心模塊之外,通常還需要一些支持輔助模塊,常見的有鏈接分析,去重,反垃圾,查詢分析,等等。[附圖:搜索系統架構概念模型]*爬蟲從互聯網爬取原始網頁數據,存儲於文檔伺服器。*文檔伺服器存儲原始網頁數據,通宵是分布式Key-Value資料庫,能根據URL/UID快速獲取網頁內容。*索引讀取原始網頁數據,解析網頁,抽取有效欄位,生成索引數據。索引數據的生成方式通常是增量的,分塊/分片的,並會進行索引合並、優化和刪除。生成的索引數據通常包括:字典數據,倒排表,正排表,文檔屬性等。生成的索引存儲於索引伺服器。*索引伺服器存儲索引數據,主要是倒排表。通常是分塊、分片存儲,並支持增量更新和刪除。數據內容量非常大時,還根據類別、主題、時間、網頁質量劃分數據分區和分布,更好地服務在線查詢。*檢索讀取倒排表索引,響應前端查詢請求,返回相關文檔列表數據。*排序對檢索器返回的文檔列表進行排序,基於文檔和查詢的相關性、文檔的鏈接權重等屬性。*鏈接分析收集各網頁的鏈接數據和錨文本(AnchorText),以此計算各網頁鏈接評分,最終會作為網頁屬性參與返回結果排序。*去重提取各網頁的相關特徵屬性,計算相似網頁組,提供離線索引和在線查詢的去重服務。*反垃圾收集各網頁和網站歷史信息,提取垃圾網頁特徵,從而對在線索引中的網頁進行判定,去除垃圾網頁。*查詢分析分析用戶查詢,生成結構化查詢請求,指派到相應的類別、主題數據伺服器進行查詢。*頁面描述/摘要為檢索和排序完成的網頁列表提供相應的描述和摘要。*前端接受用戶請求,分發至相應伺服器,返回查詢結果[附圖:爬蟲系統架構]爬蟲系統也是由多個模塊構成:*URLScheler存儲和高度待爬取的網頁地址。*Downloader根據指定的網頁列表爬取網頁內容,存儲至文檔伺服器。*Processer對網頁內容進行簡單處理,提取一些原始屬性,為爬取的後續操作服務。*TrafficController爬取流量控制,防止對目標網站在短時間內造成過大負載[附圖:搜索系統架構實例:Google這是Google早期的一張系統架構圖,可以看出Google系統的各模塊基本和前面概念模型一致。所以一個完整的全網搜索系統的大致系統架構是類似的,區別和競爭力體現在細節實現和優化上。數據除了搜索引擎系統提供了系統支撐外,搜索結果質量很大程度上依賴於源數據的數量和質量,以及數據處理的能力。全網數據的主要來源通常是從互聯網上進行自動爬取,從一些高質量的種子站點開始,並沿網頁鏈接不斷,收集巨量的網頁數據;這通常能達到數據在數量的要求,但也不可避免混入了大量的低質量網頁。除了自動爬取來的數據外,搜索引擎的數據來源還可以來自人工收集、合作夥伴提供、第三方數據源和API、以及購買;這些來源通常會有更好的質量保證,但在數量規模和覆蓋率上會相對少一些,可以和爬取的數據形成有效的互補。收集到足量的原始數據後,需要進行各種數據處理操作,把原始數據轉換成在線檢索需要的數據。這個過程通常包括:網頁分析,數據抽取,文本處理和分詞,索引及合並;最終生成的數據會包括:詞典,倒排表,正排表,文檔權重和各種屬性。最終生成的數據要布署上相應的在線檢索伺服器上,通常會進行數據分區和分片布署,數據內容更豐富時還可能根據內容分類和主題進行分別布署,比如新聞時效類的網頁可能就會獨立布署,針對性地響應時效類的查詢[附圖:索引數據:字典、倒排表、正排表]這張圖來源於Google早期的索引數據結構,包括詞典、倒排表、正排表。演算法有了相當數量的高質量數據之後,搜索結果的質量改進就取決於搜索演算法的准確性上。現在的搜索引擎通常通過向量空間模型(VSM=VectorSpaceModel)來計算查詢和各文檔之間的文本相似性;即把查詢或文檔抽象成一個詞向量,然後再計算向量在向量空間中的夾角,可以用餘弦公式得出,作為文本相似度的度量值。在基本的向量空間模型基礎上通常會進一步加入詞的權重值進行改進,通過經典的TF-IDF公式得出,即詞頻(TF)乘上逆文檔頻率(IDF);其中TF=TermFrequency,即該詞在所在文檔中的出現次數;IDF=InvertDocumentFrequency,即包含該詞的文檔數除以總文檔數,再取反,通常還會取對數來降維,這個值值越大表示這個詞越能代表文檔特徵。除了通過向量空間模型得出的文本匹配評分外,每個文檔還會有自己本身的質量評分,通常由網頁鏈接數據計算得出,代表了該網頁本身的流行度權重。最終的評分會以文本匹配的查詢時動態評分和文檔靜態評分為基礎計算得出;搜索引擎的評分計算都會考慮很多因素,但這兩項通常是評分計算的基礎。有了確定的排序演算法後,另一個重要的任務就是評估搜索結果的質量。由於搜索結果的好與壞是一個比較主觀的過程,所以進行定量的評估並不容易。常見的做法是通過事先選定一批查詢,通過人工評估或是預先設定標准值的方式,逐個評估每個設定查詢搜索結果,最終得到一個統計結果,作為搜索演算法的評估度量。另一類做法是直接通過線上的用戶點擊數據來統計評估搜索結果質量,或是通過A/B測試來比較兩種排序演算法的點擊效果來衡量。合理而有效的評估方法,是搜索演算法可以不斷改進和比較的前提。查詢分析是另一個對搜索結果影響很大的方面,主要任務是把用戶的查詢文本轉換成內部的結構化的搜索請求。涉及的處理可能包括基本的分詞處理,專有名詞的識別和提取,或是查詢模式的識別,或是查詢分類的識別。這些處理的准確性將能極大地改進搜索請求的方式,進一步影響搜索結果的相關性和質量。開源方案近年來在搜索公司內部搜索系統和技術的改進和發展的同時,一批開源的搜索系統和解決方案也逐漸發展和成熟起來。當然開源系統在功能全面性、復雜性和規模上都不能與專業的搜索引擎系統相比,但對於中小企業的搜索應用來說應該已經能很好地滿足需求,而且也成功應用到了一些大規模的產品系統中(比如Twitter的搜索就使用和改進了Lucene)。現在比較常見的開源搜索解決方案有:*LuceneLucene自然是現在最流行,使用度最高的搜索開源方案。它用Java開發,以索引和檢索庫的方式提供,可以很容易地嵌入需要的應用中。*Solr&SolrCloudSolr是Lucene的子項目,同屬Apache軟體基金會項目;它是基於Lucene之上實的一個完整的搜索服務應用,提供了大量的搜索定製功能,可以滿足大部分的搜索產品需求。SolrCloud是Solr為了加強其分布式服務能力而開發的功能,目前還在開發階段,將在Solr4.0發布。*Zoie&Sensei(Linkedin)Zoie是Linkedin公司在Lucene基礎上實現的准實時索引庫,通過加入額外的內存索引,來達到准實時索引的效果。Sensei是Linkedin公司在Zoie基礎上實現的分布式搜索服務,通過索引分區來實現分布式搜索服務。*ElasticSearchElasticSearch也是剛推出不久的一個基於Lucene實現的分布式搜索服務,據說在分布式支持和易用性上都有不錯的表現。因為還比較年輕,真實的應用應該還不多,需要觀察。因為也是基於Lucene的分布式開源搜索框架,基本上會與SolrCloud和Sensei形成正面競爭關系。*其它開源產品除了Lucene家族以外,還有一些其它的開源產品,比如Sphinx和Xapian,也有不少的應用;但近年來的更新頻率和社區活躍度都不太能和Lucene系的產品相比。*託管平台除了開源產品外,現在還出現了一些基於雲計算和雲服務的搜索服務,比如Amazon新近推了的CloudSearch,還有更早一些的IndexTank(已被Linkedin收購)。這類服務無需自己布置搜索系統,直接使用在線服務,按需付費,所以也將是開源產品的替代方案和競爭對手。附幾張上面提到的開源系統的概念模型和架構圖:[附圖:Lucene概念模型][附圖:Lucene工作流程][附圖:Sensei系統架構][附圖:SolrCloud系統架構]現狀與未來:傳統的搜索引擎經過了十幾年的發展,目前在技術和產品上都已走向逐漸穩定和成熟,通用搜索的市場也基本進入飽和,不像早些年一直呈現高增長率。同時,在各個垂直領域,也出現了很多和產品結合的很好的垂直搜索產品,比如淘寶的購物搜索,大眾點評的美食搜索,去哪兒和酷訊的旅遊搜索等,也都在各自領域占據了相當大的市場,成為除了通用搜索引擎之外的重要的用戶入口。在開源領域,各種開源產品和解決方案也逐漸發展成熟,通用搜索技術不再為大公司所專有,中小企業能夠以較低的成本實現自己的搜索應用。現在搜索引擎產品之間的競爭的在數據、應用方式和產品形態上,在系統架構和基本演算法上區分並不大。搜索引擎在未來發展上,一是搜索將不僅僅以獨立產品的形式出現,的會作為搜索功能整合到的產品和應用中。在產品形態上,基於傳統的搜索引擎,會演化出像推薦引擎,知識引擎,決策引擎等形式的產品,更好地滿足和服務用戶需求。而搜索引擎所涉及和發展起來的各種技術,會更廣泛地應用到各種基它產品上,比如自然語言處理,推薦和廣告,數據挖掘,等等。總之,搜索引擎對互聯網技術和產品帶來的影響是巨大的,未來也仍將有很大的發展和應用空間。

G. Google 圖片搜索的原理是什麼

Google圖片搜索的原理,一般是三個步驟:

1. 將目標圖片進行特徵提取,描述圖像的演算法很多,用的比較多的是:SIFT描述子,指紋演算法函數,bundling features演算法,hash function(散列函數)等。也可以根據不同的圖像,設計不同的演算法,比如圖像局部N階矩的方法提取圖像特徵。

2. 將圖像特徵信息進行編碼,並將海量圖像編碼做查找表。對於目標圖像,可以對解析度較大的圖像進行降采樣,減少運算量後在進行圖像特徵提取和編碼處理。

3. 相似度匹配運算:利用目標圖像的編碼值,在圖像搜索引擎中的圖像資料庫進行全局或是局部的相似度計算;根據所需要的魯棒性,設定閾值,然後將相似度高的圖片預保留下來;最後應該還有一步篩選最佳匹配圖片,這個應該還是用到特徵檢測演算法。

H. 深圳SEO歷史上谷歌Google推出了哪些演算法

馬加比更新(Maccabees Update)

上線時間:2017年12月12號

受影響網站:刻意為各種關鍵片語合建立大量著陸頁,比如「地名A+服務a「、」地名A+服務b」、「地名B+服務a」等等,為了覆蓋這些關鍵詞,製造大量頁面,質量通常不會高。

馬加比這個名字是 SERoundtable.com的Barry Schwartz起的,不是Google官方給的名字,因為Google貌似不會再公布演算法更新了,更不要說起名字了。Barry Schwartz起這個名字是因為這次更新發生在猶太人的光明節期間,光明節是紀念馬加比家族的。Google在某種程度上確認了這次更新,不過只是說,在這段時間上線了幾個小更新,是提高相關性日常工作的一部分。

移動優先索引(Mobile First Index)

上線時間:2017年10月中旬

受影響網站:移動優先索引指的是Google優先索引網站移動版本,並作為排名依據。以前都是索引PC版本並計算排名的。移動優先索引Google在2016年底就開始宣傳了,但一直沒有推出,估計影響面比較大。2017年10月中旬左右,Google透露一小部分網站已經開始轉為移動優先索引。

貓頭鷹更新(Project Owl)

公布時間:2017年4月25號

受影響網站:虛假新聞內容,如編造的假新聞,極度偏見、煽動仇恨,謠言等。參見以前寫的關於貓頭鷹演算法的帖子。

弗雷德更新(Fred Update)

上線時間:2017年3月8號

受影響網站:廣告過多的低質量內容站,這類網站之所以存在,就是為了放 Adsense之類的廣告,並沒有提供給用戶更多價值。

為什麼叫Fred更新呢?因為SEO們問Google員工Gary Illyes這次更新叫啥名字時,Gary Illyes隨便給了個名字,貌似是他養的魚的名字,為什麼想起這條魚的名字呢?因為Gary Illyes剛給這條魚拍了張照片,就是右邊這張。Gary Illyes說,以後除非另行說明,不然所有更新都叫Fred了。就這么任性,就這么草率。

移動頁面干擾插頁懲罰演算法(Intrusive Interstitial Penalty)

上線時間:2017年1月10號

受影響網站:這個懲罰演算法針對移動頁面:擋住主題內容的彈窗,干擾用戶訪問的大幅插頁式廣告,用戶需要關掉插頁才能看到頁面實際內容,有時候需要等5-10秒才能關掉。不過據統計,被懲罰的網站並不多。

企鵝更新4.0(Penguin 4.0)

上線時間:2016年9月23號,10月12號左右完成

受影響網站:和以前的企鵝更新一樣,受影響的是有低質量外鏈的網站。Penguin 4.0是最後一次企鵝系列演算法更新了,因為企鵝演算法以後成為核心排名演算法的一部分,實時更新。

另外,以前的企鵝更新是懲罰網站,4.0是不計算低質量外鏈,降低負面SEO的可能性。

移動友好演算法2(Mobile Friendly Algorithm 2)

上線時間:2016年4月21號

受影響網站:2015年4月21號第一次Google移動友好演算法的一次更新,使更多移動友好頁面能被用戶看到。

APP安裝插頁廣告懲罰(APP Install Interstitial Penalty)

上線時間:2015年11月2號

受影響網站:頁面會彈出大幅、遮擋主體內容的插頁,要求用戶下載APP,這種頁面被認為不移動友好,在移動搜索中會被降低排名。頁面可以建議用戶下載APP,但廣告不要大幅甚至全屏,做成頂部banner之類的是沒問題的。

RankBrain

上線時間:消息公布時間是2015年10月26號,通過 Bloomberg的一篇文章。演算法上線時間應該是數月前,2015年上半年。

RankBrain嚴格說來不算是排名演算法,而是以人工智慧為基礎的深入理解用戶查詢詞的系統,尤其是長尾的、不常出現的查詢。2015年剛上線時,15%查詢詞經過RankBrain處理,可能是效果很好,2016年開始所有查詢詞都經過RankBrain處理。RankBrain的例子參考以前的帖子。

被黑網站刪除演算法(Hacked Spam)

上線時間:2015年10月

受影響網站:被黑的網站,包括病毒、引導流量到色情、侵權產品、非法葯物網站等。這些頁面會從搜索結果這直接刪除,所以有時候搜索結果頁面可能只有8、9個結果。以前通常是在搜索結果中標注這個頁面可能被黑了,現在直接刪除了。5%左右的查詢受到影響。檢查自己網站是否被黑還是挺重要的。

熊貓演算法4.2(Panda Update 4.2)

上線時間:2015年7月18號

自2011年推出以來,熊貓演算法經歷了近30次更新,Panda 4.2是最後一次,幾個月才完成。這之後,熊貓演算法成為Google核心演算法的一部分,雖然還會有更新,但不再單獨給名字了。

質量更新(Quality Update)

上線時間:2015年5月1號左右

受影響網站:內容質量低的頁面,但不是熊貓演算法。Google雖然確認了這次更新,但表示,這只是Google經常做的演算法更新之一,調整了評估內容質量的方法,沒什麼特殊的。

移動友好演算法(Mobile Friendly Algorithm)

上線時間:2015年4月21號

受影響網站:在移動搜索中給予移動友好的網站排名提升。也被稱為Mobilegeddon – 天劫演算法。

所謂移動友好,其實沒那麼復雜,用戶能正常在手機訪問頁面就行了,所以字體不要太小,字距行距不要太小,用戶不需要左右拉屏幕,手指頭點擊鏈接時不會點錯地方,速度夠快等等。自己用手機看看自己網站就知道是否移動友好了。也可以參考一下本博客移動SEO的帖子。

移動友好演算法是針對頁面級別的,需要頁面重新抓取、索引後才能判斷是否移動友好。所以演算法本身4月底上線,但受影響的頁面可能不是馬上見到效果。

Google曾經預報說移動友好演算法比熊貓和企鵝更新的影響還要大,但由於Google很早就提醒SEO們移動友好的重要性,很多網站已經做了移動優化,所以這次更新沒有預計的那麼有震撼性。

HTTPS更新(HTTPS Update)

上線時間:2014年8月7號

受影響網站:使用了https的頁面排名會稍微提升一點。Google聲明這只是個很小的排名因素,但事實上對網站採用https起到了很大推動作用。

鴿子更新(Pigeon Update)

上線時間:2014年7月24號

受影響網站:鴿子更新是本地搜索演算法的一次更新,改進了距離和定位排名演算法參數。這個名字不是Google起的,是SearchEngineLand給起的。之所以取「鴿子」這個名字是因為,鴿子會回家,有本地意識。

蜂鳥更新(Hummingbird Algorithm)

上線時間:2013年8月

受影響網站:蜂鳥更新是一次排名演算法的重寫,改進對查詢詞真實意圖的理解,更重要的是未來的擴展性。雖然代碼是完全重寫的,但排名因素及參數大概變化不多,所以上線後基本上SEO行業沒有人注意到。

發薪日貸款演算法(Payday Loan Algorithm)

上線時間:2013年6月13號

受影響網站:針對垃圾和黑帽手法盛行的一些行業的查詢詞重點打擊,如payday loan(發薪日貸款,一種小額、短期、利息高的貸款,一般下個發薪日就還上)、色情等。這些行業常用的作弊手法也經常是非法的。

2014年5月16號,發薪日貸款演算法2.0上線,2014年6月12號,演算法3.0上線。

完全匹配域名懲罰(EMD Update)

上線時間:2012年9月29號

受影響網站:低質量的完全匹配域名(exact match domain)網站,也就是域名與目標關鍵詞完全一樣。URL中包含關鍵詞對排名有一些幫助,所以不少SEO用目標關鍵詞注冊域名。這種域名確實有過好處,但現在內容不行的話可能被懲罰。

DMCA懲罰演算法(DMCA Takedown Penalty)

上線時間:2012年8月13號

受影響網站:DMCA,Digital Millennium Copyright Act,數字千年版權法案,根據這個法案,版權作品被侵權,版權所有人可以向服務商要求刪除侵權內容,服務商可以是主機商,域名注冊商,ISP,以及搜索引擎。DMCA演算法就是對收到很多侵權投訴刪除要求的網站,Google給予排名懲罰。

DMCA Takedown Penalty又被稱為pirate update,海盜演算法。

2014年10月21號,DMCA懲罰演算法上線2.0版本,很多BT種子網站、視頻網站被大幅懲罰。

企鵝更新(Penguin Update)

上線時間:2012年4月24號

受影響網站:Google的官方帖子聲明打擊的是違反Google質量指南的垃圾網站,後續排名變化的分析表明主要受懲罰的是為獲得排名製造大量垃圾外鏈、低質量外鏈的網站。企鵝演算法1.0影響了3.1%英文查詢,3%左右的中文、德文等查詢。

企鵝演算法和熊貓演算法是兩個最著名的Google懲罰性演算法,受到影響的網站范圍大,據調查,60%的SEO反映自己網站被Penguin演算法懲罰了。

企鵝對今天的SEO方法,尤其是外鏈建設方法,產生了很大影響。不僅製造外鏈要非常小心,大部分以前常用的方法現在都被Google明確警告可能會被懲罰,現在SEO們更頭疼的是怎樣刪除低質量外鏈和以前發的垃圾外鏈,這比製造外鏈還困難。

頁面布局懲罰演算法(Page Layout Algorithm)

上線時間:2012年1月

受影響網站:第一屏顯示過多廣告的頁面被降低排名。因此也常被稱為Ads Above The Fold(第一屏廣告)演算法。

1%的查詢詞受影響。被懲罰的網站修改頁面布局後,Google重新抓取、索引,如果頁面用戶體驗已經改善,就會自動恢復。

2012年10月9號,Page Layout 2.0,2014年2月6號,Page Layout 3.0分別上線。

新鮮度更新(Freshness Update)

上線時間:2011年11月3號

受影響網站:Google官方帖子明確表示:更新鮮的內容會被更多展示在搜索結果中,尤其是最近的事件或熱門話題、定期舉辦或發生的事件(如奧運會之類)、經常會更新的信息(如最新產品)。影響了35%的查詢。

當然,這只適用於更需要新鮮信息的查詢,有的查詢並沒有太大實效性,如菜譜,就不必太擔心。

熊貓更新(Panda Update)

上線時間:2011年2月24號

受影響網站:內容低質量的頁面排名被降低,如轉載、抄襲的內容,大量用戶發的垃圾留言、主體內容太少、關鍵詞堆積等等。

熊貓更新打擊面大,影響大致12的查詢結果,對現今SEO方法產生了重要影響。Panda演算法最初是後台計算,集中上線,從2011年上線到2015年融入到核心演算法中,經歷了近30次更新。

熊貓演算法更新最初被SearchEngineLand命名為Farmers Update,內容農場更新,後來Google自己公布了演算法代碼是Panda,和咱們的熊貓沒關系,是Google內部開發此演算法的主要工程師之一的名字叫Panda。

採集懲罰演算法(Scraper Algorithm)

上線時間:2011年1月28號

受影響網站:Matt Cutts的博客帖子公布的這個演算法,採集、抄襲的內容頁面被懲罰,獎勵原出處。2%查詢受影響。

負面評價處理(Negative Review)

上線時間:2010年12月1號

受影響網站:這個演算法是由於 Google的人讀到紐約時報的一篇報道,一位顧客在某商家的體驗很差,所以上網寫了負面評論,但負面評論卻給商家帶來更多鏈接,鏈接又導致商家網站排名上升,帶來更多生意。Google很快採取措施,檢測這類負面評論,降低相應商家排名。

咖啡因更新(Caffeine)

上線時間:2010年6月1號

受影響網站:咖啡因更新是一次索引系統代碼的重寫,新系統比舊系統50%的內容更新,索引數量也更大,更有擴展性,速度更快。原來的索引系統是分層的,有的內容(重要內容)抓取索引更快,有的內容就得等比較長時間。咖啡因系統把網路分成小區塊,持續更新索引庫,發現新頁面,或老頁面上的新內容,直接進入索引庫。

Mayday Update

上線時間:2010年4月28號-5月3號

受影響網站:根據Matt Cutts的視頻說明,Mayday更新主要針對長尾查詢詞,演算法會尋找哪些網站的頁面質量更符合要求。當然這種說明說了也是和沒說差不多。SEO們的觀察是,受影響的主要是大型網站上離首頁點擊距離比較遠、沒什麼外鏈、內容沒有什麼附加價值的頁面 — 很多電商網站的產品頁面就是這樣的,內容是供應商給的,也不大可能有外鏈。

Mayday指的是發生在5月份,不是求救的那個Mayday。

頁面速度因素(Page Speed Ranking Factor)

上線時間:2010年4月

受影響網站:顧名思義,打開速度快的頁面排名會給予提升,雖然幅度不大。速度的測量包括蜘蛛抓取時頁面的反應速度和工具條記錄的用戶打開頁面時間。

2013年6月,Matt Cutts暗示,速度特別慢的頁面可能會被懲罰,不過也不用特別擔心,除非頁面速度慢到一定程度。

Vince/品牌更新(Vince/Brand Update)

上線時間:2009年2月1號

受影響網站:大品牌網站頁面在很多查詢結果中(都是非長尾的大詞)排名顯著提高,所以最初被稱為品牌更新。以前帖子寫過Vince/品牌更新。

Matt Cutts後來解釋,這次更新其實其實只是很小的變化,負責的Google工程師名字叫Vince,所以Google內部代碼名稱是Vince。這個變化並不是刻意針對大品牌,而是提升信任度在排名中的作用,而信任度、質量、鏈接這些方面,大品牌更有優勢,所以表現出來的效果好像是大品牌頁面被提升。

Dewey Update

上線時間:2008年3月

受影響網站:不明,SEO行業觀察到排名劇烈變動,但沒有找到明顯規律。Dewey這個名字的來源是因為Matt Cutts在 webmasterworld論壇里徵求這次演算法更新的反饋意見,站長需要在反饋中標明Dewey這個詞,可能是Google內部的識別代碼。

大爸爸(Big Daddy)

上線時間:2005年12月-2006年3月

大爸爸是一次Google演算法基礎架構的重寫,解決了網址規范化、301/302轉向等技術問題。大爸爸是一個數據中心一個數據中心更新的,不是同時上線的。

大爸爸這名字怎麼來的?據Matt Cutts帖子說,2005年12月的Pubcon會議上,Matt Cutts徵求大家對這次更新的反饋,Matt Cutts知道更新已經在一個數據中心上線了,所以問大家有什麼好名字來指這個數據中心,一位站長說,叫BigDaddy吧,他孩子就這么叫他的,Matt Cutts覺得挺好,就叫這個名字了。

我當年開始寫SEO每天一貼就是大爸爸完成更新那段時間,第3篇帖子就是介紹大爸爸更新情況。Robin同志給我的第一個留言就在那篇帖子上,沙發,後來才有了點石,和很多中國SEO行業的故事。

Jagger Update

上線時間:2005年9-11月

受影響網站:Jagger分3個階段上線,所以有Jagger1, Jagger2, Jagger3的名字。Jagger更新主要打擊低質量鏈接,如交換鏈接、鏈接農場、買賣鏈接等。

早期的Google演算法更新基本上都是webmasterworld命名的,Jagger也是webmasterworld創始人Brett Tabke起的名字,下面提到的更新名稱大多是他們命名的。但貌似Jagger是最後一個,後來的名字大多是Google自己公布的了。

Bourbon Update

上線時間:2005年5月

受影響網站:早期Google更新往往沒有官方信息,所以針對的是哪些網站經常不明,只是監測到排名有比較大變化。Bourbon一般認為與網址規范化有關。

Bourbon這個名字也是webmasterworld起的,原因是webmasterworld即將在新奧爾良舉行一個行業會議,Bourbon是新奧爾良的一條著名老街道。

Allegra Update

上線時間:2005年2月

受影響網站:不明確,或者說范圍廣泛,包括低質量外鏈、關鍵詞堆積、過度優化等。

公布支持nofollow

上線時間:2005年1月

現在SEO對nofollow肯定都很熟悉了,包括網路,所有主流搜索引擎都支持nofollow。還不知道的請參考以前關於nofollow的帖子。

Brandy Update

上線時間:2004年2月

受影響網站:鏈接錨文字作用提高,鏈接需要來自好鄰居的概念第一次被提出來。索引庫增長,抓取索引了很多新的鏈接,一些網站獲得了更高權威度。

弗羅里達更新(Florida Update)

上線時間:2003年11月

受影響網站:弗羅里達更新是早期最著名的Google演算法更新,影響面大,受影響的以商業意圖明顯的詞為主,一些靠搜索流量的小公司倒閉,有的SEO公司因此陷入困境,因為客戶網站排名下降,不續費了。弗羅里達更新的後果大到,Google曾經承諾,以後不在年底上線這么大的更新了,以免劇烈影響很多商家的聖誕季銷售業績。

Florida Update打擊了一系列不自然的優化方法,包括隱藏文字、關鍵詞堆積、鏈接農場、大量交換鏈接、過度優化。Florida徹底改變了SEO,可以說是現在SEO方法的起點。

Florida也是webmasterworld命名的,因為他們的命名方法該排到字母F打頭了(為什麼到了F打頭,見下面Boston更新說明),而第二年2月他們要在弗羅里達的奧蘭多舉行Pubcon大會,所以就用了Florida。

Update Fritz

上線時間:2003年7月

Fritz更新是Google轉為每天持續小幅更新索引的開始,這種更新方法又被稱為everflux。

Update Fritz這個名字是Matt Cutts在他2006年的博客帖子里提到的Google內部名稱,不是webmasterworld命名系列裡的。

Esmeralda Update

上線時間:2003年6月1號

這是早期每個月發生一次的Google Dance的最後一次。這次更新之後,Google演算法更新改為小幅、持續性的,當然這是相對Google Dance每個月一次、持續數天、排名劇烈波動而言。准確地說,Google Dance是索引更新,不是演算法更新。Esmeralda更新之後,Google就不再Dance了。

Dominic Update

上線時間:2003年5月1號

早期Google Dance的一次。Dominic也是webmasterworld命名,名稱來源於參加Boston Pubcon大會時大家常去的一家披薩飯館。

Cassandra Update

上線時間:2003年4月1號

Brett Tabke和webmasterworld第一次特意給Google更新起名字。既然第一個名字是Boston,是個男名,這次應該是C打頭的女名,大家投票,Cassandra勝出,沒有其它特別意義。

Boston Update

上線時間:2003年2月1號

2003年波士頓舉行的SES大會上,Google員工公布了這次更新,為了和其它Google Dance以示區別,取名Boston。

webmasterworld的創始人Brett Tabke就想,給更新取名字是個挺好的主意,所以就效仿台風的命名方法給Google更新取名,按字母排序,男名女名間隔,也得到了Google的首肯。所以早期的Google演算法更新大多是webmasterworld命名的。

Google Dance

早期Google索引庫每個月更新一次,是線下計算,然後集中上線。由於數據量大,需要一個數據中心一個數據中心地上線,不是同時上線的。在更新期間,用戶這分鍾訪問的是一個數據中心,下一分鍾可能訪問的是另一個數據中心,看到的搜索結果可能有很大差別,因此被稱為Google Dance。

從2000年7月開始,webmasterworld每個月開一個新帖,討論每一次Google Dance情況,一直到2003年2月的Boston更新第一次有了名稱,以前的Google Dance都是沒有名字的。這里是當年Google Dance更新討論的大列表。

I. Google搜索比百度搜索好在哪些地方

google有可開關的「安全搜索」,根據讓用戶根據自己喜好和接受度打開或關閉安全搜索。而網路,什麼都不說,先主動幫你和諧了一些內容,遇到某些敏感詞的時候,再和諧一些內容,然後這樣告訴你:根據相關法律法規和政策,部分搜索結果未予顯示。但從來不會告訴你是哪個法律和政策。google可以搜到幾乎全網的視頻,而網路大多是國內的。話說youtube有的視頻我真的懶得去優酷等悠長又乏味的廣告。網路除國內網頁收錄數量不錯外,其他網頁收錄(包括港台網頁)很不足。google可篩選不同地區不同文字的網頁,網路不可以。google的演算法更尊重原創內容。軟體「格式工廠」為例:google上的首個鏈接就是格式工廠的官網。而網路,第一頁是各種第三方下載站,至於官網,在第二頁。在google上,包含更多原創內容的維基網路權重比其他網路高,而網路上,網路常常排在維基網路前面。知乎日報剛上線,搜索「知乎日報」,google的第一條是「知乎日報」的新聞搜索,第二條就是官網知乎日報。而網路,知乎日報的官網在第五頁的最後的一條。google的圖片和網頁搜索可對搜索內容按「使用許可權」進行篩選。網路不可以。google的圖片搜索演算法更精準。google的以圖搜圖比網路的精準太多。你在網路搜」cat「看看,第一頁第二行有幾張鞋子的照片……google可對圖片設置安全搜索、使用許可權搜索。google的進階搜索(高級搜索)可篩選條件更多,網路稍缺。下面都是google有而網路沒有的。按不同地區搜索按不同語言搜索視頻按不同畫質搜索圖片和網頁按使用許可權搜索還有一些按類型的篩選,如論壇搜索、博客搜索。關於框計算。(google也有類似框計算的東西,但不知道它叫什麼名字,先這么稱呼吧。)以下可看出google想做搜索,而網路想做介面。以「一代宗師」為例,網路的框計算UI很突兀,又按鈕又色塊,google的就易接受很多。而且網路的框計算來自自己的內容和其他商業公司的內容,google的框計算內容來自維基網路。以」camera360「 為例,網路框計算為網路應用的內容,首頁沒有google play和蘋果商店,而google搜索頁面有google play和蘋果商店(並有打分),也有豌豆莢等第三方商店頁面。除了網路應用,網路的其他產品也喜歡摻合進來,例如你在網路音樂搜音樂,其實是在「網路音樂」這個站內搜音樂,而不是全網的音樂,例如你在網路文庫搜文檔,其實是在「網路文庫」這個站內搜文檔,而不是全網。google的產品和google搜索分得比較開,google的產品在那個黑又硬導航條上面,和google搜索是分開的。google搜索上,除了地圖,google的產品不會獨成一個搜索。簡體中文搜索方面,差別沒有很大,個人感覺網路相關度不夠google,並且廣告站過多。再加上面差距積累下來,影響明顯。—完—本文作者:Soso標簽:Google 網路 轉載申明:為了給廣大網友提供更有價值的內容,我會把我認為優秀的互聯網方面的文章轉載於此。

閱讀全文

與google搜索演算法相關的資料

熱點內容
java常用的伺服器 瀏覽:277
集結APP在哪裡下載 瀏覽:798
歐洲cf玩什麼伺服器 瀏覽:527
如何連接另一台電腦上的共享文件夾 瀏覽:679
如何讓桌面文件夾搬家到e盤 瀏覽:71
java自動格式化 瀏覽:617
ipad怎麼查看文件夾大小 瀏覽:581
手工粘土解壓球 瀏覽:550
在線視頻教育源碼 瀏覽:39
快四十學什麼編程 瀏覽:754
gnumakelinux 瀏覽:537
視易峰雲伺服器怎麼改系統 瀏覽:535
javamap取值 瀏覽:768
mac和win磁碟加密軟體 瀏覽:474
蘋果為什麼會連接不到伺服器 瀏覽:726
pdf格式文件如何保存 瀏覽:303
小霸王伺服器tx什麼意思 瀏覽:75
解釋dns命令 瀏覽:584
dmx512怎麼編程 瀏覽:744
北京雲主機17t雲伺服器 瀏覽:232