百度抓取數據的演算法_百度演算法

1. 百度演算法

收錄規則
要想有排名的前提下是收錄，要向收錄的前提下是有內容，所以很多網站內容太單一是很難被收錄，但也有網站明顯有內容就是不收錄的，我是這樣理解收錄的。
抓取：網路收錄一個網站或頁面的前提是網站被網路抓取過，也就是網路的機器來過你的站點，來你站點的前提是有一個入口，網路的入口有三個，第一自己提交、第二SEO外鏈、第三瀏覽器。瀏覽器大家可能不是很明白，當你的網站剛剛建立後，沒有人知道你的建站建立好了，自然網路也不會知道，唯一知道的就是你自己了，如果你使用網路瀏覽器打開你的網站，這也就意味著，網路瀏覽器已經知道了這個站點的存在，數據也就交給了網路搜索引擎，從而達到了抓取的效果。光抓取還是不夠的，不一定所有的內容都會被網路收錄，所以他們收錄也是要判斷內容標准。
識別：抓取了一個頁面，肯定是有內容的，如果說沒有內容是很難被收錄的，什麼是沒有內容的頁面呢，比如登錄注冊頁面，這類頁面是屬於有內容沒有意義的頁面。直接會被列入到空白頁面，想這類頁面，我們的網站還是非常多的，比如：關於我們、聯系我們之類的頁面。
所以頁面肯定得有內容，並且是可識別的內容，什麼叫可識別的內容，就是文字內容，網路搜索引擎是機器在識別，當遇到視頻、圖片、flash的時候，他們不知道視頻、圖片裡面展現的內容是什麼，所以無法識別，所以前期最好還是以文字為主。
釋放：最終才考慮到釋放出來，如果釋放出來後，這個時候你可以通過網路搜索你的URL，釋放你的頁面也是需要有條件的。
首先會判斷你的頁面站外推薦很多，這也就意味著這個頁面是高質量的頁面才會被站外推薦，容易被收錄，其次是被站內推薦，這也意味著是這個頁面是高質量頁面才會被站內推薦。說白了，要向釋放出來的內容，絕對是高質量的內容，除非發生了下面這種情況。
最容易被收錄的內容絕對是互聯網新聞源最多的內容，說白了就是抄襲者很多的內容是最容易被收錄的。這個時候太多人不容易理解了，抄襲越多越容易被收錄?
新聞內容是具有時效性的，當一篇新聞發布以後，馬上就有很多媒體轉載你的內容，而網路機器識別出來，很多新聞源有同樣的內容，也就被列入了新聞的話題頁面，從而這方面的內容收錄也就非常簡單了，不會等一天或幾天後才收錄，如果過幾天才收錄，這個新聞內容已經過時了，自然也就影響了網路的體驗。
排名規則
參與排名的規則並沒有想像中那麼復雜，聽到這位大哥分析了以後，自認為有一定的價值，其實無非就幾個方面解決排名問題。
得分規則：得分規則是根據一個網站的總體信譽度，比如網站的原創度、網站的停留時間、網站的跳出率、網站的打開速度、網站圖片的處理、網站代碼的優化等綜合判斷，總體被稱為得分規則。
點擊規則：當你網站信譽度達到一個基礎標准後，你網站會出現一些非常長尾的關鍵詞，可能關鍵詞排名並沒有在首頁，這個時候就是根據點擊率的規則來計算排名的。如下圖所示，當一個關鍵詞展現量和點擊率達到一個比例後，你的排名就會上前一個等級。而這個比例是根據用戶的點擊來計算的，並非網路定義的，比如搜索「翻牆」這個關鍵詞，排名第二的網頁比第一的點擊率還高，自然排名第二的頁面會會給他排名第一。
鏈接規則：當你的一篇文章被站外鏈接過多推薦，這意味著這篇文章價值非常大，不然對方不會推薦，另外也被站內推薦多次，這也意味著這篇文章價值非常大，所以鏈接的規則就非常簡單的，但是由於網路綠蘿演算法一直在打擊垃圾外鏈，所以在鏈接上，最好還是自然鏈接比較安全。
網路演算法規則
本不相信網路的演算法有那樣的神奇，但是網路確針對這一系列的演算法做出了公告與K站降權的舉動，不得不讓我仔細分析網路演算法的原理，以下幾個演算法僅為我個人推測。
網路綠蘿演算法：我一直不相信網路綠蘿演算法竟然可以算出來你的鏈接是否購買的，但是實際網路卻做到了，其中主要原理還是根據一個網站對另一個網站的鏈接判斷，是否有反向鏈接、鏈接個數來進行判斷。
網路石榴演算法：石榴演算法主要打擊的對象為低質量頁面，其中網路蜘蛛主要是根據網站html代碼來抓取的，並且搜索引擎根據文章的標簽(包含排版)、重復讀來進行判斷網站的質量。
網路星火計劃：星火計劃的原計劃是為了打擊抄襲者，其星火計劃的原理非常簡單了，也就是判斷重復讀來決定網站是否抄襲，同時網路蜘蛛也肯定了自己的抓取程序，目前正在往每一個網站時刻爬取靠攏。

2. 怎麼使用python爬取百度網的數據

檔案系統初期算是告一段落了，利用一點時間繼續爬取POI。和領導聊聊，受益匪淺。之前我的想法是爬取一份poi數據，直接能用；而領導聽了之後，覺得更好的方式是爬取多個渠道來源的POI數據，然後做一個數據比較融合（最終事情能不能成不好說，但是經過這么一回，細節技術上有所提高，宏觀把控整體項目流程能力有所長進，更重要的是通過和能人交流，以更高的眼界更宏觀的看待數據、應用以及問題，這就是成長）。我之前採用的方式，可以滿足需求，但是POI數據獲取效率差一些（雖然已經很快，但是相比本文這種還是慢一些）、數據現勢性不好，高德數據和網路數據雖然是兩套，但是僅僅是坐標不同（所以顯然還是一套）。所以，我加一種方式來爬取網路poi。
一調研：網路API提供了一個叫Place API獲取poi的介面，有個城市內檢索實例為

ce/v2/search?query=銀行&page_size=10&page_num=0&scope=1®ion=北京&output=json&ak={您的密鑰}
它返回的是個json類型數據，一個區域最大返回數為400，每頁最大返回數為20。顯然一個城市內不管什麼類別的poi，不可能只有400個，會遺漏數據，故捨去

還有一個矩形區域檢索，實例為
u.com/place/v2/search?query=美食&page_size=10&page_num=0&scope=1&bounds=39.915,116.404,39.975,116.414&output=json&ak={您的密鑰}只要區域劃分得當，這個可以使用
二要解決的問題
1 區域劃分
網上有人通過遞歸寫代碼的方式來劃分，這樣劃分有問題，第一，劃分的區域不能完全對應一個城市的市區；第二，演算法設計比較麻煩。解決辦法，後面詳細說。
2 類別問題
網路API的介面必須要指定query的類別，那麼如果類別指定不準，或者類別不全，根本無法完成爬取一個城市所有poi的任務。解決辦法，說實話，這個問題在我做這件事情的時候，
十分棘手，不過我最終找到了這個網頁
/index.php?title=lbscloud/poitags，一切都不是問題了
三整體流程
1 區域劃分，2km*2km的區域基本可以滿足需求，獲取每個區域的對角坐標（經緯度），逐行寫入一個txt文本里
2 爬蟲程序編寫讀取1中的txt文本，逐行循環；調用網路API介面，爬取json；將爬取的數據存入資料庫中；每個類別跑一次程序
3 爬下的POI數據處理 poi顯示，投影坐標轉換，與地圖疊加

後文將詳細介紹流程

3. 百度搜索引擎的演算法是怎樣的

衡量網頁質量的維度
網路搜索引擎在衡量網頁質量時，會從以下三個維度綜合考慮給出一個質量打分。下面會一一介紹這些影響網頁質量判斷的維度特徵：
• 內容質量
• 瀏覽體驗
• 可訪問性
一個訪問流暢，內容質量高且瀏覽體驗好的網頁具有較高的質量；反之，任何一個維度出現問題，都會影響網頁的整體質量。下面我們具體介紹下這三個維度。

衡量網頁質量的維度——內容質量

網頁主體內容是網頁的價值所在，是滿足用戶需求的前提基礎。網路搜索引擎評價網頁內容質量主要看其主體內容的好壞，以及主體內容是否可以讓用戶滿意。不同類型網頁的主體內容不同，網路搜索引擎判斷不同網頁的內容價值時，需要關注的點也有區別，如：
• 首頁：導航鏈接和推薦內容是否清晰、有效。
• 文章頁：能否提供清晰完整的內容，圖文並茂更佳。
• 商品頁：是否提供了完整真實的商品信息和有效的購買入口。
• 問答頁：是否提供了有參考價值的答案。
• 下載頁：是否提供下載入口，是否有許可權限制，資源是否有效。
• 文檔頁：是否可供用戶閱讀，是否有許可權限制。
• 搜索結果頁：搜索出來的結果是否與標題相關。

網路搜索引擎考量網頁內容質量的維度非常多，最為重要的是：成本；內容完整；信息真實有效以及安全。下面我們通過舉例來感受一下網路搜索引擎是如何對網頁的內容質量進行分類的，請站長對比自己站點的頁面，站在搜索引擎和用戶的角度為自己打分：
1、內容質量好：
網路搜索引擎認為內容質量好的網頁，花費了較多時間和精力編輯，傾注了編者的經驗和專業知識；內容清晰、完整且豐富；資源有效且優質；信息真實有效；安全無毒；不含任何作弊行為和意圖，對用戶有較強的正收益。對這部分網頁，網路搜索引擎會提高其展現在用戶面前的機率。例如：
• 專業醫療機構發布的內容豐富的醫療專題頁面；
• 資深工程師發布的完整解決某個技術問題的專業文章；
• 專業視頻網站上，播放清晰流暢的正版電影或影視全集頁面；
• 知名B2C網站上，一個完整有效的商品購買頁；
• 權威新聞站原創或經過編輯整理的熱點新聞報道；
• 經過網友認真編輯，內容豐富的詞條；
• 問答網站內，回答的內容可以完美解決提問者的問題。

實例參考：

示例

內容質量

說明

case 3.1.1-1

好

專業醫療網站發布的豐富醫療專題頁面

case 3.1.1-2

好

資深工程師發布的完整解決某個技術問題的專業文章

case 3.1.1-3

好

專業視頻網站上，播放清晰流暢的正版影視全集頁面

case 3.1.1-4

好

京東的一個完整有效的商品購買頁

case 3.1.1-5

好

權威新聞站原創的熱點新聞的報道

case 3.1.1-6

好

經過網友認真編輯，內容豐富的網路詞條

case3.1.1-7

好

網路知道上，完美解決用戶問題的問答頁

2、內容質量中：
內容質量中等的網頁往往能滿足用戶需求，但未花費較多時間和精力進行製作編輯，不能體現出編者的經驗和專業知識；內容完整但並不豐富；資源有效但質量欠佳；信息雖真實有效但屬採集得來；安全無毒；不含作弊行為和意圖。在互聯網中，中等質量網頁其實是一個比較大的數量集合，種類面貌也繁雜多樣，網路搜索引擎在評價這類網頁時往往還要考慮其它非常多因素。在這里，我們僅部分舉例來讓各位感受一下：
• 論壇類網站里一個普通的帖子；
• 一個普通的問答網頁；
• 沒有進行任何編輯，直接轉載其它網站的新聞；
• 無版權信息的普通電影播放頁
• 採集知名小說網站的盜版小說頁。

實例參考：

示例

內容質量

說明

case 3.1.2-1

中

網易直接轉載了中國新聞網的一篇新聞。

case 3.1.2-2

中

文庫上網友上傳的「國慶放假安排」新聞

case 3.1.2-3

中

採集起點小說網的盜版小說站

case 3.1.2-4

中

網路貼吧里一個普通的帖子

3、內容質量差：
網路搜索引擎認為主體內容信息量較少，或無有效信息、信息失效過期的都屬於內容質量差網頁，對用戶沒有什麼實質性的幫助，應該減少其展現的機會。同時，如果一個網站內該類網頁的佔比過大，也會影響網路搜索引擎對站點的評級，尤其是UGC網站、電商網站、黃頁網站要尤其重視對過期、失效網頁的管理。例如：
• 已下架的商品頁，或已過期的團購頁；
• 已過有效期的招聘、交易頁面；
• 資源已失效，如視頻已刪除、軟體下載後無法使用等。

4、沒有內容質量可言：
沒有內容質量可言的網頁指那些製作成本很低，粗製濫造；從別處採集來的內容未經最起碼的編輯整理即放置線上；掛木馬等病毒；含有作弊行為或意圖；完全不能滿足用戶需求，甚至含有欺騙內容的網頁。例如：
• 內容空短，有很少量的內容，卻不能支撐頁面的主要意圖；
• 問答頁有問無答，或回答完全不能解決問題；
• 站內搜索結果頁，但沒有給出相關信息

除上述網頁外，欺騙用戶和搜索引擎的網頁在無內容質量可言集合里占很高比例。網路搜索引擎對作弊網頁的定義是：不以滿足用戶需求為目的，通過不正當手段欺騙用戶和搜索引擎從而獲利的網頁。目前互聯網上這部分網頁還屬少數，但作弊網頁的價值是負向的，對用戶的傷害非常大，對這類網頁，搜索引擎持堅決打擊態度。

衡量網頁質量的維度——瀏覽體驗
不同質量的網頁帶給用戶的瀏覽體驗會有很大差距，一個優質的網頁給用戶的瀏覽體驗應該是正向的。用戶希望看到干凈、易閱讀的網頁，排版混亂、廣告過多會影響用戶對網頁主體內容的獲取。在網路搜索引擎網頁質量體系中，用戶對網頁主體內容的獲取成本與瀏覽體驗呈反比，即獲取成本越高，瀏覽體驗越低。面對內容質量相近的網頁，瀏覽體驗佳者更容易獲得更高的排位，而對於瀏覽體驗差的網頁，網路搜索引擎會視情況降低其展現的機率甚至拒絕收錄。
影響用戶瀏覽體驗好壞的因素很多，目前網路搜索引擎主要從內容排版、廣告影響兩方面對網頁進行考量：
內容排版：用戶進入網頁第一眼看到的就是內容排版，排版決定了用戶對網頁的第一印象，也決定了用戶對內容獲取的成本。
廣告影響：網路搜索引擎理解網站的生存發展需要資金支持，對網頁上放置正當廣告持支持態度。網頁應該以滿足用戶需求為主旨，最佳狀態即「主體內容與廣告一起滿足用戶需求，內容為主，廣告為輔」，而不應讓廣告成為網頁主體。

下面我們通過舉例來感受一下網路搜索引擎是如何對網頁的瀏覽體驗進行分類的，站長可以據此對比檢驗自己站點的瀏覽體驗如何：
1、瀏覽體驗好：
頁面布局合理，用戶獲取主體內容成本低，一般具有以下特徵：
• 排版合理，版式美觀，易於閱讀和瀏覽；
• 用戶需要的內容占據網頁最重要位置；
• 能夠通過頁面標簽或頁面布局十分清楚地區分出哪些是廣告；
• 廣告不搶佔主體內容位置，不阻礙用戶對主要內容的獲取；

實例參考：

示例

瀏覽體驗

說明

case 3.2.1-1

好

招聘、房產等網站首頁也有很多廣告，但都是招聘相關的，瀏覽體驗是ok的。

case 3.2.1-2

好

文章頁，頁面布局合理，無廣告，排版好，結構合理

case 3.2.1-3

好

游戲首頁，排版美觀，布局合理，無廣告，瀏覽體驗優

2、瀏覽體驗差：
頁面布局和廣告放置影響了用戶對主體內容的獲取，提高了用戶獲取信息的成本，令用戶反感。包括但不僅限於以下情況：
• 正文內容不換行或不分段，用戶閱讀困難；
• 字體和背景顏色相近，內容辨別困難；
• 頁面布局不合理，網頁首屏看不到任何有價值的主體內容；
• 廣告遮擋主體內容；或者在通用解析度下，首屏都是廣告，看不到主體內容；
• 彈窗廣告過多；
• 影響閱讀的浮動廣告過多
• 點擊鏈接時，出現預期之外的彈窗；
• 廣告與內容混淆，不易區分；

衡量網頁質量的維度——可訪問性
用戶希望快速地從搜索引擎獲取到需要的信息，網路搜索引擎盡可能為用戶提供能一次性直接獲取所有信息的網頁結果。網路搜索引擎認為不能直接獲取到主體內容的網頁對用戶是不友好的，會視情況調整其展現機率。

網路搜索引擎會從正常打開、許可權限制、有效性三方面判斷網頁的可訪問性，對於可以正常訪問的網頁，可以參與正常排序；對於有許可權限制的網頁，再通過其它維度對其進行觀察；對於失效網頁，會降權其展現機制甚至從資料庫中刪除。

1、可正常訪問的網頁
無許可權限制，能直接訪問所有主體內容的網頁。

2、有許可權限制的網頁
此類網頁分為兩種：打開許可權和資源獲取許可權
1）打開許可權：指打開網頁都需要登錄許可權，沒有許可權完全無法看到具體內容，普通用戶無法獲取或獲取成本很高，網路搜索引擎會降低其展現機率。不包括以登錄為主要功能的網頁。
2）資源獲取許可權：指獲取網頁主要內容，如文檔、軟體、視頻等，需要許可權或者需要安裝插件才能獲得完整內容。此時會分三種情況：
• 提供優質、正版內容的網站，由於內容建設成本很高，盡管查看全文或下載時需要許可權或安裝插件，但屬於用戶預期之內，網路搜索引擎也不認為許可權行為對用戶造成傷害，給予與正常可訪問頁面相同的對待。
• 對於一些非優質、非正版的資源，來自於用戶轉載甚至機器採集，本身成本較低，內容也不獨特，用戶獲取資源還有許可權限制——需要用戶注冊登錄或者付費查看，網路搜索引擎會根據具體情況決定是否調整其展現。
• 還有一些視頻、下載資源頁，也許自身資源質量並不差，但需要安裝非常冷門的插件才能正常訪問，比如要求安裝「xx大片播放器」，網路搜索引擎會懷疑其有惡意傾向。

實例參考：

示例

可訪問性

說明

case 3.2-1

好

CNKI上的一篇論文，收費才能下載，但有版權，瀏覽體驗好

case 3.2-2

好

優酷上一部新電影，需要付費才能觀看，瀏覽體驗好。

case 3.2-3

中

內容是來，但是需要登錄才能看更多

case 3.2-4

差

入黨申請書，本身就是轉載的，網上到處都是，但這個頁面仍然要求收費才能下載。

3、失效網頁
往往指死鏈和主體資源失效的網頁。網路搜索引擎認為這部分網頁無法提供有價值信息，如果站點中此類網頁過多，也會影響網路搜索引擎對其的收錄和評級。建議站長對此類網頁進行相應設置，並及時登錄網路站長平台，使用死鏈提交工具告知網路搜索引擎。
失效網頁包括但不僅限於：
• 404、403、503等網頁；
• 程序代碼報錯網頁；
• 打開後提示內容被刪除，或因內容已不存在跳轉到首頁的網頁；
• 被刪除內容的論壇帖子，被刪除的視頻頁面（多出現在UGC站點）

具體請參閱《網路搜索引擎網頁質量白皮書》，望採納！

導航:首頁 > 源碼編譯 > 百度抓取數據的演算法

百度抓取數據的演算法

與百度抓取數據的演算法相關的資料