『壹』 搜索引擎的排序演算法都有哪些是怎麼實現的
搜索引擎的排序演算法:
詞頻統計——詞位置加權的搜索引擎
關鍵詞在文檔中詞頻越高,出現的位置越重要,則被認為和檢索詞的相關性越好。
1)詞頻統計
2)詞位置加權
2.2基於鏈接分析排序的第二代搜索引擎
1)PageRank演算法
PageRank演算法的基本思想是:頁面的重要程度用PageRank值來衡量,PageRank值主要體現在兩個方面:引用該頁面的頁面個數和引用該頁面的頁面重要程度。
其計算公式為:
PR(A):頁面A的PageRank值;
d:阻尼系數,由於某些頁面沒有入鏈接或者出鏈接,無法計算PageRank值,為避免這個問題(即LinkSink問題),而提出的。阻尼系數常指定為0.85。
R(Pi):頁面Pi的PageRank值;
C(Pi):頁面鏈出的鏈接數量;
2)Topic-Sensitive PageRank演算法
3)HillTop演算法
HillTop演算法通過不同等級的評分確保了評價結果對關鍵詞的相關性,通過不同位置的評分確保了主題(行業)的相關性,通過可區分短語數防止了關鍵詞的堆砌。
4)HITS
HITS演算法只計算主特徵向量,處理不好主題漂移問題;其次,進行窄主題查詢時,可能產生主題泛化問題;因此可據LIngmao了解看待,找尋適合的演算法