‘壹’ 搜索引擎的排序算法都有哪些是怎么实现的
搜索引擎的排序算法:
词频统计——词位置加权的搜索引擎
关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好。
1)词频统计
2)词位置加权
2.2基于链接分析排序的第二代搜索引擎
1)PageRank算法
PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。
其计算公式为:
PR(A):页面A的PageRank值;
d:阻尼系数,由于某些页面没有入链接或者出链接,无法计算PageRank值,为避免这个问题(即LinkSink问题),而提出的。阻尼系数常指定为0.85。
R(Pi):页面Pi的PageRank值;
C(Pi):页面链出的链接数量;
2)Topic-Sensitive PageRank算法
3)HillTop算法
HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。
4)HITS
HITS算法只计算主特征向量,处理不好主题漂移问题;其次,进行窄主题查询时,可能产生主题泛化问题;因此可据LIngmao了解看待,找寻适合的算法