爬虫算法专业_网络爬虫采用的是哪种算法策略

Ⅰ 网络爬虫采用的是哪种算法策略

在爬虫系统中，待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题，因为这涉及到先抓取那个页面，后抓取哪个页面。而决定这些URL排列顺序的方法，叫做抓取策略。下面重点介绍几种常见的抓取策略：

1.深度优先遍历策略

深度优先遍历策略是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。我们以下面的图为例：遍历的路径：A-F-G E-H-I B C D 2.宽度优先遍历策略宽度优先遍历策略的基本思路是，将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。还是以上面的图为例：遍历路径：A-B-C-D-E-F G H I 3.反向链接数策略反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。在真实的网络环境中，由于广告链接、作弊链接的存在，反向链接数不能完全等他我那个也的重要程度。因此，搜索引擎往往考虑一些可靠的反向链接数。 4.Partial PageRank策略 Partial PageRank算法借鉴了PageRank算法的思想：对于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取URL队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面。如果每次抓取一个页面，就重新计算PageRank值，一种折中方案是：每抓取K个页面后，重新计算一次PageRank值。但是这种情况还会有一个问题：对于已经下载下来的页面中分析出的链接，也就是我们之前提到的未知网页那一部分，暂时是没有PageRank值的。为了解决这个问题，会给这些页面一个临时的PageRank值：将这个网页所有入链传递进来的PageRank值进行汇总，这样就形成了该未知页面的PageRank值，从而参与排序。下面举例说明： 5.OPIC策略策略该算法实际上也是对页面进行一个重要性打分。在算法开始前，给所有页面一个相同的初始现金（cash）。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。 6.大站优先策略对于待抓取URL队列中的所有网页，根据所属的网站进行分类。对于待下载页面数多的网站，优先下载。这个策略也因此叫做大站优先策略。

热点内容

android手机鼠标发布：2025-03-05 04:51:37 浏览：465

php支付项目经验发布：2025-03-05 04:47:22 浏览：929

中国人民银行在哪里下载app 发布：2025-03-05 04:46:07 浏览：560

松饼pdf 发布：2025-03-05 04:25:02 浏览：667

萌新如何获得命令发布：2025-03-05 04:24:56 浏览：138

java设计模式及代码发布：2025-03-05 04:14:12 浏览：7

命令恢复数据库发布：2025-03-05 03:54:15 浏览：192

linuxoracle11gr2 发布：2025-03-05 03:49:19 浏览：972

携程APP签到在哪里发布：2025-03-05 03:49:09 浏览：389

dwg解压方法发布：2025-03-05 03:42:51 浏览：422

云服务器数据沟通发布：2025-03-05 03:30:20 浏览：849

android地图定位源码发布：2025-03-05 03:25:26 浏览：632

鸿蒙系统如何解除app安装限制发布：2025-03-05 02:52:23 浏览：497

阿里云服务器应用镜像选哪个发布：2025-03-05 02:52:20 浏览：343

win7策略更新命令发布：2025-03-05 02:51:45 浏览：299

android源码分析之设计模式发布：2025-03-05 02:43:54 浏览：294

qq邮箱上的文件怎么解压在电脑上发布：2025-03-05 02:39:39 浏览：504

业余学python是如何挣钱的发布：2025-03-05 02:37:21 浏览：416

方舟服务器连接超时显示什么发布：2025-03-05 02:22:55 浏览：226

php绘制emoji 发布：2025-03-05 02:14:12 浏览：35

导航:首页 > 源码编译 > 爬虫算法专业

爬虫算法专业

与爬虫算法专业相关的资料