❶ python爬取大量数据(百万级)
当用python爬取大量网页获取想要的数据时,最重要的问题是爬虫中断问题,python这种脚本语言,一中断
进程就会退出,怎么在中断后继续上次爬取的任务就至关重要了。这里就重点剖析这个中断问题。
第一个问题: 简单点的用动态代理池就能解决,在爬取大量数据的时候,为了速度不受影响,建议使用一些缓
存的中间件将有效的代理 ip 缓存起来,并定时更新。这里推荐 github 这个仓库
https://github.com/jhao104/proxy_pool , 它会做ip有效性验证并将 ip 放入 redis ,不过实现过于复杂
了,还用到了 db ,个人觉得最好自己修改一下。困难点的就是它会使用别的请求来进行判断当前的ip是否
是爬虫,当我们过于聚焦我们的爬虫请求而忽略了其他的请求时,可能就会被服务器判定为爬虫,进而这个ip
会被列入黑名单,而且你换了ip一样也会卡死在这里。这种方式呢,简单点就用 selenium + chrome 一个一个
去爬,不过速度太慢了。还是自己去分析吧,也不会过复杂的。
第二个问题: 网络连接超时是大概率会遇到的问题,有可能是在爬取的时候本地网络波动,也有可能是爬
取的服务端对ip做了限制,在爬取到了一定量级的时候做一些延迟的操作,使得一些通用的 http 库超时
( urllib )。不过如果是服务端动的手脚一般延迟不会太高,我们只需要人为的设置一个高一点的
timeout 即可(30 秒),最好在爬取开始的时候就对我们要用的爬取库进行一层封装,通用起来才好改
动。
第三个问题: 在解析大量静态页面的时候,有些静态页面的解析规则不一样,所以我们就必须得做好断点
续爬的准备了( PS : 如果简单的忽略错误可能会导致大量数据的丢失,这就不明智了)。那么在调试的过
程中断点续爬有个解决方案,就是生产者和消费者分离,生产者就是产生待爬 url 的爬虫,消费者就是爬取
最终数据的爬虫。最终解析数据就是消费者爬虫了。他们通过消息中间件连接,生产者往消息中间件发送待
爬取的目标信息,消费者从里面取就行了,还间接的实现了个分布式爬取功能。由于现在的消费中间件都有
ack 机制,一个消费者爬取链接失败会导致消息消费失败,进而分配给其他消费者消费。所以消息丢失的
概率极低。不过这里还有个 tips , 消费者的消费超时时间不能太长,会导致消息释放不及时。还有要开启
消息中间价的数据持久化功能,不然消息产生过多而消费不及时会撑爆机器内存。那样就得不偿失了。
第四个问题: 这种情况只能 try except catch 住了,不好解决,如果单独分析的话会耗费点时间。但在
大部分数据 (99%) 都正常的情况下就这条不正常抛弃就行了。主要有了第三个问题的解决方案再出现这
种偶尔中断的问就方便多了。
希望能帮到各位。
❷ 有朋友写过用python定时顶贴的爬虫吗
如果你熟悉python的话,你可以自己编爬虫来抓取评价;如果觉得时间成本高,可以用采集工具,市面上采集功能有几个,比如集搜客、网络矿工、狂采等,可以用集搜客
因为是免费的,在官网可以下现成的规则,淘宝天猫搜索列表、商品详细等;再简单一点,付费定制数据了。
❸ python爬虫是什么
Python爬虫是指在某种原因进行互联网请求获取信息
❹ python可以做到自动抓取互联网上的新闻更新到网站吗
理论上完全可以实现,相应的技术方案也是比较成熟的。不知道需要爬取的网站内容复杂不复杂的。目前我想到的方案是借助爬虫框架,数据存储可利用mysql,mongodb之类的。打个比方,这是我用scrapy爬取诗词网站的数据,腊纯然后存储到Mongodb中,就是缺少一部更新。
我们可以设定一个任务,任务可以是每1分钟更新一下爬取数据,这样就可以做到对应网站数据的更新,至于自身网站数据的更新,因为是客户端发起的,所以,只要做到服务器商数汪带据更新了,客户端就可以看到最新的数据,当然,需要注意相应的缓存技术的影响。
总的来说,爬取网站的数据然后更新到网站,是完全可以实现的。主要是看出于什么的目的,以及爬轮陵咐取的网站的复杂性问题。