1. python爬取大量数据(百万级)
当用python爬取大量网页获取想要的数据时,最重要的问题是爬虫中断问题,python这种脚本语言,一中断
进程就会退出,怎么在中断后继续上次爬取的任务就至关重要了。这里就重点剖析这个中断问题。
第一个问题: 简单点的用动态代理池就能解决,在爬取大量数据的时候,为了速度不受影响,建议使用一些缓
存的中间件将有效的代理 ip 缓存起来,并定时更新。这里推荐 github 这个仓库
https://github.com/jhao104/proxy_pool , 它会做ip有效性验证并将 ip 放入 redis ,不过实现过于复杂
了,还用到了 db ,个人觉得最好自己修改一下。困难点的就是它会使用别的请求来进行判断当前的ip是否
是爬虫,当我们过于聚焦我们的爬虫请求而忽略了其他的请求时,可能就会被服务器判定为爬虫,进而这个ip
会被列入黑名单,而且你换了ip一样也会卡死在这里。这种方式呢,简单点就用 selenium + chrome 一个一个
去爬,不过速度太慢了。还是自己去分析吧,也不会过复杂的。
第二个问题: 网络连接超时是大概率会遇到的问题,有可能是在爬取的时候本地网络波动,也有可能是爬
取的服务端对ip做了限制,在爬取到了一定量级的时候做一些延迟的操作,使得一些通用的 http 库超时
( urllib )。不过如果是服务端动的手脚一般延迟不会太高,我们只需要人为的设置一个高一点的
timeout 即可(30 秒),最好在爬取开始的时候就对我们要用的爬取库进行一层封装,通用起来才好改
动。
第三个问题: 在解析大量静态页面的时候,有些静态页面的解析规则不一样,所以我们就必须得做好断点
续爬的准备了( PS : 如果简单的忽略错误可能会导致大量数据的丢失,这就不明智了)。那么在调试的过
程中断点续爬有个解决方案,就是生产者和消费者分离,生产者就是产生待爬 url 的爬虫,消费者就是爬取
最终数据的爬虫。最终解析数据就是消费者爬虫了。他们通过消息中间件连接,生产者往消息中间件发送待
爬取的目标信息,消费者从里面取就行了,还间接的实现了个分布式爬取功能。由于现在的消费中间件都有
ack 机制,一个消费者爬取链接失败会导致消息消费失败,进而分配给其他消费者消费。所以消息丢失的
概率极低。不过这里还有个 tips , 消费者的消费超时时间不能太长,会导致消息释放不及时。还有要开启
消息中间价的数据持久化功能,不然消息产生过多而消费不及时会撑爆机器内存。那样就得不偿失了。
第四个问题: 这种情况只能 try except catch 住了,不好解决,如果单独分析的话会耗费点时间。但在
大部分数据 (99%) 都正常的情况下就这条不正常抛弃就行了。主要有了第三个问题的解决方案再出现这
种偶尔中断的问就方便多了。
希望能帮到各位。
2. 如何入门 python 爬虫
如何入门 python 爬虫
先自己答一个,期待牛人的回答。
自己学Python不久,列举自己做过的和知道的。
1. Python做爬虫很方便,有现成的库。 我在学习python的过程中也遇到过一个非常简单的例子,代码:python/primer/20/Cralwer.py at master · xxg1413/python · GitHub 。好像有开源的项目叫什么supercrawler,具体可以看看。
2.Python做游戏。Pygame还是不错的,但只适合做小游戏。用Pygame写个植物大战僵尸还是可以的。推荐教程 用Python和Pygame写游戏。Python在游戏服务器方面也有应用。EVE这种游戏都大量用Python。
3.Python作为黑客第一语言,在黑客领域的应用就不多说了。
4.Python做网站,有几个web框架 WebFrameworks。 用得最多的是Django。
5......各方面都有,什么推荐系统,都是用python,在此就不一一列举了。
3. Python漫画爬虫两弹
其实从接触python到现在已经快大半年了,中间看过不少的视频,也跟着别人的教程写过不少东西,但是到现在还感觉没有入门。其实中间也明白是为什么,就好比小学生上课一样,上课认真听,认真做笔记,可是下了课之后就从来不看笔记,也从来不写作业。上课一听就懂,自己一写啥都不会,我相信很多人跟我现在是一样的感觉,所以现在创建这个作业集,一来是想鞭策自己真真正正的写点东西,二来也是希望广大的读者老师能够给我批改批改作业,大家相互学习共同进步。
好了,现在开始进入正题。
但是我在这里还是遇到了一个小问题。比如说
上一步呢我们获取了所有漫画的url保存在了一个list当中,现在我们挨个请求comic_list中的url。
通过观察网页我们发现我们可以从网页上直接看到漫画一共有多少页(page_num),也就是多少张图片。
(上一章下一章点开之后会发现跳到了另外一部漫画,所有我们不用在意,这里的一部漫画很短)
正则是用来提取数字。
然后我们一页一页的点击观察url的变化会发现除了第一页的url就是漫画的url外,其他从第二页一直到最后的url都是有规律的
找到规律这就简单了,跟先前构造漫画url差不多。我们构造构造除了第一页外的其他页数的url
保存漫画分两步,首先是创建文件夹,其次是保存。
打开风之动漫拉到最下面我们可以看到在网站的最下面有一个 网站地图
获取漫画每一话的标题和对应的url,保存到字典 comic_chapter_url_dict 中
最难的部分来了。
首先 通过F12 我们可以看到图片的链接在一个 id="mhpic" 的img标签中
最后希望能够帮助那些比我还小白的小白,也希望各位大神看过之后能够指点一二,不胜感激。
两个爬虫的 GitHub地址
4. 最常用Python开源框架有哪些
django
flask等等
建议先把django学会,慢慢来,举一反三。前期比较困难。