python爬虫框架可以反爬虫_Python有哪些常见的好用的爬虫框架

A. python爬虫中怎么写反爬虫

1、通过UA判断：UA是UserAgent，是要求浏览器的身份标志。
UA是UserAgent，是要求浏览器的身份标志。反爬虫机制通过判断访问要求的头部没有UA来识别爬虫，这种判断方法水平很低，通常不作为唯一的判断标准。反爬虫非常简单，可以随机数UA。
2、通过Cookie判定：Cookie是指会员帐户密码登录验证
Cookie是指会员帐户密码登录验证，通过区分该帐户在短时间内爬行的频率来判断。这种方法的反爬虫也很困难，需要多账户爬行。
3、通过访问频率判定
爬虫类经常在短时间内多次访问目标网站，反爬虫类机制可以通过单个IP访问的频率来判断是否是爬虫类。这样的反爬方式难以反制，只能通过更换IP来解决。
4、通过验证码判定
验证码是反爬虫性价比高的实施方案。反爬虫通常需要访问OCR验证码识别平台，或者使用TesseractOCR识别，或者使用神经网络训练识别验证码。
5、动态性页面加载
使用动态加载的网站通常是为了方便用户点击和查看，爬虫无法与页面互动，这大大增加了爬虫的难度。
一般情况下，用户对网站进行信息爬取时，都要受到“爬虫”的约束，使用户在获取信息时受到一定的阻碍

B. python能用于做什么

Python 的实际应用场景有哪些？这里给大家简单做一个介绍：

Web 应用开发

在因大数据、人工智能为人所熟知之前，Python 就已经在 Web 开发领域被广泛使用，产生了 Django、Flask、Tornado 等 Web 开发框架。得益于其简洁的语法和动态语言特性，Python 的开发效率很高，因而深受创业团队的青睐。

一些将 Python 作为主要开发语言的知名互联网企业/产品：

豆瓣

知乎

果壳网

Instagram

Quora

Dropbox

由于后台服务器的通用性，除了狭义的网站之外，很多 App 和游戏的服务器端也同样用 Python 实现。

自动化运维

在 Web 开发领域，Python 只是众多语言选择之一；但在自动化运维领域，Python 则是必备技能。灵活的功能和丰富的类库使其成为运维工程师的首选语言。大量自动化运维工具和平台或以 Python 开发，或提供 Python 的配置接口。单从 Linux 内置 Python 这一点来看也足见其在服务器和运维领域的地位。

因此很多公司虽然核心业务不是使用 Python，但在管理系统、运维等方面也大量使用。比如 Facebook 工程师维护了上千个 Python 项目，包括基础设施管理、广告 API 等。

推荐学习《python教程》

网络爬虫

也叫网络蜘蛛，是指从互联网采集数据的程序脚本。对于很多数据相关公司来说，爬虫和反爬虫技术都是其赖以生存的重要保障。尽管很多语言都可以编写爬虫，但灵活的 Python 无疑也是当前的首选。基于 Python 的爬虫框架 Scrapy 也很受欢迎。

这个星球上最大的“爬虫”公司 -- Google 一直力推 Python，不仅在公司内部大量使用 Python，也为开发社区做了巨大贡献。就连 Python 之父 Guido van Rossum 也曾在 Google 工作七年。

数据分析

当通过爬虫获取了海量数据之后，需要对数据进行清洗、去重、存储、展示、分析，在这方面 Python 有许多优秀的类库：NumPy、Pandas、Matplotlib 可以让你的数据分析工作事半功倍。

科学计算

虽然 Matlab 在科学计算领域有着不可取代的地位，但 Python 作为一门通用的编程语言，可以带来更广泛的应用和更丰富的类库。NumPy、SciPy、BioPython、SunPy 等类库在生物信息、地理信息、数学、物理、化学、建筑等领域发挥着重要作用。

而大名鼎鼎的 NASA 也早已把 Python 作为主要开发语言。

人工智能

Python 在人工智能大范畴领域内的数据挖掘、机器学习、神经网络、深度学习等方面都是主流的编程语言，得到广泛的支持和应用。

机器学习：Scikit-learn

自然语言处理：NLTK

深度学习：Keras、Google 的 TensorFlow、Facebook 的 PyTorch、Amazon 的 MxNet

这些已经占据业内主流的工具要么是用 Python 开发，要么也提供了 Python 版本。Python 无疑已成为 AI 领域的必修语言。

胶水语言

Python 简洁、灵活、通用，几乎可以在各种场景与各种平台、设备、语言进行连接，因此被称为胶水语言。有人把它比作小巧而又多功能的瑞士军刀。除了上面提到的，在其他领域也常常见到 Python 的身影：

金融：大量金融分析和量化交易工具使用 Python 作为的开发脚本语言

游戏：一些引擎使用 Python 作为开发脚本，比较有名的游戏有《文明》系列、网易的《阴阳师》

桌面应用：虽然不算主流，但 PyQT、wxPython、Tkinter 等 GUI 库也足以应付一般的桌面程序

C. python爬虫如何对抗反爬虫策略

优福音杏w

D. python爬虫有什么办法防止反爬虫

动态页面的限制，爬虫工作者可能会遇到这样的尴尬，当你抓取下目标页面之后，你发现，关键信息处一片空白，只有密密麻麻一片的框架代码，这是因为该网站的信息是通过用户Post的XHR动态返回内容信息，解决这种问题就是要通过开发者工具（FireBug等）对网站流进行分析，对内容信息进行抓取，获取所需要的内容。

用户行为检测，有一些是网站通过检测和分析一些用户的行为，比如说是针对cookies，通过检查cookies来判断用户是不是可以利用和保存的有效客户，通常是需要登陆的网站，经常会采用这样的技术。层次再深的还有，信息验证，部分网站的登陆是需要验证吗的验证的，就像登陆的时候，系统会自动分配出验证码，authenticity_token，authenticity_token会和用户提交的登录名和密码一起发送回服务器。

IP的访问频率被限制，一些平台为了防止多次访问网站，会在某个同一个IP在单元时间内超过一定的次数的时候，将禁止这个IP继续访问。对于这个限制IP访问效率，可以使用代理IP的方法来解决问题比如使用IPIDEA。

以上简单的说了三种常见的反爬虫已经反爬虫的应对方法，一般来讲越高级的爬虫被封锁的机率救会越低，但是性能会比较低一些。

E. Python爬取知乎与我所理解的爬虫与反爬虫

关于知乎验证码登陆的问题，用到了Python上一个重要的图片处理库PIL,如果不行，就把图片存到本地，手动输入。

通过对知乎登陆是的抓包，可以发现登陆知乎，需要post三个参数，一个是账号，一个是密码，一个是xrsf。
这个xrsf隐藏在表单里面，每次登陆的时候，应该是服务器随机产生一个字符串。所有，要模拟登陆的时候，必须要拿到xrsf。

用chrome （或者火狐 httpfox 抓包分析）的结果：

所以，必须要拿到xsrf的数值，注意这是一个动态变化的参数，每次都不一样。

拿到xsrf，下面就可以模拟登陆了。
使用requests库的session对象，建立一个会话的好处是，可以把同一个用户的不同请求联系起来，直到会话结束都会自动处理cookies。

注意：cookies 是当前目录的一个文件，这个文件保存了知乎的cookie，如果是第一个登陆，那么当然是没有这个文件的，不能通过cookie文件来登陆。必须要输入密码。

这是登陆的函数，通过login函数来登陆，post 自己的账号，密码和xrsf 到知乎登陆认证的页面上去，然后得到cookie，将cookie保存到当前目录下的文件里面。下次登陆的时候，直接读取这个cookie文件。

这是cookie文件的内容

以下是源码：

运行结果：

https://github.com/zhaozhengcoder/Spider/tree/master/spider_hu

反爬虫最基本的策略：

爬虫策略：
这两个都是在http协议的报文段的检查，同样爬虫端可以很方便的设置这些字段的值，来欺骗服务器。

反爬虫进阶策略：
1.像知乎一样，在登录的表单里面放入一个隐藏字段，里面会有一个随机数，每次都不一样，这样除非你的爬虫脚本能够解析这个随机数，否则下次爬的时候就不行了。
2.记录访问的ip，统计访问次数，如果次数太高，可以认为这个ip有问题。

爬虫进阶策略：
1.像这篇文章提到的，爬虫也可以先解析一下隐藏字段的值，然后再进行模拟登录。
2.爬虫可以使用ip代理池的方式，来避免被发现。同时，也可以爬一会休息一会的方式来降低频率。另外，服务器根据ip访问次数来进行反爬，再ipv6没有全面普及的时代，这个策略会很容易造成误伤。（这个是我个人的理解）。

通过Cookie限制进行反爬虫：
和Headers校验的反爬虫机制类似，当用户向目标网站发送请求时，会再请求数据中携带Cookie，网站通过校验请求信息是否存在Cookie，以及校验Cookie的值来判定发起访问请求的到底是真实的用户还是爬虫，第一次打开网页会生成一个随机cookie，如果再次打开网页这个Cookie不存在，那么再次设置，第三次打开仍然不存在，这就非常有可能是爬虫在工作了。

反爬虫进进阶策略：
1.数据投毒，服务器在自己的页面上放置很多隐藏的url，这些url存在于html文件文件里面，但是通过css或者js使他们不会被显示在用户看到的页面上面。（确保用户点击不到）。那么，爬虫在爬取网页的时候，很用可能取访问这个url，服务器可以100%的认为这是爬虫干的，然后可以返回给他一些错误的数据，或者是拒绝响应。

爬虫进进阶策略：
1.各个网站虽然需要反爬虫，但是不能够把网络，谷歌这样的搜索引擎的爬虫给干了（干了的话，你的网站在网络都说搜不到！）。这样爬虫应该就可以冒充是网络的爬虫去爬。（但是ip也许可能被识破，因为你的ip并不是网络的ip）

反爬虫进进进阶策略：
给个验证码，让你输入以后才能登录，登录之后，才能访问。

爬虫进进进阶策略：
图像识别，机器学习，识别验证码。不过这个应该比较难，或者说成本比较高。

参考资料：
廖雪峰的python教程
静觅的python教程
requests库官方文档
segmentfault上面有一个人的关于知乎爬虫的博客，找不到链接了

F. python 爬虫要不要用框架

由于项目需求收集并使用过一些爬虫相关库，做过一些对比分析。以下是我接触过的一些库：

Beautiful Soup。名气大，整合了一些常用爬虫需求。缺点：不能加载JS。
Scrapy。看起来很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。
mechanize。优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
selenium。这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。
cola。一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高，不过值得借鉴。

以下是我的一些实践经验：

对于简单的需求，比如有固定pattern的信息，怎么搞都是可以的。
对于较为复杂的需求，比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发，这种情况下是很难找到一个契合需求的库的，很多东西只能自己写。

至于题主提到的：

还有，采用现有的Python爬虫框架，相比与直接使用内置库，优势在哪？因为Python本身写爬虫已经很简单了。

third party library可以做到built-in library做不到或者做起来很困难的事情，仅此而已。还有就是，爬虫简不简单，完全取决于需求，跟Python是没什么关系的。

G. 如何使用python解决网站的反爬虫

1、从用户请求的Headers反爬虫是最常见的反爬虫策略。
伪装header。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名[评论：往往容易被忽略，通过对请求的抓包分析，确定referer，在程序中模拟访问请求头中添加]。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。
2、基于用户行为反爬虫
还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。[这种防爬，需要有足够多的ip来应对]
（1）、大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib中很容易做到，这样就能很容易的绕过第一种反爬虫。
编写爬虫代理：
步骤：
1.参数是一个字典{'类型'：'代理ip：端口号'}
proxy_support=urllib.request.ProxyHandler({})
2.定制、创建一个opener
opener=urllib.request.build_opener(proxy_support)
3a.安装opener
urllib.request.install_opener(opener)
3b.调用opener
opener.open(url)
用大量代理随机请求目标网站，应对反爬虫

H. Python有哪些常见的，好用的爬虫框架

网络爬虫的抓取策略有很多种，按照系统结构和实现技术，大致可以分为以下几种：通用网络爬虫（GeneralPurposeWebCrawler）、聚焦网络爬虫（FocusedWebCrawler）、增量式网络爬虫（IncrementalWebCrawler）、深层网络爬虫（DeepWebCrawler）。
增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。
一般网络爬虫的爬行范围和数量很大，爬行速度和存储空间要求很高，爬行页面的顺序也比较低。同时，由于需要刷新的页面太多，通常采用并行工作，但刷新一页需要很长时间。
聚焦网络爬虫是指选择性地爬行与预定义主题相关的网络爬虫。与普通网络爬虫相比，聚焦爬虫只需爬行与主题相关的网页，大大节省了硬件和网络资源，保存的网页也因数量少而更新快，还能很好地满足一些特定人群对特定领域信息的需求。
DeepWeb爬虫，也就是深层网页爬虫，在深层网页容量是表层网页的数百倍，是互联网上最大、发展最快的新信息资源。

I. 学了python爬虫还能干什么

数据分析
一般我们用爬虫爬到了大量的数据之后，我们需要处理数据用来分析，不然爬虫白爬了，我们最终的目的就是分析数据，在这方面关于数据分析的库也是非常的丰富的，各种图形分析图等都可以做出来。也是非常的方便，其中诸如Seaborn这样的可视化库，能够仅仅使用一两行就对数据进行绘图，而利用Pandas和numpy、scipy则可以简单地对大量数据进行筛选、回归等计算。而后续复杂计算中，对接机器学习相关算法，或者提供Web访问接口，或是实现远程调用接口，都非常简单。

J. Python有哪些常见的，好用的爬虫框架

目前实现爬虫技术的编程环境有很多种，Java、Python、C++等都可以用来写爬虫。但很多人选择Python来写爬虫，原因是Python确实很适合做爬虫，丰富的第三方库十分强大，简单几行代码便可实现你想要的功能。更重要的，Python也是数据挖掘和分析的好能手。那么，今天IPIDEA就带大家来了解Python爬虫一般用什么框架比较好。

Beautiful Soup：整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载JS。

selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。Selenium是自动化测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与Python的对接，Python进行后期的处理。

Scrapy：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。它的特性有：HTML, XML源数据选择及提取的内置支持；提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。

Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

cola：是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。项目整体设计有点糟，模块间耦合度较高。

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。Python脚本控制，可以用任何你喜欢的html解析包。

导航:首页 > 编程语言 > python爬虫框架可以反爬虫

python爬虫框架可以反爬虫

与python爬虫框架可以反爬虫相关的资料