pythonscrapy使用_如何用Python爬取搜索引擎的结果

❶ python 编程基础之（五）Scrapy爬虫框架

经过前面四章的学习，我们已经可以使用Requests库、Beautiful Soup库和Re库，编写基本的Python爬虫程序了。那么这一章就来学习一个专业的网络爬虫框架--Scrapy。没错，是框架，而不是像前面介绍的函数功能库。

Scrapy是一个快速、功能强大的网络爬虫框架。

可能大家还不太了解什么是框架，爬虫框架其实是实现爬虫功能的一个软件结构和功能组件的集合。

简而言之， Scrapy就是一个爬虫程序的半成品，可以帮助用户实现专业的网络爬虫。

使用Scrapy框架，不需要你编写大量的代码，Scrapy已经把大部分工作都做好了，允许你调用几句代码便自动生成爬虫程序，可以节省大量的时间。

当然，框架所生成的代码基本是一致的，如果遇到一些特定的爬虫任务时，就不如自己使用Requests库搭建来的方便了。

PyCharm安装

测试安装：

出现框架版本说明安装成功。

掌握Scrapy爬虫框架的结构是使用好Scrapy的重中之重！

先上图：

整个结构可以简单地概括为： “5+2”结构和3条数据流

5个主要模块（及功能）：

（1）控制所有模块之间的数据流。

（2）可以根据条件触发事件。

（1）根据请求下载网页。

（1）对所有爬取请求进行调度管理。

（1）解析DOWNLOADER返回的响应--response。

（2）产生爬取项--scraped item。

（3）产生额外的爬取请求--request。

（1）以流水线方式处理SPIDER产生的爬取项。

（2）由一组操作顺序组成，类似流水线，每个操作是一个ITEM PIPELINES类型。

（3）清理、检查和查重爬取项中的HTML数据并将数据存储到数据库中。

2个中间键：

（1）对Engine、Scheler、Downloader之间进行用户可配置的控制。

（2）修改、丢弃、新增请求或响应。

（1）对请求和爬取项进行再处理。

（2）修改、丢弃、新增请求或爬取项。

3条数据流：

（1）：图中数字 1-2

1：Engine从Spider处获得爬取请求--request。

2：Engine将爬取请求转发给Scheler，用于调度。

（2）：图中数字 3-4-5-6

3：Engine从Scheler处获得下一个要爬取的请求。

4：Engine将爬取请求通过中间件发送给Downloader。

5：爬取网页后，Downloader形成响应--response，通过中间件发送给Engine。

6：Engine将收到的响应通过中间件发送给Spider处理。

（3）：图中数字 7-8-9

7：Spider处理响应后产生爬取项--scraped item。

8：Engine将爬取项发送给Item Pipelines。

9：Engine将爬取请求发送给Scheler。

任务处理流程：从Spider的初始爬取请求开始爬取，Engine控制各模块数据流，不间断从Scheler处获得爬取请求，直至请求为空，最后到Item Pipelines存储数据结束。

作为用户，只需配置好Scrapy框架的Spider和Item Pipelines，也就是数据流的入口与出口，便可完成一个爬虫程序的搭建。Scrapy提供了简单的爬虫命令语句，帮助用户一键配置剩余文件，那我们便来看看有哪些好用的命令吧。

Scrapy采用命令行创建和运行爬虫

PyCharm打开Terminal，启动Scrapy：

Scrapy基本命令行格式：

具体常用命令如下：

下面用一个例子来学习一下命令的使用：

1.建立一个Scrapy爬虫工程，在已启动的Scrapy中继续输入：

执行该命令，系统会在PyCharm的工程文件中自动创建一个工程，命名为pythonDemo。

2.产生一个Scrapy爬虫，以教育部网站为例http://www.moe.gov.cn：

命令生成了一个名为demo的spider，并在Spiders目录下生成文件demo.py。

命令仅用于生成demo.py文件，该文件也可以手动生成。

观察一下demo.py文件：

3.配置产生的spider爬虫，也就是demo.py文件：

4.运行爬虫，爬取网页：

如果爬取成功，会发现在pythonDemo下多了一个t20210816_551472.html的文件，我们所爬取的网页内容都已经写入该文件了。

以上就是Scrapy框架的简单使用了。

Request对象表示一个HTTP请求，由Spider生成，由Downloader执行。

Response对象表示一个HTTP响应，由Downloader生成，有Spider处理。

Item对象表示一个从HTML页面中提取的信息内容，由Spider生成，由Item Pipelines处理。Item类似于字典类型，可以按照字典类型来操作。

❷ 如何python 中运行scapy shell

启用shell
可以使用如下命令启用shell
[python] view plain
scrapy shell <url>
其中<url>就是你想抓取的页面url

使用shell
Scrapy shell可以看成是一个内置了几个有用的功能函数的python控制台程序。

功能函数
shelp() - 输出一系列可用的对象和函数
fetch(request_or_url)-从给定的url或既有的request请求对象重新生成response对象，并更新原有的相关对象
view(response)-使用浏览器打开原有的response对象（换句话说就是html页面）
Scrapy 对象
使用Scrapy shell下载指定页面的时候，会生成一些可用的对象，比如Response对象和Selector对象（Html和XML均适用）
这些可用的对象有：

crawler - 当前的Crawler对象
spider
request - 最后获取页面的请求对象
response - 一个包含最后获取页面的响应对象
sel - 最新下载页面的Selector对象
settings - 当前的Scrapy settings
Scrapy shell例子
以我的个人博客作为测试:http://blog.csdn.net/php_fly
首先,我们启动shell
[python] view plain
scrapy shell http://blog.csdn.net/php_fly --nolog
以上命令执行后,会使用Scrapy downloader下载指定url的页面数据,并且打印出可用的对象和函数列表

[python] view plain
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x0000000002AEF7B8>
[s] item {}
[s] request <GET http://blog.csdn.net/php_fly>
[s] response <200 http://blog.csdn.net/php_fly>
[s] sel <Selector xpath=None data=u'<html xmlns="http://www.w3.org/1999/xhtm'>
[s] settings <CrawlerSettings mole=None>
[s] spider <Spider 'default' at 0x4cdb940>
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser
获取曾是土木人博客的文章列表超链接
[python] view plain
In [9]: sel.xpath("//span[@class='link_title']/a/@href").extract()
Out[9]:
[u'/php_fly/article/details/19364913',
u'/php_fly/article/details/18155421',
u'/php_fly/article/details/17629021',
u'/php_fly/article/details/17619689',
u'/php_fly/article/details/17386163',
u'/php_fly/article/details/17266889',
u'/php_fly/article/details/17172381',
u'/php_fly/article/details/17171985',
u'/php_fly/article/details/17145295',
u'/php_fly/article/details/17122961',
u'/php_fly/article/details/17117891',
u'/php_fly/article/details/14533681',
u'/php_fly/article/details/13162011',
u'/php_fly/article/details/12658277',
u'/php_fly/article/details/12528391',
u'/php_fly/article/details/12421473',
u'/php_fly/article/details/12319943',
u'/php_fly/article/details/12293587',
u'/php_fly/article/details/12293381',
u'/php_fly/article/details/12289803']
修改scrapy shell的请求方式:

[python] view plain
>>> request = request.replace(method="POST")
>>> fetch(request)
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
...

从Spider中调用Scrapy shell
在爬虫运行过程中,有时需要检查某个响应是否是你所期望的。
这个需求可以通过scrapy.shell.inspect_response函数进行实现
以下是一个关于如何从spider中调用scrapy shell的例子

[python] view plain
from scrapy.spider import Spider

class MySpider(Spider):
name = "myspider"
start_urls = [
"http://example.com",
"http://example.org",
"http://example.net",
]

def parse(self, response):
# We want to inspect one specific response.
if ".org" in response.url:
from scrapy.shell import inspect_response
inspect_response(response)

# Rest of parsing code.
当你启动爬虫的时候，控制台将打印出类似如下的信息
[python] view plain
2014-02-20 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.com> (referer: None)
2014-02-20 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.org> (referer: None)
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
...
>>> response.url
'http://example.org'
注意：当Scrapy engine被scrapy shell占用的时候，Scrapy shell中的fetch函数是无法使用的。然而，当你退出Scrapy shell的时候，蜘蛛将从停止的地方继续爬行

❸ 如何在scrapy框架下，用python实现爬虫自动跳转页面来抓去网页内容

Scrapy是一个用Python写的Crawler Framework，简单轻巧，并且非常方便。Scrapy使用Twisted这个异步网络库来处理网络通信，架构清晰，并且包含了各种中间件接口，可以灵活地完成各种需求。Scrapy整体架构如下图所示：

根据架构图介绍一下Scrapy中的各大组件及其功能：

Scrapy引擎（Engine）：负责控制数据流在系统的所有组建中流动，并在相应动作发生触发事件。
调度器（Scheler）：从引擎接收Request并将它们入队，以便之后引擎请求request时提供给引擎。
下载器（Downloader）：负责获取页面数据并提供给引擎，而后提供给Spider。
Spider：Scrapy用户编写用于分析Response并提取Item（即获取到的Item）或额外跟进的URL的类。每个Spider负责处理一个特定（或一些网站）。
Item Pipeline：负责处理被Spider提取出来的Item。典型的处理有清理验证及持久化（例如存储到数据库中，这部分后面会介绍存储到MySQL中，其他的数据库类似）。
下载器中间件（Downloader middlewares）：是在引擎即下载器之间的特定钩子（special hook），处理Downloader传递给引擎的Response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能（后面会介绍配置一些中间并激活，用以应对反爬虫）。
Spider中间件（Spider middlewares）：是在引擎及Spider之间的特定钩子（special hook），处理Spider的输入（response）和输出（Items即Requests）。其提供了一个简便的机制，通过插入自定义的代码来扩展Scrapy功能。

❹ python爬虫-35-scrapy实操入门，一文带你入门，保姆级教程

如果在 windows 系统下，提示这个错误 MoleNotFoundError: No mole named 'win32api' ，那么使用以下命令可以解决： pip install pypiwin32 。

示例如下：

命令：

示例如下：

创建完毕之后可以看下具体创建了什么文件；

我们使用 pycharm 打开看下；

scrapy 爬虫项目中每个文件的作用如下：

------ “运维家” ------

------ “运维家” ------

------ “运维家” ------

linux系统下，mknodlinux，linux目录写权限，大白菜能安装linux吗，linux系统创建文件的方法，领克linux系统怎么装软件，linux文本定位；

ocr识别linux，linux锚定词尾，linux系统使用记录，u盘有linux镜像文件，应届生不会Linux，linux内核64位，linux自启动管理服务；

linux计算文件夹大小，linux设备名称有哪些，linux能用的虚拟机吗，linux系统进入不了命令行，如何创建kalilinux，linux跟so文件一样吗。

❺ python爬虫的工作步骤

当前处于一个大数据的时代，一般网站数据来源有二：网站用户自身产生的数据和网站从其他来源获取的数据，今天要分享的是如何从其他网站获取你想要的数据。

目前最适合用于写爬虫的语言是python，python中最受欢迎的爬虫框架是scrapy,本文围绕scrapy来展开讲解爬虫是怎么工作的。

1.如下图所示，爬虫从编写的spider文件中的start_urls开始，这个列表中的url就是爬虫抓取的第一个网页，它的返回值是该url对应网页的源代码，我们可以用默认的parse(self,response)函数去打印或解析这个源代码

2.我们获取到源代码之后，就可以从网页源代码中找到我们想要的信息或需要进一步访问的url,提取信息这一步，scrapy中集成了xpath,正则(re),功能十分强大，提取到信息之后会通过yield进入到中间件当中。

中间件包括爬虫中间件和下载中间件，爬虫中间件主要用于设置处理爬虫文件中的代码块，下载中间件主要用于判断爬虫进入网页前后的爬取状态，在此中间件中，你可以根据爬虫的返回状态去做进一步判断。

最后我们将yield过来的item，即就是我们想要的数据会在pipeline.py文件中进行处理，存入数据库，写入本地文件，都可以在这里进行，另外，为了减少代码冗余，建议所有与设置参数有关的参数，都写在settings.py中去

❻ 如何用Python爬取搜索引擎的结果

我选取的是爬取网络知道的html 作为我的搜索源数据，目前先打算做网页标题的搜索，选用了 Python 的 scrapy 库来对网页进行爬取，爬取网页的标题，url，以及html，用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程，设定四个起始 url ，然后维护一个数据库，数据库中有两个表，一个 infoLib，其中存储了爬取的主要信息：标题，url ，html；另一个表为urlLib，存储已经爬取的url，是一个辅助表，在我们爬取每个网页前，需要先判断该网页是否已爬过（是否存在urlLib中）。在数据存储的过程中，使用了SQL的少量语法，由于我之前学过 MySQL ，这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是：给定初始 url，爬取这个网页中所有 url，继续对网页中的 url 递归爬取。代码逐段解析在下面，方便自己以后回顾。
1.建一个 scrapy 工程：
关于建工程，可以参看这个scrapy入门教程，通过运行:

[python] view plain
scrapy startproject ***

在当前目录下建一个scrapy 的项目，然后在 spiders 的子目录下建立一个 .py文件，该文件即是爬虫的主要文件，注意：其中该文件的名字不能与该工程的名字相同，否则，之后调用跑这个爬虫的时候将会出现错误，见ImportError。
2.具体写.py文件：

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider
name = "" #将该爬虫命名为 “知道”，在执行爬虫时对应指令将为： scrapy crawl
#download_delay = 1 #只是用于控制爬虫速度的，1s/次，可以用来对付反爬虫
allowed_domains = ["..com"] #允许爬取的作用域
url_first = 'http://..com/question/' #用于之后解析域名用的短字符串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定义初始的 url ，有五类知道起始网页

#add database
connDataBase = sqlite3.connect(".db") #连接到数据库“.db”
cDataBase = connDataBase.cursor() #设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库，若.db中 infoLib表不存在，则建立该表，其中主键是自增的 id（用于引擎的docId）,下一列是文章的标题，然后是url，最后是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库，若.db中urlLib表不存在，则建立该表，其中只存了 url，保存已经爬过的url，之所以再建一个表，是猜测表的主键应该使用哈希表存储的，查询速度较快，此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数：

.py文件中的parse函数将具体处理url返回的 response，进行解析，具体代码中说明：

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取网页的 url，并不是直接使用函数获取，那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0] #获取网页html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是，我们对重复的 start_url 中的网址将仍然进行爬取，而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若当前Url已经爬过
pass #则不再在数据库中添加信息，只是由其为跟继续往下爬
else: #否则，将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此时进入的非 url 网页一定是没有爬取过的（因为深入start_url之后的网页都会先进行判断，在爬取，在下面的for循环中判断）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存数据库的更新

print "-----------------------------------------------" #输出提示信息，没啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有该网页的延伸网页，进行判断并对未爬过的网页进行爬取
sel = "http://..com" + sel #解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在，则对其继续进行爬取
yield Request(url = sel, callback=self.parse)

导航:首页 > 编程语言 > pythonscrapy使用

pythonscrapy使用

与pythonscrapy使用相关的资料