导航:首页 > 编程语言 > python爬虫淘宝店铺跟踪

python爬虫淘宝店铺跟踪

发布时间:2025-03-21 05:18:40

Ⅰ 【python3网络爬虫开发实战】使用Selenium爬取淘宝商品

本文介绍使用Selenium爬取淘宝商品信息,并保存至MongoDB。首先,需确保已安装Chrome浏览器、ChromeDriver、Python的Selenium库以及PhantomJS、Firefox和其对应Driver。接着,分析淘宝接口和页面结构,发现通过构造URL参数,可直接抓取商品信息,无需关注复杂接口参数。页面分析显示,商品信息位于商品列表中,通过跳转链接可访问任意页的商品。使用Selenium获取页面源码后,利用pyquery解析,提取图片、名称、价格、购买人数、店铺名称和店铺所在地等信息,最终保存至MongoDB。

构造商品搜索URL,通过关键词自定义,构造URL并使用Selenium抓取页面。实现分页逻辑,通过跳转页码输入框实现自动跳转至所需页。等待页面加载,确保元素完全呈现后进行商品信息提取。解析页面源码,使用pyquery找到商品信息块,遍历提取图片链接、价格、成交量等信息,构建商品字典,调用方法保存至MongoDB。

遍历每页商品,调用获取方法并遍历页码1至100,完成所有商品信息抓取。运行代码,浏览器自动打开,输出提取结果至控制台,检查MongoDB中数据,确保成功存储所有商品信息。支持Chrome Headless模式,从版本59开始启用无界面模式,提升爬取效率。对接Firefox浏览器,只需更改浏览器对象创建方式。使用PhantomJS进行爬取,无需界面,优化爬取流程,可通过命令行配置,如设置缓存、禁用图片加载,提高效率。

实现流程清晰,自动化程度高,适用于大规模商品信息抓取需求。通过Selenium与MongoDB结合,为电商数据分析与市场调研提供数据支持。关注公众号获取更多技术教程与实践案例。

Ⅱ Python爬取淘宝商品信息并生成Excel

1前言

后台有很多小伙伴私信问我关于python爬虫的知识和学习资源,今天这篇文章就简单介绍下python爬虫的知识点,并以爬取淘宝网的商品信息存到excel表格中进行演示,同样的本文的源码会同步至github,欢迎下载使用。

2爬虫相关知识

在进行爬虫之前,需要先了解一些关于爬虫的基本知识。

首先我们需要先了解下爬虫的基本原理:

基本的网页请求的过程都可以分为以下两个步骤:

1、Request(请求):每一个展示在用户面前的网页都必须经过这一步,也就是向服务器发送访问请求。

2、Response(响应):服务器在接收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容,客户端接收服务器响应的内容,将内容展示出来(即网页),如下图所示。

网页请求的方式也分为两种:

1、GET:最常见的方式,一般用于获取或者查询资源信息,也是大多数网站使用的方式,响应速度快。

2、POST:相比GET方式,多了以表单形式上传参数的功能,因此除查询信息外,还可以修改信息。

所以,在写爬虫前我们要先确定向谁发送请求,并且用什么方式发送。

向谁发送请求,那我们就需要了解请求的url地址,以淘宝网的眼镜的url为例:

https://s.taobao.com/search?q=%E7%9C%BC%E9%95%9C&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

这里眼镜中文被转义了:

这里我们只需要知道q后面的值就是我们搜索的商品的名字就可以了,后面其他的参数这里暂时对我们没用。

因为爬虫并不只爬取一页的信息,我们跳转到下一页:

可以发现s的值=44*(页码-1)。

接着ctrl+U组合键打开源码,可以发现有一个g_page_config的json串,里面的data值如下:

,"data":{"postFeeText":"运费","trace":"msrp_auction","auctions":[{"p4p":1,"p4pSameHeight":true,"nid":"536766094512","category":"","pid":"","title":"近视u003cspanclassu003dHu003e眼镜u003c/spanu003e男有度数超轻全框u003cspanclassu003dHu003e眼镜u003c/spanu003e框半框舒适可配u003cspanclassu003dHu003e眼镜u003c/spanu003e防雾眼睛近视镜","raw_title":"丹阳眼镜眼镜框眼镜架眼睛框防辐射光学镜","pic_url":"//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i2/104870285060645671/TB2ulgla4vzQeBjSZPfXXbWGFXa_!!0-saturn_solar.jpg"

这里postFeeText即为运费,raw_title为标题,pic_url即为展示图片的地址,

view_price:运费;

nick:商铺的名称;

item_loc:地址;

view_sales:销售量。

以上的数据即对应下面的这些信息:

请求方式可以F12,然后再network--->headers--->requestMethod找到:

在了解上面的基本内容之后我们就可以写一个小型的爬虫了,比如下面的代码:

#导入requests包importrequestsurl='https://s.taobao.com/search?q=%E7%9C%BC%E9%95%9C&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44'#Get方式获取网页数据strhtml=requests.get(url)print(strhtml.text)

这样就将页面的内容获取并以html的格式展示出来了。

使用requests库请求网站加载库使用的语句是import+库的名字。在上述过程中,加载requests库的语句是:importrequests。

用GET方式获取数据需要调用requests库中的get方法,使用方法是在requests后输入英文点号,如下所示:

requests.get

将获取到的数据存到strhtml变量中,代码如下:

strhtml=request.get(url)

这个时候strhtml是一个URL对象,它代表整个网页,但此时只需要网页中的源码,下面的语句表示网页源码:

strhtml.text3实战

接下来我们完整的爬取淘宝的信息,主要爬取的信息是:商品名称、店铺名称、价格、地区、付款人数。

首先我们定义一个函数获取请求的url:

#前面介绍q即为查询的商品的名称,所以这里定义为变量,方便后面重复使用defGeturls(q,x):url="https://s.taobao.com/search?q="+q+"&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm""=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306"urls=[]urls.append(url)ifx==1:returnurlsforiinrange(1,x):url="https://s.taobao.com/search?q="+q+"&commend=all&ssid=s5-e&search_type=item""&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306""&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="+str(i*44)urls.append(url)returnurls

然后定义一个函数来获取html的页面:

defGetHtml(url):#这里的请求get请求r=requests.get(url,headers=headers)r.raise_for_status()r.encoding=r.apparent_encodingreturnr

然后定义一个函数获取商品的信息并插入excel:

首先介绍一个re库:

re库是python的标准库

re库采用rawstring类型表示正则表达式,表示为:r'test'

原生字符串(rawstring)是不包含转义符的字符串。

Re库主要功能函数如下:

这里我们使用findall()函数提取信息,比如:

a=re.findall(r'"raw_title":"(.*?)"',html)defGetandintoExcel(html):globalcount#商品名称a=re.findall(r'"raw_title":"(.*?)"',html)#店铺名称b=re.findall(r'"nick":"(.*?)"',html)#商品价格c=re.findall(r'"view_price":"(.*?)"',html)#地区d=re.findall(r'"item_loc":"(.*?)"',html)#销售量e=re.findall(r'"view_sales":"(.*?)"',html)x=[]foriinrange(len(a)):try:x.append((a[i],b[i],c[i],d[i],e[i]))exceptIndexError:breaki=0foriinrange(len(x)):worksheet.write(count+i+1,0,x[i][0])worksheet.write(count+i+1,1,x[i][1])worksheet.write(count+i+1,2,x[i][2])worksheet.write(count+i+1,3,x[i][3])worksheet.write(count+i+1,4,x[i][4])count=count+len(x)returnprint("数据爬取完成")

主函数如下:

,"data":{"postFeeText":"运费","trace":"msrp_auction","auctions":[{"p4p":1,"p4pSameHeight":true,"nid":"536766094512","category":"","pid":"","title":"近视u003cspanclassu003dHu003e眼镜u003c/spanu003e男有度数超轻全框u003cspanclassu003dHu003e眼镜u003c/spanu003e框半框舒适可配u003cspanclassu003dHu003e眼镜u003c/spanu003e防雾眼睛近视镜","raw_title":"丹阳眼镜眼镜框眼镜架眼睛框防辐射光学镜","pic_url":"//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i2/104870285060645671/TB2ulgla4vzQeBjSZPfXXbWGFXa_!!0-saturn_solar.jpg"0

最后运行程序:

以上就是如何使用python爬取淘宝信息的内容,全部代码如下:

(q,x):url="https://s.taobao.com/search?q="+q+"&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm""=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306"urls=[]urls.append(url)ifx==1:returnurlsforiinrange(1,x):url="https://s.taobao.com/search?q="+q+"&commend=all&ssid=s5-e&search_type=item""&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306""&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="+str(i*44)urls.append(url)returnurlsdefGetHtml(url):r=requests.get(url,headers=headers)r.raise_for_status()r.encoding=r.apparent_(html):globalcounta=re.findall(r'"raw_title":"(.*?)"',html)b=re.findall(r'"nick":"(.*?)"',html)c=re.findall(r'"view_price":"(.*?)"',html)d=re.findall(r'"item_loc":"(.*?)"',html)e=re.findall(r'"view_sales":"(.*?)"',html)x=[]foriinrange(len(a)):try:x.append((a[i],b[i],c[i],d[i],e[i]))exceptIndexError:breaki=0foriinrange(len(x)):worksheet.write(count+i+1,0,x[i][0])worksheet.write(count+i+1,1,x[i][1])worksheet.write(count+i+1,2,x[i][2])worksheet.write(count+i+1,3,x[i][3])worksheet.write(count+i+1,4,x[i][4])count=count+len(x)returnprint("数据爬取完成")if__name__=="__main__":count=0headers={"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.0.3987.149Safari/537.36","cookie":"t=;sgcookie=E100VfIm5WNNIHQbxK40GoWlA%2BiEh8%%3D%3D;tracknick=%5Cu5C0F%5Cu5C0F%5Cu5C0F%5Cu5C0F%5Cu54466;_cc_=UtASsssmfA%3D%3D;thw=cn;enc=l%%2F4%2FN%2FROmEcqBpM4Uk%2FlCcbvHxEX4HhA%3D%3D;cna=E7gdGOrz1lwCAXOs+dCyLVoL;_m_h5_tk=_1606566002810;_m_h5_tk_enc=;cookie2=;v=0;_tb_token_=0a7840e5536b;JSESSIONID=;alitrackid=www.taobao.com;lastalitrackid=www.taobao.com;hng=CN%7Czh-CN%7CCNY%7C156;xlly_s=1;_samesite_flag_=true;tfstk=-7AiGgoy0ZkfSPvIBC..;l=eBjdYUdPOiL-v4n5U62j-la_kmn;isg=BE5OFMfVnXt4DynJaP_rUvlZnyQQzxLJN80UA3iXutEM2-414F9i2fSZEwe3Qwrh"}q=input("你想爬取的商品是:")x=int(input("你想爬取几页数据:"))urls=Geturls(q,x)workbook=xlsxwriter.Workbook(q+".xlsx")worksheet=workbook.add_worksheet()worksheet.set_column('A:A',70)worksheet.set_column('B:B',40)worksheet.set_column('C:C',20)worksheet.set_column('D:D',20)worksheet.set_column('E:E',20)worksheet.write('A1','商品名称')worksheet.write('B1','店铺名称')worksheet.write('C1','价格')worksheet.write('D1','地区')worksheet.write('E1','付款人数')xx=[]forurlinurls:html=GetHtml(url)s=GetandintoExcel(html.text)time.sleep(5)workbook.close()4再说一句:反爬虫

最后说一下爬虫的合法性。几乎每一个网站都有一个名为robots.txt的文档,当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有robots.txt文档,就要判断是否有禁止访客获取的数据。以网络为例,在浏览器中访问https://www..com/robots.txt。

可以看到网络可以允许部分爬虫访问它的部分路径,而对于没有得到允许的用户,则全部禁止爬取的,代码如下:

,"data":{"postFeeText":"运费","trace":"msrp_auction","auctions":[{"p4p":1,"p4pSameHeight":true,"nid":"536766094512","category":"","pid":"","title":"近视u003cspanclassu003dHu003e眼镜u003c/spanu003e男有度数超轻全框u003cspanclassu003dHu003e眼镜u003c/spanu003e框半框舒适可配u003cspanclassu003dHu003e眼镜u003c/spanu003e防雾眼睛近视镜","raw_title":"丹阳眼镜眼镜框眼镜架眼睛框防辐射光学镜","pic_url":"//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i2/104870285060645671/TB2ulgla4vzQeBjSZPfXXbWGFXa_!!0

Ⅲ 【Python爬虫】网页抓取实例之淘宝商品信息抓取

Python爬虫抓取淘宝商品信息的实例,可以通过调用API接口来实现,具体步骤如下

  1. 获取API调用权限

    • 注册API的key和密钥:首先,需要在淘宝开放平台注册并申请相应的API权限,获取API的key和密钥。这是调用API的必要条件。
  2. 调用API接口

    • 进入API测试页:使用获取的key和密钥,进入淘宝开放平台的API测试页面。
    • 输入商品ID并调用API:在测试页面中,输入想要抓取信息的商品ID,并调用相应的API接口。
  3. 解析API响应

    • 查找sku信息:在API的响应结果中,找到sku信息。sku信息包含了商品的不同规格及其对应的价格和其他详细属性。
    • 解析sku信息:通过解析sku信息,可以获取到不同规格下的商品价格、颜色、套餐、存储容量等详细信息。

重点内容调用API接口:通过注册获取的key和密钥,可以调用淘宝开放平台的API接口,获取商品详情信息。 解析sku信息:sku信息是商品不同规格下的详细信息,通过解析这些信息,可以满足多规格商品信息抓取的需求。

这种方法不仅适用于淘宝,也适用于其他类似电商平台的商品信息抓取,只要这些平台提供了相应的API接口。

阅读全文

与python爬虫淘宝店铺跟踪相关的资料

热点内容
下达命令翻译 浏览:869
怎么编码上传视频不被压缩 浏览:953
荣耀3cre文件夹 浏览:680
拍摄照片可以加密吗 浏览:843
android联系人邮件 浏览:601
抖音上超级福袋app抽奖在哪里 浏览:237
拍一段小视频用什么app 浏览:628
服务器网卡有什么好处 浏览:92
javasql格式化 浏览:613
小爱同学机器人的命令词 浏览:973
检验signature的php示例代码 浏览:173
android内录 浏览:778
腾讯云轻量应用服务器服务商 浏览:178
平板app打不开怎么回事 浏览:319
九号怎么用app控制前后移动 浏览:619
pdf浏览器预览 浏览:697
六一儿童节程序员爸爸 浏览:168
农村电视天线加密 浏览:905
freepdfword 浏览:754
程序员怎么做舔狗 浏览:586