A. 问题如图所示(用python,解答全过程)
安装必要的库和工具:requests, BeautifulSoup4, lxml, openpyxl
python
Copy code
pip install requests beautifulsoup4 lxml openpyxl
发送 GET 请求,获取网页源代码
python
Copy code
import requests
url = "https://ssr1.scrape.center/"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}
response = requests.get(url, headers=headers)
html = response.text
使用 BeautifulSoup 解析网页源代码,提取所需字段
python
Copy code
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "lxml")
items = soup.find_all("div", class_="item")
for item in items:
title = item.find("h2").text.strip()
url = item.find("a")["href"]
cover = item.find("img")["纤陆src"]
category = item.find("div", class_="categories").a.text.strip()
published_at = item.find("div", class_="published-at").text.strip()
# 将结果保存到 Excel 文件
使用 openpyxl 库将结果保存到 Excel 文件中
python
Copy code
from openpyxl import Workbook
workbook = Workbook()
sheet = workbook.active
sheet.title = "Scraped Data"
# 写入表头
sheet.append(["Title", "URL", "Cover", "Category", "Published At"])
# 写入数据
for item in items:
title = item.find("h2").text.strip()
url = item.find("a")["href"]
cover = item.find("img")["src"]
category = item.find("div", class_="categories").a.text.strip()
published_at = item.find("div", class_="published-at").text.strip()
row = [title, url, cover, category, published_at]
sheet.append(row)
# 保存 Excel 文件
workbook.save("scraped_data.xlsx")
以上就是一个简单的 Python 爬虫实现,可以将网页中的数据提取出来,存储到睁枝 Excel 文件中。需要注意的是,网站可能会有反爬虫机制,为了避免被封 IP,建议使毁早顷用代理 IP、随机 User-Agent 等措施。
B. 如何用产品id索引爬取标签内的产品各项标题链接价格 python
产品id索引爬取标签内的产品各项标题链接价格 python可以使用网页请求方式:最常见的方式,一般用于获取或者查询资源信息,也是大多数网站使用的方式,响应速度快,或者多以表单形式上传参数,因此除了查询信息外,还可以修改信息。
另外可以以开发者的身份进入网站进行价格查询,打开网页,用开发者模式,任意复制一条首条新闻标题,粘贴到搜索框里。开发者模式,依次点击‘network’,‘XHR’找到翻译数据,点击Headers,请求为get方式,使用Beautiful soup解析网页,然后再安装bs。
Beautiful soup 指定xlml解析器进行解析,soup=BeautifulSoup(strhtml.text,'lxml'使用select(选择器)定位数据,使用浏览器的开发者模式,将鼠标停留在对应数据位置并右击。
开发者界面会有被选中部分,右击 ---> selector; 将路径粘贴在文档中,代码如下#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a。
这是选中的第一条路径,但我们要获取所有的新闻头条,因此将:li:nth-child(1)中冒号(包含冒号)后面的删掉。如下:#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a,然后就可以直接查询了。
C. python中lxml这个库主要是干什么的
1、lxml是XML和HTML的解析器,
2、其主要功能是解析和提取XML和HTML中的数据;
3、lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息
D. python使用xpath(超详细)
使用时先安装 lxml 包
开始使用 #
和beautifulsoup类似,首先我们需要得到一个文档树
把文本转换成一个文档树对象
from lxml import etreeif __name__ == '__main__':doc='''
把文件转换成一个文档树对象
fromlxmlimportetree# 读取外部文件 index.htmlhtml = etree.parse('./index.html')result = etree.tostring(html, pretty_print=True)#pretty_print=True 会格式化输出print(result)
均会打印出文碧态档内容
节点、元素、属性、内容 #
xpath 的思想是通过 路径表达 去寻找节点。节点包括元素,属性,和内容
元素举例
html --->...div --->
这里我们可以看到,这里的元素和html中的标签一个意思。单独的元素是无法表达一个路径的,所以单独的元素不能独立使用
路径表达式 #
/ 根节点,节点分隔符,// 任意位置. 当前节点.. 父级节点@ 属性
通配符 #
* 任意元素@* 任意属性node() 任意子节点(元素,属性,内悔老源容)
谓语 #
使用中括号来限定元素,称为谓语
//a[n] n为大于零的整数,代表子元素排在第n个位置的 元素//a[last()] last() 代表子元素排在最后个位置的 元素//a[last()-] 和上面同理,代表倒数第二个//a[position()<3] 位置序号小于3,也就是前两个,这里我们可以看出xpath中的序列是从1开始//a[@href] 拥有href的 元素//a[@href='www..com'] href属性值为'www..com'的 元素//book[@price>2] price值大于2的元素
多个路含蠢径 #
用| 连接两个表达式,可以进行 或匹配
//book/title | //book/price
函数 #
xpath内置很多函数。更多函数查看 https://www.w3school.com.cn/xpath/xpath_functions.asp
contains(string1,string2)
starts-with(string1,string2)
ends-with(string1,string2) #不支持
upper-case(string) #不支持
text()
last()
position()
node()
可以看到last()也是个函数,在前面我们在谓语中已经提到过了
案例 #
定位元素 #
匹配多个元素,返回列表
fromlxmlimportetreeif__name__ =='__main__':doc='''
【结果为】
[<Element li at 0x2b41b749848>, <Element li at 0x2b41b749808>, <Element li at 0x2b41b749908>, <Element li at 0x2b41b749948>, <Element li at 0x2b41b749988>][] #没找到p元素
html = etree.HTML(doc)print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))print(html.xpath("//li[@class='item-inactive']")[0].text)print(html.xpath("//li[@class='item-inactive']/a")[0].text)print(html.xpath("//li[@class='item-inactive']/a/text()"))print(html.xpath("//li[@class='item-inactive']/.."))print(html.xpath("//li[@class='item-inactive']/../li[@class='item-0']"))
【结果为】
b' third item \n 'None #因为第三个li下面没有直接text,Nonethird item #['third item'][<Element ul at 0x19cd8c4c848>][<Element li at 0x15ea3c5b848>, <Element li at 0x15ea3c5b6c8>]
使用函数 #
contains #
有的时候,class作为选择条件的时候不合适@class='....' 这个是完全匹配,当王爷样式发生变化时,class或许会增加或减少像active的class。用contains就能很方便
from lxml import etreeif __name__ == '__main__':doc='''
【结果为】
[<Element p at 0x23f4a9d12c8>, <Element li at 0x23f4a9d13c8>, <Element li at 0x23f4a9d1408>, <Element li at 0x23f4a9d1448>, <Element li at 0x23f4a9d1488>]
starts-with #
from lxml import etreeif __name__ == '__main__':doc='''
【结果为】
[<Element ul at 0x23384e51148>, <Element p at 0x23384e51248>, <Element li at 0x23384e51288>, <Element li at 0x23384e512c8>, <Element li at 0x23384e51308>, <Element li at 0x23384e51388>][<Element ul at 0x23384e51148>]
ends-with #
print(html.xpath("//*[ends-with(@class,'ul')]"))
【结果为】
Traceback (most recent call last):File"F:/OneDrive/pprojects/shoes-show-spider/test/xp5_test.py",line18,inprint(html.xpath("//*[ends-with(@class,'ul')]"))File"src\lxml\etree.pyx",line1582,inlxml.etree._Element.xpathFile"src\lxml\xpath.pxi",line305,inlxml.etree.XPathElementEvaluator.__call__File"src\lxml\xpath.pxi",line225,inlxml.etree._XPathEvaluatorBase._handle_resultlxml.etree.XPathEvalError: Unregisteredfunction
看来python的lxml并不支持有的xpath函数列表
upper-case #
和ends-with函数一样,也不支持。同样报错lxml.etree.XPathEvalError: Unregistered function
print(html.xpath("//a[contains(upper-case(@class),'ITEM-INACTIVE')]"))
text、last #
#最后一个li被限定了print(html.xpath("//li[last()]/a/text()"))#会得到所有的`<a>`元素的内容,因为每个<a>标签都是各自父元素的最后一个元素。#本来每个li就只有一个<a>子元素,所以都是最后一个print(html.xpath("//li/a[last()]/text()"))print(html.xpath("//li/a[contains(text(),'third')]"))
【结果为】
['fifth item']['second item', 'third item', 'fourth item', 'fifth item'][<Element a at 0x26ab7bd1308>]
position #
print(html.xpath("//li[position()=2]/a/text()"))#结果为['third item']
上面这个例子我们之前以及讲解过了
* 这里有个疑问,就是position()函数能不能像text()那样用呢
print(html.xpath("//li[last()]/a/position()"))#结果 lxml.etree.XPathEvalError: Unregisteredfunction
这里我们得到一个结论,函数不是随意放在哪里都能得到自己想要的结果
node #
返回所有子节点,不管这个子节点是什么类型(熟悉,元素,内容)
print(html.xpath("//ul/li[@class='item-inactive']/node()"))print(html.xpath("//ul/node()"))
【结果为】
[]['\n ', , '\n ', , '\n ', , '\n ', , '\n ', , ' 闭合标签\n ']
获取内容 #
**刚刚已经提到过,可以使用.text和text()的方式来获取元素的内容
from lxml import etreeif __name__ == '__main__':doc='''
【结果为】
['first item','second item','third item','fourth item','fifth item']first item18['\n ','\n ','\n ','\n ','\n ',' 闭合标签\n ']
看到这里,我们观察到text()和.text的区别。自己总结吧。不太好表达,就不表达了
获取属性 #
print(html.xpath("//a/@href"))print(html.xpath("//li/@class"))
【结果为】
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']['item-0active', 'item-1', 'item-inactive', 'item-1', 'item-0']
自定义函数 #
我们从使用函数的过程中得到结论,就是有的函数不支持,有的支持,那问题来了,到底那些方法支持呢。我们在lxml官网找到了答案。 https://lxml.de/xpathxslt.html 。lxml 支持XPath 1.0 ,想使用其他扩展,使用libxml2,和libxslt的标准兼容的方式。 XPath 1.0官方文档 以及其他版本的XPath文档 https://www.w3.org/TR/xpath/
lxml supports XPath1.0, XSLT1.0andthe EXSLT extensions through libxml2andlibxsltina standards compliant way.
除此之外,lxml还提供了自定义函数的方式来扩展xpath的支持度 https://lxml.de/extensions.html
from lxml import etree#定义函数def ends_with(context,s1,s2):return s1[0].endswith(s2)if __name__ == '__main__':doc='''
【结果为】
[<Element li at 0x2816ed30548>, <Element li at 0x2816ed30508>]['first item', 'third item']
形参s1会传入xpath中的第一个参数@class,但这里注意@class是个列表
形参s2会传入xpath中的第二个参数'active','active'是个字符串
官网例子 https://lxml.de/extensions.html
defhello(context, a):return"Hello %s"% afromlxmlimportetreens = etree.FunctionNamespace(None)ns['hello'] = helloroot = etree.XML('<a><b>Haegar</b></a>')print(root.xpath("hello('Dr. Falken')"))# 结果为 Hello Dr. Falken
E. PyCharm python3.9,from lxml import etree报错
问题:PyCharm python3.9,from lxml import etree报错,报错内容:ImportError: DLL load failed while importing etree: 找不到指定的程序。
解决办法(在PyCharm中 更换python3.7和lxml==4.6.5版本 ):
终端:pip install lxml==4.6.5
注意一点:当出现ImportError: cannot import name 'etree' from 'lxml'报神桥错时,查看一下春码自己有没有游森猛命名为lxml.py的文件,修改为其它的名称即可。
F. python参数如果是xml字符串,该怎么写
调用Python脚本时传递XML字符串作为参数可能会导致错误,因为某些特殊字符可能被操作系统或Python解释器解释为命令或代码。为配备升了避免这个问题,可以将XML字符串作为滚枝一个文本文件传递,或者使用base64编码将字符串编码为非特殊字符。下面是两种方法的示例。
方法一:将XML字符串保存到文件,并将文件名作为参数传递:
将XML字符串保存到一个文件,例如input.xml。
修改Python脚本以接受文件名培老作为参数:
import sys
import xml.etree.ElementTree as ET
filename = sys.argv[1]
with open(filename, 'r') as file:
xml_string = file.read()
xml_root = ET.fromstring(xml_string)
调用脚本时传递文件名:python xxx.py input.xml
方法二:使用base64编码:
对XML字符串进行base64编码:
import base64
xml_string = '<?xml version="1.0" encoding="UTF-8"?>...'
encoded_xml = base64.b64encode(xml_string.encode()).decode()
修改Python脚本以接受base64编码的字符串作为参数:
import sys
import base64
import xml.etree.ElementTree as ET
encoded_xml = sys.argv[1]
decoded_xml = base64.b64decode(encoded_xml.encode()).decode()
xml_root = ET.fromstring(decoded_xml)
调用脚本时传递base64编码的字符串:python xxx.py "base64_encoded_string"
以上两种方法都可以有效地避免在传递XML字符串时产生的错误。请根据实际需求选择合适的方法。
G. Python lxml包下面的xpath基本用法
对于网页数据抓取,有BeautifulSoup、lxml以及正则表达式三种方法,其中正则表达式过于复杂,而beautifulsoup和lxml使用起来较为方便。以前简单使用过beautifulsoup(美味汤),后面为了扩展一下,熟悉一下lxml进行数据抓取。
先贴一个lxml的简仿早单框架:
其中,最主要的在于xpath路径的获取和解析,而XPath就是地址,具体地,就是需要知道所要寻找的内容处在哪个地址下。一般而言,我们可以根据开发者工具来定位我们需要的元素,然后右击选择其所在xpath,选择初步的路径,如下图所示,
这只是一种简单的方法,更重要的,需要掌握xpath的语法规则,下面分别论述。
使用xpath获取信息,主要包括获取本文和获取属性,基本用法为
对比可以看出,一个是采用text()获取文本,一个是采用@属性获取属性值。而前面标签后面方括号就是来对标签进行筛选的。一般而言,通过选择器可以获取诸如/html/body/div[@class="useful"]/ul/li/text()的信息,但是开头的信息没有标志性,采用//div[@class="useful"]/ul/li/text()即可。
这个地方即涉及到了xpath的语法选择,主要包括以下几点:
而在选择器方备缓雀面,包括以下几个
除此之外,在获取了一个元素之后,我们需要获取其下面元素的属性,即要对基于xpath获取的元素再次采用xpath,此时的获取方式为:
另外,我们也可以获取节点下面所有的字符串,方法为string(.),示例为:
懒得打字了,下面的截图来自W3Cschool, https://www.w3cschool.cn/lxml/_lxml-98h23fk0.html
主要的Xpath运算符包括以下:
按顺序选择等进一步的内容可以移步 https://www.w3cschool.cn/lxml/_lxml-eh1k3fk6.html
具体到不同的网页上,需要的其他哪陆知识就更多了,慢慢补充吧。不过似乎还是beautifulsoup好用一些,哈哈。
参考资料:
https://blog.csdn.net/weixin_39851008/article/details/109960957
https://www.w3cschool.cn/lxml/_lxml-98h23fk0.html
H. Python3.10版 Win1064位无法安装lxml库
在练习xpath时,需要安装lxml模块,报错需要 Microsoft Visual C++ 14.0 吐槽一些教程:pip install wheel,安装无效果的 环境 window 10 python3 重装系统后,安装了最新的Python3.8.1,当使用pip安装lxml库的时候报错Microsoft Visual C++ 14.0 is required,
前提是:1.已安装python,2. 已安装好pip,3.已将python安装目录下的scripts目录(如D:\Python35\Scripts)添加到系统环境变量path里。
方法一:打开cmd,输入pip install lxml。如果安装成功的话,可以不用往下看了,人品太好了。通常呢,都会遇到各种错误,不是这不对,就是那里错,反正就是各种安装不了。
方绝蚂含法二:基本上,进到这里来看的人,应该都是已经掉到坑里的,所以直接从这里看起就可以。推并笑荐通过物宴lxml的.whl文件来进行安装。
I. python中lxml模块怎么导入
这个模块是第三方模块,需要先安装再导入。
安装:终端命令界面下,pip install lxml(安装过程中如果提示需要其他哪个库,需要先装提示的库,再装lxml)。
如果使用pip安装失败,到pypi社区官网下载压缩包解压,终端界面进入其目录(当前目录有个叫“setup.py”就对了),用命令 python setup install 就行。
导入:import lxml 即可