pythonget中文乱码_Python+requests 爬取网站遇到中文乱码怎么办

㈠ python中文显示乱码，已经在开头有了coding: utf-8

你可能会遇到Python程序中中文显示乱码的问题，这通常是由于你的操作系统默认编码格式与Python程序的编码格式不一致所导致的。

尽管如此，几乎所有的现代操作系统都支持Unicode编码，因此，你可以通过在字符串前加一个'u'前缀来解决这个问题。

解决这个问题有两种主要的方法。第一种方法是修改操作系统的默认编码格式。例如，在Windows系统中，你可以通过命令行命令将其设置为UTF-8编码格式。具体操作步骤是，在命令提示符中输入以下命令：

chcp 65001

第二种方法是在Python文件中使用Python内置的方法（decode和encode）将文本解码和编码转换为Windows系统的默认编码格式，如GBK。如果你使用的是其他操作系统，你需要自行查找该系统的默认编码格式。

需要注意的是，这种方法需要你对编码格式有一定的了解。如果你不熟悉，可以通过在线资源学习如何识别和修改不同操作系统的默认编码格式。

总之，通过上述两种方法中的任一种，都可以有效地解决Python程序中出现的中文显示乱码问题。

㈡前端是vue，后台用的python。前台get请求url中有中文，后台看到链接地址变成了乱码

传递之前先把汉字跟标点符号之类转成urlcode
js代码

encodeURIComponent("哈哈哈哈哈");
输出"%E5%93%88%E5%93%88%E5%93%88%E5%93%88%E5%93%88"

py代码使用urllib将urlcode编码解码

from urllib import parse
get = "%E5%93%88%E5%93%88%E5%93%88%E5%93%88%E5%93%88"
print(parse.unquote(get))
输出"哈哈哈哈哈"

㈢ Python+requests 爬取网站遇到中文乱码怎么办

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url='http//www.pythonscraping.com/'
req= requests.get(url)
print(req.text)
tree= html.fromstring(req.text)
print(tree.xpath("//h1[@class='title']/text()"))
上面的代码段起作用的也就3行（2,4,5）代码就获取到我们想要的内容。当然还要导入一系列的包，比如说requests、lxml、html等。当然由于http//www.pythonscraping.com/是英文网站，不存在中文乱码问题。

1.2 麻烦的开始

本来当时的想法是写一些基础模块，方便之后开发的时候调用，减少重复性工作。为了保证代码在任何情况下都不会出现bug，所以想着用同样的代码爬取中文网站获取里面的文字

修改上面代码中的两行代码：

点击(此处)折叠或打开

url='http://sports.sina.com.cn/g/premierleague/index.shtml'
print(tree.xpath("//span[@class='sec_blk_title']/text()"))
运行程序可以发现，在语句print(req.text)输出的内容中，中文字体已经是乱码了。最后的结果输出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']

2 乱码解决办法

2.1 试错

由于之前爬取csdn上一个网页没有出现乱码问题，但是在sina体育网站上出现了乱码，所以当时以为不是编码问题，以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性，但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。

总结：参考上述文献，结果还是没有解决问题，但是就考虑是不是方向错了。不过这部分工作也没有白做，很多网站返回数据都会有压缩问题，之后的工作中也能用上。

2.2 乱码终极解决办法

后来查阅官方文档中response-content相关内容，说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测，前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了，如果你创建了自己的编码，并使用codecs模块进行注册，你就可以轻松地使用这个解码器名称作为r.encoding的值，然后由Requests来为你处理编码。（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。）

另一份官方文档片段明确说了reponse编码处理方式：

Requests遵循RFC标准，编码使用ISO-8859-1 。

只有当HTTP头部不存在明确指定的字符集，并且Content-Type头部字段包含text值之时， Requests才不去猜测编码方式。

现在直接上实验结果，在原始代码中添加以下代码片段：

点击(此处)折叠或打开

print(req.headers['content-type'])
print(req.encoding)
print(req.apparent_encoding)
print(requests.utils.get_encodings_from_content(page_content.text))
输出结果分别是：

text/html

ISO-8859-1#response内容的编码

utf-8#response headers里设置的编码

['utf-8']#response返回的html header标签里设置的编码

返回的内容是采用‘ISO-8859-1’，所以出现了乱码，而实际上我们应该采用‘utf-8’编码

总结：当response编码是‘ISO-8859-1’，我们应该首先查找response header设置的编码；如果此编码不存在，查看返回的Html的header设置的编码，代码如下：

点击(此处)折叠或打开

if req.encoding=='ISO-8859-1':
encodings= requests.utils.get_encodings_from_content(req.text)
if encodings:
encoding= encodings[0]
else:
encoding= req.apparent_encoding
encode_content= req.content.decode(encoding,'replace').encode('utf-8','replace')

热点内容

服务器如何调用全部cpu计算发布：2025-04-23 03:23:25 浏览：80

如何搜索AppID 发布：2025-04-23 03:23:23 浏览：788

组装电脑水冷解压发布：2025-04-23 02:54:10 浏览：276

珠海存储服务器地址怎么找发布：2025-04-23 02:38:43 浏览：413

md5算法字符串长度发布：2025-04-23 02:31:01 浏览：5

可以二次虚化的云服务器发布：2025-04-23 02:30:54 浏览：779

思科2500编程器固件发布：2025-04-23 02:30:53 浏览：236

php开发桌面应用程序发布：2025-04-23 02:26:38 浏览：905

支付宝app哪里可以加油发布：2025-04-23 02:18:06 浏览：71

路由器ttl刷编程器固件发布：2025-04-23 02:07:56 浏览：719

纵向加密密钥协商状态时间发布：2025-04-23 01:57:38 浏览：851

mc花雨庭服务器有些什么发布：2025-04-23 01:57:26 浏览：809

linux制作网页发布：2025-04-23 01:54:33 浏览：19

xlsx加密忘记了怎么办发布：2025-04-23 01:43:29 浏览：999

app湖北农信怎么解约发布：2025-04-23 01:43:28 浏览：426

在线编程教育项目发布：2025-04-23 01:42:08 浏览：759

电信采购5万台服务器干什么用发布：2025-04-23 01:41:57 浏览：201

腾讯云服务器登录地址发布：2025-04-23 01:37:15 浏览：988

程序员在地铁上写字发布：2025-04-23 01:36:26 浏览：555

解压包未知文件格式怎么办发布：2025-04-23 01:36:17 浏览：579

导航:首页 > 编程语言 > pythonget中文乱码

pythonget中文乱码

与pythonget中文乱码相关的资料