导航:首页 > 编程语言 > python爬虫中文编码

python爬虫中文编码

发布时间:2023-03-14 17:56:50

python 爬虫中文编码转换出错

importurllib
if__name__=='__main__':
enc=r"%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"
string=urllib.unquote(enc).decode('gb2312')
printtype(string),string

这是python2的,简单点。只能帮这么多了。

② Python+requests 爬取网站遇到中文乱码怎么办

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便,一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

③ python爬虫抓下来的网页,中间的中文乱码怎么解决

对于python的中文编码问题可以参考下面的帖子
http://python.jobbole.com/85482/

同时,对于网页的中文乱码,建立使用requests模块代替urllib\urllib2
requests的content方法,对中文编码,支持比较好,基本不会出现乱码。
req=requests.get(url,cookies=mecookies)
print req.content

具体用法,参见下面两个帖子,较详细:
http://blog.csdn.net/iloveyin/article/details/21444613
http://blog.csdn.net/alpha5/article/details/24964009

④ 我在写一个python的网络爬虫,写入记事本的内容都是乱码如何使写入的数据以utf8或者gb2312的码制写入。

我从自己一个utf8的爬虫程序里面摘的。

程序开头:

#!/usr/bin/envpython
#-*-coding:utf8-*-
importurllib
importurllib2
importstring
importre
importsys
type0=sys.getfilesystemencoding()#解决中文乱码问题


后面做抓取程序的时候全部加上decode和encode。

pos1=text.find(term.decode("utf-8").encode(type0))


在输入到txt的时候相应的分隔符也要decode和encode:

f.write(info+'!'.decode("utf-8").encode(type0))


希望能帮到你。

⑤ python爬虫爬到的中文乱码怎么办

爬到的内容,肯定是某种编码格式(utf-8/gb2312等)的字符串。只需要对它相应的decode一下就可以了。
比如:如果网页内容是utf-8编码的,就:'xxx'.decode('utf-8');
如果是gb2312编码的,就:'xxx'.decode('gb2312')

⑥ python编写爬虫爬到的中文字符总是乱码,r.encoding也不行

这个页面是gb2312编码的,不是utf-8

阅读全文

与python爬虫中文编码相关的资料

热点内容
薯仔app下载了怎么注册 浏览:843
云服务器一般租多大 浏览:469
屏幕录制app怎么样 浏览:686
义乌市联DNS服务器地址 浏览:669
App二级页面怎么做 浏览:956
提高pdf清晰度 浏览:979
服务器网卡mac地址怎么查 浏览:114
裁决之地服务器为什么这么卡 浏览:597
民生app怎么查保险 浏览:467
单片机蓝牙驱动代码 浏览:467
php实现多选后公开 浏览:645
map中的值为数组的怎么编程 浏览:261
加密货币怎么登录 浏览:1002
如何看本机服务器实例名 浏览:388
变频器加密密码 浏览:796
美国银行加密市场 浏览:384
我的世界服务器如何tp玩家 浏览:26
app下载统计怎么找 浏览:264
荔枝app怎么看适合自己的发型 浏览:371
魔兽世界client文件夹 浏览:541