导航:首页 > 编程语言 > python保存完整网页

python保存完整网页

发布时间:2023-02-28 07:41:08

1. python打开网页并另存为静态html怎么实现

用Python的requests库解决这个问题比较简单,例程如下:


importsys
importrequests

reload(sys)
sys.setdefaultencoding('utf-8')

r=requests.get('xxx网址')
fh=open('test.html','w')
fh.write(r.text)
fh.close()


说明一下,requests库不是Python内置的,不过很流行,很多发行版都带,没带的话就去requests官网去下载,或者用 pip install requests命令安装最新版。


这个程序里在保存文件前,还需要把字符编码设置一下,用的是自带的sys库。

2. 如何在python创建两个用来保存某一个网页的所有链接 一个用来保存所有已经已经浏览过的链接。 一

#2个列表存储,a存未浏览的,b存已浏览的:
a=[url1, url2, url3]
b=[]
#如果,浏览一个网址就像这样操作一下:
b.append(a.pop(0))

3. python爬虫怎么另存网页代码

步骤分为这几步
1发送一个请求
2分析获取请求的url地址,参数
3处理参数并发送请求,获取响应
4把得到的响应保存文件

4. Python 制作网页打不开 直接跳到打开或者保存文件

需要对Lighttpd进行配置,指明py文件是作为cgi程序运行的。
修改配置文件:/etc/lighttpd/lighttpd.conf
在以下小节内添加python内容:
server.moles = ( "mod_cgi", )
cgi.assign = (
".py" => "/usr/bin/python"
)

5. 如何用python实现对(网页)百度网盘的保存资源等操作

为何要处理javascript呢?

http://developer..com/wiki/index.php?title=docs/pcs/rest/file_data_apis_list

6. 用python抓取的网页保存后为什么乱码

从你给的代码来是Python2。我下面给一个基于Python3的代码,可以参考一下:

romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是,在Python3下面,抓取到的页面默认是byte类型的(通过第4行输出的结果就可以看出来),我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以,我要先以gbk的格式进行解码(gbk包含了gb2312,能够表示更多的汉语字符),解码后实际上得到的就是unicode码了,由于我的控制台编码设置的是utf8,在打印时系统会自动将字符串从unicode转为utf8,所以第6行控制台打印结果正常;第7行写入文件时也要指定文件的编码格式,我这里选择的是utf8,当然用gbk也是一切正常的,因为这个编码设置的是保存文件的编码,而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。

Python2的代码我不熟。

建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常,则有可能是在保存页面文件时,没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。

反正Python2下面极容易出现汉字乱码,如果能理解编码encode和解码decode的含义,了解Python2的字符串处理过程,就可以避免这些问题。

7. python如何定时提取网页信息并自动保存

有现成的工具可以自动提取保存,比如mutoubrowse也可以定时保存。

8. python如何保存网页天气预报并保存为csv

你可以通过爬虫技术将数据全部爬取下来,然后存放在DataFrame中,最后用.to_csv来保存

阅读全文

与python保存完整网页相关的资料

热点内容
腾讯云如何查看自己的云服务器 浏览:625
电脑加速器服务器地址 浏览:896
android默认启动器 浏览:148
电脑上电子书如何传到安卓手机上 浏览:763
美国科技招聘程序员 浏览:819
网页转pdf工具 浏览:646
rust怎么加载不了服务器 浏览:539
科普编程人的东西 浏览:471
为什么无法验证服务器 浏览:367
压缩报告不要面面俱到 浏览:860
php是哪国货币 浏览:859
什么是合理解压 浏览:155
javaoracle建表 浏览:924
延时的宏命令 浏览:66
视觉中国程序员 浏览:883
程序员性生活为什么这么短 浏览:451
linux命令date 浏览:120
lync2013服务器地址 浏览:786
无犯罪记录从哪个app查 浏览:671
服务器的私有ip是干什么用的 浏览:852