1. python打开网页并另存为静态html怎么实现
用Python的requests库解决这个问题比较简单,例程如下:
importsys
importrequests
reload(sys)
sys.setdefaultencoding('utf-8')
r=requests.get('xxx网址')
fh=open('test.html','w')
fh.write(r.text)
fh.close()
说明一下,requests库不是Python内置的,不过很流行,很多发行版都带,没带的话就去requests官网去下载,或者用 pip install requests命令安装最新版。
这个程序里在保存文件前,还需要把字符编码设置一下,用的是自带的sys库。
2. 如何在python创建两个用来保存某一个网页的所有链接 一个用来保存所有已经已经浏览过的链接。 一
#2个列表存储,a存未浏览的,b存已浏览的:
a=[url1, url2, url3]
b=[]
#如果,浏览一个网址就像这样操作一下:
b.append(a.pop(0))
3. python爬虫怎么另存网页代码
步骤分为这几步
1发送一个请求
2分析获取请求的url地址,参数
3处理参数并发送请求,获取响应
4把得到的响应保存文件
4. Python 制作网页打不开 直接跳到打开或者保存文件
需要对Lighttpd进行配置,指明py文件是作为cgi程序运行的。
修改配置文件:/etc/lighttpd/lighttpd.conf
在以下小节内添加python内容:
server.moles = ( "mod_cgi", )
cgi.assign = (
".py" => "/usr/bin/python"
)
5. 如何用python实现对(网页)百度网盘的保存资源等操作
为何要处理javascript呢?
http://developer..com/wiki/index.php?title=docs/pcs/rest/file_data_apis_list
6. 用python抓取的网页保存后为什么乱码
从你给的代码来是Python2。我下面给一个基于Python3的代码,可以参考一下:
romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)
大概的原理是,在Python3下面,抓取到的页面默认是byte类型的(通过第4行输出的结果就可以看出来),我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以,我要先以gbk的格式进行解码(gbk包含了gb2312,能够表示更多的汉语字符),解码后实际上得到的就是unicode码了,由于我的控制台编码设置的是utf8,在打印时系统会自动将字符串从unicode转为utf8,所以第6行控制台打印结果正常;第7行写入文件时也要指定文件的编码格式,我这里选择的是utf8,当然用gbk也是一切正常的,因为这个编码设置的是保存文件的编码,而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。
Python2的代码我不熟。
建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常,则有可能是在保存页面文件时,没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。
反正Python2下面极容易出现汉字乱码,如果能理解编码encode和解码decode的含义,了解Python2的字符串处理过程,就可以避免这些问题。
7. python如何定时提取网页信息并自动保存
有现成的工具可以自动提取保存,比如mutoubrowse也可以定时保存。
8. python如何保存网页天气预报并保存为csv
你可以通过爬虫技术将数据全部爬取下来,然后存放在DataFrame中,最后用.to_csv来保存