1. python打開網頁並另存為靜態html怎麼實現
用Python的requests庫解決這個問題比較簡單,常式如下:
importsys
importrequests
reload(sys)
sys.setdefaultencoding('utf-8')
r=requests.get('xxx網址')
fh=open('test.html','w')
fh.write(r.text)
fh.close()
說明一下,requests庫不是Python內置的,不過很流行,很多發行版都帶,沒帶的話就去requests官網去下載,或者用 pip install requests命令安裝最新版。
這個程序里在保存文件前,還需要把字元編碼設置一下,用的是自帶的sys庫。
2. 如何在python創建兩個用來保存某一個網頁的所有鏈接 一個用來保存所有已經已經瀏覽過的鏈接。 一
#2個列表存儲,a存未瀏覽的,b存已瀏覽的:
a=[url1, url2, url3]
b=[]
#如果,瀏覽一個網址就像這樣操作一下:
b.append(a.pop(0))
3. python爬蟲怎麼另存網頁代碼
步驟分為這幾步
1發送一個請求
2分析獲取請求的url地址,參數
3處理參數並發送請求,獲取響應
4把得到的響應保存文件
4. Python 製作網頁打不開 直接跳到打開或者保存文件
需要對Lighttpd進行配置,指明py文件是作為cgi程序運行的。
修改配置文件:/etc/lighttpd/lighttpd.conf
在以下小節內添加python內容:
server.moles = ( "mod_cgi", )
cgi.assign = (
".py" => "/usr/bin/python"
)
5. 如何用python實現對(網頁)百度網盤的保存資源等操作
為何要處理javascript呢?
http://developer..com/wiki/index.php?title=docs/pcs/rest/file_data_apis_list
6. 用python抓取的網頁保存後為什麼亂碼
從你給的代碼來是Python2。我下面給一個基於Python3的代碼,可以參考一下:
romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)
大概的原理是,在Python3下面,抓取到的頁面默認是byte類型的(通過第4行輸出的結果就可以看出來),我們需要根據網頁的實際編碼進行處理。本例中給的網頁使用的是gb2312。所以,我要先以gbk的格式進行解碼(gbk包含了gb2312,能夠表示更多的漢語字元),解碼後實際上得到的就是unicode碼了,由於我的控制台編碼設置的是utf8,在列印時系統會自動將字元串從unicode轉為utf8,所以第6行控制台列印結果正常;第7行寫入文件時也要指定文件的編碼格式,我這里選擇的是utf8,當然用gbk也是一切正常的,因為這個編碼設置的是保存文件的編碼,而不是原來那個網頁內容的編碼了。字元串編碼和文件編碼不是一回事。打開ccnu.txt發現無亂碼。
Python2的代碼我不熟。
建議你也在代碼中添加print 看控制輸出是否正常。如果控制台輸出正常,則有可能是在保存頁面文件時,沒有正確指定內容字元串的encode格式。或者把所有gb2312換為gbk再試試。
反正Python2下面極容易出現漢字亂碼,如果能理解編碼encode和解碼decode的含義,了解Python2的字元串處理過程,就可以避免這些問題。
7. python如何定時提取網頁信息並自動保存
有現成的工具可以自動提取保存,比如mutoubrowse也可以定時保存。
8. python如何保存網頁天氣預報並保存為csv
你可以通過爬蟲技術將數據全部爬取下來,然後存放在DataFrame中,最後用.to_csv來保存