導航:首頁 > 編程語言 > python保存完整網頁

python保存完整網頁

發布時間:2023-02-28 07:41:08

1. python打開網頁並另存為靜態html怎麼實現

用Python的requests庫解決這個問題比較簡單,常式如下:


importsys
importrequests

reload(sys)
sys.setdefaultencoding('utf-8')

r=requests.get('xxx網址')
fh=open('test.html','w')
fh.write(r.text)
fh.close()


說明一下,requests庫不是Python內置的,不過很流行,很多發行版都帶,沒帶的話就去requests官網去下載,或者用 pip install requests命令安裝最新版。


這個程序里在保存文件前,還需要把字元編碼設置一下,用的是自帶的sys庫。

2. 如何在python創建兩個用來保存某一個網頁的所有鏈接 一個用來保存所有已經已經瀏覽過的鏈接。 一

#2個列表存儲,a存未瀏覽的,b存已瀏覽的:
a=[url1, url2, url3]
b=[]
#如果,瀏覽一個網址就像這樣操作一下:
b.append(a.pop(0))

3. python爬蟲怎麼另存網頁代碼

步驟分為這幾步
1發送一個請求
2分析獲取請求的url地址,參數
3處理參數並發送請求,獲取響應
4把得到的響應保存文件

4. Python 製作網頁打不開 直接跳到打開或者保存文件

需要對Lighttpd進行配置,指明py文件是作為cgi程序運行的。
修改配置文件:/etc/lighttpd/lighttpd.conf
在以下小節內添加python內容:
server.moles = ( "mod_cgi", )
cgi.assign = (
".py" => "/usr/bin/python"
)

5. 如何用python實現對(網頁)百度網盤的保存資源等操作

為何要處理javascript呢?

http://developer..com/wiki/index.php?title=docs/pcs/rest/file_data_apis_list

6. 用python抓取的網頁保存後為什麼亂碼

從你給的代碼來是Python2。我下面給一個基於Python3的代碼,可以參考一下:

romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是,在Python3下面,抓取到的頁面默認是byte類型的(通過第4行輸出的結果就可以看出來),我們需要根據網頁的實際編碼進行處理。本例中給的網頁使用的是gb2312。所以,我要先以gbk的格式進行解碼(gbk包含了gb2312,能夠表示更多的漢語字元),解碼後實際上得到的就是unicode碼了,由於我的控制台編碼設置的是utf8,在列印時系統會自動將字元串從unicode轉為utf8,所以第6行控制台列印結果正常;第7行寫入文件時也要指定文件的編碼格式,我這里選擇的是utf8,當然用gbk也是一切正常的,因為這個編碼設置的是保存文件的編碼,而不是原來那個網頁內容的編碼了。字元串編碼和文件編碼不是一回事。打開ccnu.txt發現無亂碼。

Python2的代碼我不熟。

建議你也在代碼中添加print 看控制輸出是否正常。如果控制台輸出正常,則有可能是在保存頁面文件時,沒有正確指定內容字元串的encode格式。或者把所有gb2312換為gbk再試試。

反正Python2下面極容易出現漢字亂碼,如果能理解編碼encode和解碼decode的含義,了解Python2的字元串處理過程,就可以避免這些問題。

7. python如何定時提取網頁信息並自動保存

有現成的工具可以自動提取保存,比如mutoubrowse也可以定時保存。

8. python如何保存網頁天氣預報並保存為csv

你可以通過爬蟲技術將數據全部爬取下來,然後存放在DataFrame中,最後用.to_csv來保存

閱讀全文

與python保存完整網頁相關的資料

熱點內容
五十音圖pdf 瀏覽:865
什麼叫下架伺服器 瀏覽:111
pdf解析度查看 瀏覽:15
如何將word轉pdf 瀏覽:186
我的世界ec伺服器怎麼調配置 瀏覽:259
單片機換標 瀏覽:595
語音系統和方舟編譯器哪個好 瀏覽:316
html用什麼編譯器顯示 瀏覽:185
程序員列印系統 瀏覽:73
安裝系統埠和伺服器地址怎麼看 瀏覽:263
編譯指針 瀏覽:410
用於解壓房款的擔保協議 瀏覽:672
程序員補班 瀏覽:564
組件編譯語言 瀏覽:815
c文件夾怎麼復制 瀏覽:966
linux統計ip流量 瀏覽:997
905減407的豎式演算法 瀏覽:647
我的世界網易版如何查看伺服器種子 瀏覽:632
施工現場臨時水管直徑演算法 瀏覽:5
如何刷新伺服器redis緩存 瀏覽:502