① python如何保存網頁天氣預報並保存為csv
你可以通過爬蟲技術將數據全部爬取下來,然後存放在DataFrame中,最後用.to_csv來保存
② python網路爬蟲可以幹啥
Python爬蟲開發工程師,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那麼網路蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。爬蟲就是自動遍歷一個網站的網頁,並把內容都下載下來
③ python編寫爬蟲小程序的方法
我們可以通過python 來實現這樣一個簡單的爬蟲功能,把我們想要的代碼爬取到本地。下面就迅判看
看如何使用python來實現這樣一個功能。
起因
深夜忽然想下載一點電子書來擴充一下kindle,就想起來python學得太淺,什麼「裝飾器」啊、「多線程」啊都沒有學到。
想到廖雪峰大神的python教程很經典、很著名。就想找找有木有pdf版的下載差判,結果居然沒找到!!CSDN有個不完整的還騙走了我一個積分!!尼瑪!!
怒了,准備寫個程序直接去爬廖雪峰的教程,然後再html轉成電子書。
過程
過程很有趣呢,用淺薄的python知識,寫python程序,去爬python教程,來學習python。想想有點小激動
果然python很是方便,50行左右就OK了。直接貼代碼:
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
# coding:utf-8
import urllib
domain =
#廖雪峰的域名
path = rC:Userscyhhao2013Desktoptemp #html要保存的路徑
# 一個html的頭文件
input = open(rC:Userscyhhao2013Desktop.html, r)
head = input.read()
# 打開python教程主界面
f = urllib.urlopen(/wiki/)
home = f.read()
f.close()
# 替換所有空格回車(這樣容易好獲取url)
geturl = home.replace(n, )
geturl = geturl.replace( , )
# 得到包含url的字元串
list = geturl.split(rem;ahref=)[1:]
# 強迫畝慶改症犯了,一定要把第一個頁面也加進去才完美
list.insert(0, /wiki/)
# 開始遍歷url List
for li in list:
url = li.split(r)[0]
url = domain + url #拼湊url
print url
f = urllib.urlopen(url)
html = f.read()
# 獲得title為了寫文件名
title = html.split(title)[1]
title = title.split( - 廖雪峰的官方網站/title)[0]
# 要轉一下碼,不然加到路徑里就悲劇了
title = title.decode(utf-8).replace(/,)
# 截取正文
html = html.split(r!-- block main --)[1]
html = html.split(rh4您的支持是作者寫作最大的動力!/h4)[0]
html = html.replace(rsrc=, src= + domain)
# 加上頭和尾組成完整的html
html = head + html+/body/html
# 輸出文件
output = open(path + %d % list.index(li) + title + .html, w)
output.write(html)
output.close()
簡直,人生苦短我用python啊!
以上所述就是本文的全部內容了,希望大家能夠喜歡。