⑴ python 爬蟲時,urllib2.HTTPError:HTTP Error 502:Bad Gateway是什麼原因怎麼解決
可能是那個網站阻止了這類的訪問,只要在請求中加上偽裝成瀏覽器的header就可以了,比如:
headers={
'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-US;rv:1.9.1.6)Gecko/20091201Firefox/3.5.6'
}
req=urllib2.Request(
url="http://www.qiushike.com/imgrank"
,
headers=headers
)
myResponse=urllib2.urlopen(req)
⑵ python爬蟲偽裝瀏覽器發送獲取不到信息,反而去掉偽裝就獲取到了
不要使用self.header,可以輸出一下self.header看看是否在調用正確,望採納
⑶ python2 能使用requests嗎
由於公司要用到模擬用戶登錄,於是用學校圖書館讀者登錄來進行練習。
工具是python2 + requests第三方庫+火狐瀏覽器的firebug進行http抓包
目標 用python成功登錄學校圖書館
接下來幾篇會利用urllib和urllib2標准庫進行登錄
以下為具體步驟:
1 打開學校圖書館網址,以下為登錄界面
綜合以上分析,利用requests庫進行模擬用戶登錄。這里的post參數採用了之前圖片的源碼形式,使得參數順序匹配
import requests
url = "http://210.32.205.60/login.aspx"
# 學校圖書館登錄url
header = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate",
"Accept-Language":"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Connection":"keep-alive",
"Content-Type":"application/x-www-form-urlencoded",
"Host":"210.32.205.60",
"Referer": "http://210.32.205.60/login.aspx",
"Upgrade-Insecure-Requests":"1",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; rv:54.0) Gecko/20100101 Firefox/54.0"
}
body = b'__VIEWSTATE=%uMtIIHXEj%&__VIEWSTATEGENERATOR=C2EE9ABB&__EVENTVALIDATION=%2FwEdAAbAeS%2BByzNg%%2FzVFQdp1z%2BnYWZ%%2BIuKmLNV%%3D%3D&DropDownList1=0&TextBox1=讀者號&TextBox2=密碼&ImageButton1.x=44&ImageButton1.y=12'r = requests.post(url, data=body, headers=header)
print r.text
以上為一次提交,沒有進行重定向截取。
如果想用reque庫截取重定向,在這個圖書館登錄中則需要進行兩次操作,這里相當於只做了post請求,頭部,post參數都不變,只不過在requests.post()內設置了參數
r = requests.post(url, data=body, headers=header, allow_redirects=False)
# 設置 allow_redirects=False 使得禁止重定向
aspid = r.headers["Set-Cookie"] # 返回頁面的頭部的cookie
print r.status_code # 輸出302
如果再想登陸圖書館頁面,那麼需要將cookie重新加入新的url上,進行get請求的提交,此時url為/Default.aspx.
url ="http://210.32.205.60/Default.aspx"
header = {
"Accept": "image/jpeg, application/x-ms-application, image/gif, application/xaml+xml, image/pjpeg, application/x-ms-xbap, */*",
"Referer": "http://210.32.205.60/login.aspx",
"Accept-Language": "zh-CN",
"User-Agent": "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0)",
"Accept-Encoding": "gzip, deflate",
"Host": "210.32.205.60",
"Connection": "Keep-Alive",
"Pragma": "no-cache",
"Cookie": aspid
}
r = requests.get(url=url,headers=header)
print r.status_code
print r.text
接下來的幾篇是利用python2的urllib2和urllib進行相同的模擬用戶登錄。
ps 由於urllib2處理重定向的時候不會將cookie帶上,會導致頁面不能正確爬取,所以要處理重定向。解決urllib重定向文章在此,分別介紹了urllib2自動處理重定向(帶上cookie),和urllib2阻止重定向,返回cookie。
利用urllib2進行自動處理重定向,模擬瀏覽器提交post一次,就可以登錄圖書館的文章在這。
利用urllib2處理重定向,使得重定向截斷,獲取cookie,根據cookie用代碼實現重定向,登錄圖書館的文章在此。
⑷ Python 以瀏覽器偽裝技術爬取CSDN首頁網站,查看網頁源代碼如圖所示,如何寫正則表達式
這個直接用BeautifulSoup解析取字元串就行,沒必要正則
⑸ 如何使用 Python 抓取雪球網頁
#start coding
首先要知道自己在爬什麼~樓主說找到HTML的代碼雲雲,思路其實是錯誤的。因為我們想要的內容不在原始的html裡面。但是肯定在瀏覽器和伺服器之間的通信里,我們只要找到這部分數據就好。
#我用的是Firefox的FireBug
選擇網路(Chrome中應該是Network),點擊調倉歷史記錄
可以看到瀏覽器和伺服器之間進行了一次通信。我們截獲了一個網址。打開看看。可以看到瀏覽器和伺服器之間進行了一次通信。我們截獲了一個網址。打開看看。
看上去像是一堆亂碼,但是細心的話就會發現……
也就是說我們要的數據都在這里了,所以只要先獲取這個頁面的內容然後在提取數據就好了~
#python3項目,python2中請使用urllib和urllib2
import urllib.request
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
print(html)
運行一下~
報錯了~報錯沒關系,兵來將擋水來土掩~
403禁止訪問…應該是headers的問題…什麼是headers呢…403禁止訪問…應該是headers的問題…什麼是headers呢…
你現在用python去訪問網頁,網頁得到的請求就是你是python程序,但是網頁並不想讓程序看到自己,因為他是給人看的,資源都被程序佔了算什麼,所以我們要讓python偽裝成瀏覽器。
依然是用Firebug查看headers信息。
然後我們完善代碼在訪問過程中添加headers~然後我們完善代碼在訪問過程中添加headers~
import urllib.request
headers = {'X-Requested-With': 'XMLHttpRequest',
'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',
'Host': 'xueqiu.com',
#'Connection':'keep-alive',
#'Accept':'*/*',
'cookie':'s=iabht2os.1dgjn9z; xq_a_token=; xq_r_token=; __utma=1.2130135756.1433017807.1433017807.1433017807.1;'
'__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_=1433017809; Hm_lpvt_=1433017809'}
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
print(html)
這次得到想要的結果了~
我們回過頭再去看headers會發現,其實有些我並沒有寫進去,你也可以自己嘗試把headers中的某一行注釋掉運行。但是每個站是不一樣的,你把所有的都填上去是一定能運行成功的,但是可能其中某一些不是必需的。
比如我們這里只要有User-Agent(缺少報錯403)和cookie(缺少報錯400)。
好~我們現在拿到了想要的數據,但是看上去太復雜了,一點都不友好。現在我們來解析一下這個網頁。其實這個網頁是json格式的數據包。
然後我們來觀察這個數據的解析。然後我們來觀察這個數據的解析。
#你可以直接點擊Firebug中的JSON來看,也可以復制到Notepad++中使用json viewer插件查看。
大概是這個樣子的……大概是這個樣子的……
有了json的構成結構我們就可以來解析它了…
我直接拿Python Shell調試,一會兒完善代碼
沒什麼問題~一切看起來很完美的樣子~這一步其實沒什麼難度,只要你能看懂上一步里我們分析的json數據的組成結構,然後一層一層地向下解析數據就可以了。
完善代碼。
import urllib.request
import json
headers = {#'X-Requested-With': 'XMLHttpRequest',
#'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',
#'Host': 'xueqiu.com',
#'Connection':'keep-alive',
#'Accept':'*/*',
'cookie':'s=iabht2os.1dgjn9z; xq_a_token=; xq_r_token=; __utma=1.2130135756.1433017807.1433017807.1433017807.1;'
'__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_=1433017809; Hm_lpvt_=1433017809'}
url = '?cube_symbol=ZH010389&count=20&page=1'
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode('utf-8')
#print(html)
data = json.loads(html)
print('股票名稱',end=':')
print(data['list'][0]['rebalancing_histories'][0]['stock_name'],end=' 持倉變化')
print(data['list'][0]['rebalancing_histories'][0]['prev_weight'],end='-->')
print(data['list'][0]['rebalancing_histories'][0]['target_weight'])
print('股票名稱',end=':')
print(data['list'][0]['rebalancing_histories'][1]['stock_name'],end=' 持倉變化')
print(data['list'][0]['rebalancing_histories'][1]['prev_weight'],end='-->')
print(data['list'][0]['rebalancing_histories'][1]['target_weight'])
運行程序~
好嘞!搞定收工!
當然也還不能收工……只是我不幹了而已……
To-dos:
可以看到程序是面向過程的…重復代碼很多,可以通過定義類或方法實現調用
大概……大概得寫點注釋……不過這么簡單直接無腦面向過程的代碼真的需要注釋嗎
如果是想在他持倉變化時收到提醒,需要爬蟲定時爬取頁面數據與之前數據進行比較
如果你更細心的話會發現最初的json網址的構成是這樣的…cube_symbol='#此處可添加任意組合的號碼例如ZH010389'&count=『#此處數字是一次獲取的交易變化數量,也就是說你一次性拿到了20次的交易,你點開之前交易記錄的時候並不會重新請求數據而是讀取了本地現有的數據此處數據可以任意修改哦~很神奇的試一試吧~20』&page=『和前面聯系起來,前面是一次性獲取20條記錄,這邊便是頁碼,通過對page數的控制利用循環可以輸出所有交易過程,當然,40一頁和20兩頁的效果顯然是一樣的,看你怎麼玩兒了~1』
如果你有耐心看完上面那一大段話的話想必你可以有更多的想法。讓別人來指導我們的思路是好的,可是投資的機會稍瞬即逝,跟在別人後面是沒有前途的,我們要學習。大數據的時代為什麼不試試爬更多人的更多投資記錄呢?比如在雪球首頁爬取首頁推薦的組合,然後自動爬取這些組合所做的所有操作~這樣你是不是就有了很厚的一本交易目錄,結合過去的股市數據(這些能不能想辦法自動獲取呢?),你可以自己嘗試分析別人作出投資決定的原因(是不是可以把數據自動寫入一個excel?提示:xlwt3)…最終指導自己的投資。大數據學習,想想都炫酷。可惜我不炒股…
大概就醬紫~希望有幫助~
寫這么多是因為我自己在學爬蟲…一周了…看到實踐的機會就來試一下…所以是邊調BUG邊寫答案~
大概就寫這么多吧…後面的To-dos哪天我突然感興趣了會試著寫一下或者過來補充的…
看到這個答案的…前輩還希望多多指教;看到這個答案的新手…歡迎交流:P
⑹ python高手來幫忙下,求助關於模擬瀏覽器的問題
在linux下面有兩條路:
qt做界面,還是用webkit打開網頁登錄頁面,跟windows下一樣,這也是我最建議你做的方法。
2.使用抓包工具分析登錄過程,瀏覽器做的無非是用安全控制項或者js加密,你把這兩種的加密演算法分析出來,然後用python實現。這種難度大一些,不建議你用哦。
如果非要用python做的話,還可以用tcl/tkinter做界面,與第一中方法難度一致。
⑺ python2.7 怎樣集成 urllib2
python最惡心的地方就在於它的版本和配置了,特別是安裝第三方包的時候經常會出現莫名其妙的錯誤,又不懂。
所以只能不斷的切來切去的。
今天學習python爬蟲,其中Python2.7使用了urllib和urllib2,python3的urllib結合了py2.7的兩部分。但是電腦不知為什麼又安裝不了py3的urllib,好煩。出現下面的錯誤。
python2.7和python3主要是模塊的位置變化地方較多。
其中python2.7的urllib和urllib2的區別一下:
urllib2可以接受一個Request類的實例來設置URL請求的headers,urllib僅可以接受URL。這意味著,你不可以通過urllib模塊偽裝你的User Agent字元串等(偽裝瀏覽器)。
urllib提供urlencode方法用來GET查詢字元串的產生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。
urllib2模塊比較優勢的地方是urlliburllib2.urlopen可以接受Request對象作為參數,從而可以控制HTTP Request的header部。
但是urllib.urlretrieve函數以及urllib.quote等一系列quote和unquote功能沒有被加入urllib2中,因此有時也需要urllib的輔助。
⑻ Python爬蟲瀏覽器偽裝以後瀏覽器打不開了
進行爬蟲異常處理。
爬蟲在運行的過程中,經常會遇到異常。若不進行異常處理,則爬蟲程序會直接崩潰停止運行,當下次再次運行時,則又會重頭開始。因此,開發一個具有頑強生命力的爬蟲,必須要進行異常處理。
⑼ 如何使用python進行瀏覽器行為模擬
你可以使用python的webbrowser庫來模擬瀏覽器:
url=''
#OpenURLinanewtab,ifabrowserwindowisalreadyopen.
webbrowser.open_new_tab(url+'doc/')
#OpenURLinnewwindow,raisingthewindowifpossible.
webbrowser.open_new(url)
或者使用python的第三方庫, selenium
fromseleniumimportwebdriver
fromselenium.webdriver.common.keysimportKeys
browser=webdriver.Firefox()
browser.get('
)
assert'Yahoo!'inbrowser.title
elem=browser.find_element_by_name('p')#Findthesearchbox
elem.send_keys('seleniumhq'+Keys.RETURN)
browser.quit()
如果解決了您的問題請採納!
如果未解決請繼續追問!
⑽ python怎麼偽裝成瀏覽器訪問網站
把請求頭信息都弄上,然後把cookie也弄好
import urllib.request
url = "http://www.oschina.net/"
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11')
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
print(data)