導航:首頁 > 編程語言 > python爬蟲獲取圖片包

python爬蟲獲取圖片包

發布時間:2022-08-26 08:05:16

『壹』 python如何爬取百度圖片

幾乎所有的網站都會有反爬機制,這就需要在爬取網頁時攜帶一些特殊參數,比如:user-agent、Cookie等等,可以在寫代碼的時候用工具將所有參數都帶上。

『貳』 如何用python爬取mm131圖片

簡單,就三步(第二步核心!)
定義item類
開發spider類
開發pipeline
具體信息可從 瘋狂python講義 書中學到(任何錯誤或數據分析)

『叄』 linux下python怎麼寫爬蟲獲取圖片

跟linux有什麼關系,python是跨平台的,爬取圖片的代碼如下:

import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #為請求設置user-agent,使得程序看起來更像一個人類
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP,使用戶能以不同IP訪問,從而防止被伺服器發現
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):

html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]

a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9

a=html.find('img src=',b) for each in img_addrs:
print(each+'我的列印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)

url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()

完成

運行結果

『肆』 Python爬蟲爬取圖片這個報錯怎麼處理

你好!你的錯誤原因在於html頁面獲取到的img標簽src屬性中的鏈接,可能是因為src中的url格式是這樣的:

<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>

這樣獲取到的鏈接都沒有帶上協議:http或者https。而導致程序拋出ValueError的錯誤異常。

因為正常的url格式應該類似這樣的:https://www..com/

即 協議://用戶名:密碼@子域名.域名.頂級域名:埠號/目錄/文件名.文件後綴?參數=值#標志

參考網頁鏈接

可將代碼中第一個for循環中download_links.append修改為:

forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)

『伍』 python 爬蟲 圖片抓取問題。

你看看他們說的都可以
你要把header信息加上去,用urllib2的request來獲取圖片,如果還有問題再把cookie的內容也加進去。

『陸』 寫python爬蟲時,想抓圖片的原圖

點圖片之前開啟firebug,切換到網路標簽,看看你點圖片的時候發生了什麼。
然後模仿那個http請求。
重新看了一下圖,好像沒那麼麻煩。
下面那個img標簽里的 data-src 不就是原圖地址?

『柒』 如何用python編寫百度圖片的爬蟲

打開Chrome console,選擇Network XHR
然後下拉載入然後,直接get那個Request URL借能得到圖片的json數據了
再然後,解析json得到圖片url, 下載圖片時記得在header中添加Referer, 其值就是上面的Request URL。不然會403 forbidden!

『捌』 Python爬取圖片為什麼無法爬取成功

你單獨urlretrieve 損壞圖片的url 呢 看看能否下載下來 如果正常的話 是不是程序批量爬的時候 網路超時

閱讀全文

與python爬蟲獲取圖片包相關的資料

熱點內容
阿里雲伺服器終端在哪裡 瀏覽:144
app紙有什麼用 瀏覽:219
cuteftp命令 瀏覽:502
最開始的編程語言是什麼 瀏覽:757
at遠程命令 瀏覽:490
雲伺服器哪家好點 瀏覽:211
android系統源碼閱讀 瀏覽:925
dumpjava分析工具 瀏覽:678
怎麼下載cpu源碼 瀏覽:154
代碼加密怎麼取消 瀏覽:888
編譯原理代碼在哪裡運行 瀏覽:584
解密攝影pdf 瀏覽:72
演算法編程中級題目 瀏覽:250
c語言編譯器畢業設計 瀏覽:717
醫保卡申請app哪個好 瀏覽:945
阿里雲伺服器上傳源碼 瀏覽:602
營銷管理科特勒pdf 瀏覽:696
願望清單app哪個好 瀏覽:461
安卓外放聲音怎麼解決 瀏覽:196
脈脈app干什麼用的 瀏覽:362