导航:首页 > 编程语言 > python爬虫获取图片包

python爬虫获取图片包

发布时间:2022-08-26 08:05:16

‘壹’ python如何爬取百度图片

几乎所有的网站都会有反爬机制,这就需要在爬取网页时携带一些特殊参数,比如:user-agent、Cookie等等,可以在写代码的时候用工具将所有参数都带上。

‘贰’ 如何用python爬取mm131图片

简单,就三步(第二步核心!)
定义item类
开发spider类
开发pipeline
具体信息可从 疯狂python讲义 书中学到(任何错误或数据分析)

‘叁’ linux下python怎么写爬虫获取图片

跟linux有什么关系,python是跨平台的,爬取图片的代码如下:

import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #为请求设置user-agent,使得程序看起来更像一个人类
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP,使用户能以不同IP访问,从而防止被服务器发现
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):

html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]

a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9

a=html.find('img src=',b) for each in img_addrs:
print(each+'我的打印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)

url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()

完成

运行结果

‘肆’ Python爬虫爬取图片这个报错怎么处理

你好!你的错误原因在于html页面获取到的img标签src属性中的链接,可能是因为src中的url格式是这样的:

<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>

这样获取到的链接都没有带上协议:http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的:https://www..com/

即 协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为:

forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)

‘伍’ python 爬虫 图片抓取问题。

你看看他们说的都可以
你要把header信息加上去,用urllib2的request来获取图片,如果还有问题再把cookie的内容也加进去。

‘陆’ 写python爬虫时,想抓图片的原图

点图片之前开启firebug,切换到网络标签,看看你点图片的时候发生了什么。
然后模仿那个http请求。
重新看了一下图,好像没那么麻烦。
下面那个img标签里的 data-src 不就是原图地址?

‘柒’ 如何用python编写百度图片的爬虫

打开Chrome console,选择Network XHR
然后下拉加载然后,直接get那个Request URL借能得到图片的json数据了
再然后,解析json得到图片url, 下载图片时记得在header中添加Referer, 其值就是上面的Request URL。不然会403 forbidden!

‘捌’ Python爬取图片为什么无法爬取成功

你单独urlretrieve 损坏图片的url 呢 看看能否下载下来 如果正常的话 是不是程序批量爬的时候 网络超时

阅读全文

与python爬虫获取图片包相关的资料

热点内容
愿望清单app哪个好 浏览:457
安卓外放声音怎么解决 浏览:194
脉脉app干什么用的 浏览:357
拽姐是哪个app 浏览:858
云服务器删除了还有吗 浏览:232
macbook可以用单片机嘛 浏览:307
南阳php招聘 浏览:814
去哪里找按摩师很漂亮的app 浏览:818
86x99用简便算法计算 浏览:830
php截图flash 浏览:274
卸载联想app哪个好 浏览:721
php文字转图片 浏览:332
豆客后台怎么加密码 浏览:576
jpg转换pdf破解版 浏览:979
php基础书籍推荐 浏览:779
服务器与外网不通如何验证 浏览:353
电子版是不是就是文件夹 浏览:52
游戏属性文件加密 浏览:464
如何让安卓手机桌面图标下移 浏览:530
ubuntuphp5环境搭建 浏览:101