python采集图片地址_Python如何爬取百度图片

① python抓取网页上图片

正则表达式匹配的url有错误

for x in add:
print x # 这里可以看到报错的时候是 url 错误

dirpath = os.path.join('C:\\Users\\lilinan\\Desktop\\新建文件夹','%s.jpg' % t)
urllib.request.urlretrieve(x,dirpath)
t+=1

② python获取文件夹中的图片的路径

Python3.6.1(default,Mar222017,06:17:05)
[GCC6.3.020170321]onlinux
Type"help","right","credits"or"license"formoreinformation.
>>>importos
>>>defisimage(fn):
...returnos.path.splitext(fn)[-1]in('.jpg','.JPG','.png','.PNG')
...
>>>isimage('abs.jpg')
True
>>>isimage('abc.txt')
False
>>>dirpath='/home/zyy/汽车/卡槽'
>>>forr,ds,fsinos.walk(dirpath):
...forfninfs:
...ifnotisimage(fn):
...continue
...fname=os.path.join(r,fn)
...print(fname)
...

③ Python如何爬取百度图片

几乎所有的网站都会有反爬机制，这就需要在爬取网页时携带一些特殊参数，比如：user-agent、Cookie等等，可以在写代码的时候用工具将所有参数都带上。

④ python beautifulsoup 网页图片抓取

importurllib.request
importssl
frombs4importBeautifulSoup
importlxml

ssl._create_default_https_context=ssl._create_unverified_context
url="https://app.griffith.e.au/explore-student-blog/what-do-you-order-at-an-australian-cafe/"
response=urllib.request.urlopen(url)
html=response.read()
soup=BeautifulSoup(html,'lxml')
res=soup.find('div',class_='post-entry').find_all('a')[10]
result=res.find('img')['src']
print(result)

filename='photo'+'.jpg'
f=open(filename,'w')
urllib.request.urlretrieve(result,filename)

⑤ python如何才能获取src地址

Copyright © 1999-2020, CSDN.NET, All Rights Reserved

python
打开APP

pergoods
关注
Python多线程爬取网站image的src属性实例原创
2017-05-16 11:18:51

pergoods

码龄6年

关注
# coding=utf-8
'''
Created on 2017年5月16日
@author: chenkai
Python多线程爬取某单无聊图图片地址(requests+BeautifulSoup+threading+Queue模块)
'''

import requests
from bs4 import BeautifulSoup
import threading
import Queue
import time

class Spider_Test(threading.Thread):
def __init__(self,queue):
threading.Thread.__init__(self)
self.__queue = queue
def run(self):
while not self.__queue.empty():
page_url=self.__queue.get() [color=red]#从队列中取出url[/color]
print page_url
self.spider(page_url)
def spider(self,url):
r=requests.get(url) [color=red]#请求url[/color]
soup=BeautifulSoup(r.content,'lxml') [color=red]#r.content就是响应内容，转换为lxml的bs对象[/color]
imgs = soup.find_all(name='img',attrs={}) #查找所有的img标签，并获取标签属性值（为列表类型）
for img in imgs:
if 'onload' in str(img): [color=red]#img属性集合中包含onload属性的为动态图.gif,[/color]
print 'http:'+img['org_src']
else:
print 'http:'+img['src']

def main():
queue=Queue.Queue()
url_start = 'http://jandan.net/pic/page-'
for i in range(293,295):
url = url_start+str(i)+'#comment'
queue.put(url) [color=red]#将循环拼接的url放入队列中[/color]

threads=[]
thread_count=2 [color=red]#默认线程数（可自动修改）[/color]
for i in range(thread_count):
threads.append(Spider_Test(queue))
for i in threads:
i.start()
for i in threads:
i.join()

if __name__ == '__main__':[color=red] #在.py文件中使用这个条件语句，可以使这个条件语句块中的命令只在它独立运行时才执行[/color]
time_start = time.time()
main() [color=red]#调用main方法[/color]
print time.time()-time_start

[color=red]#背景知识[/color]
'''
q = Queue.Queue(maxsize = 10)
Queue.Queue类即是一个队列的同步实现。队列长度可为无限或者有限。可通过Queue的构造函数的可选参数maxsize来设定队列长度。如果maxsize小于1就表示队列长度无限。
将一个值放入队列中
q.put(10)
调用队列对象的put()方法在队尾插入一个项目。put()有两个参数，第一个item为必需的，为插入项目的值；第二个block为可选参数，默认为
1。如果队列当前为空且block为1，put()方法就使调用线程暂停,直到空出一个数据单元。如果block为0，put方法将引发Full异常。
将一个值从队列中取出
q.get()
调用队列对象的get()方法从队头删除并返回一个项目。可选参数为block，默认为True。如果队列为空且block为True，get()就使调用线程暂停，直至有项目可用。如果队列为空且block为False，队列将引发Empty异常。

'''

[color=red]如果想要下载图片需要
import urllib

再替换spider方法即可[/color]

def spider(self,url):
r=requests.get(url)
soup=BeautifulSoup(r.content,'lxml')
imgs = soup.find_all(name='img',attrs={})
urls=[]
for img in imgs:
if 'onload' in str(img):
print 'http:'+img['org_src']
urls.append('http:'+img['org_src'])
else:
print 'http:'+img['src']
url = urls.append('http:'+img['src'])
#下载图片
k=0
for urlitem in urls:
k+=1
if '.jpg' in urlitem:
urllib.urlretrieve(url=urlitem,filename='F:\image\\'+str(k)+'.jpg')

[color=red]-----------多线程访问网络实例[/color]
#coding:utf-8
import requests
import threading
import time
import sys

url = 'https://www..com'

def get_():
global url
time_start = time.time()
r = requests.get(url=url)
times = time.time()-time_start
sys.stdout.write('status:%s time:%s current_time:%s\n'%(r.status_code,times,time.strftime('%H:%M:%S')))

def main():
threads = []
thread_count = 10
for i in range(thread_count):
t = threading.Thread(target=get_,args=())
threads.append(t)
for i in range(thread_count):
threads[i].start()

for i in range(thread_count):
threads[i].join()

if __name__=='__main__':

⑥ 如何使用python批量下载图片

1、python有socket、httplib等模块能进行与网站间通信，如果有图片url集合，就直接使用这些库下载
2、如果是一些网页中的url，可以先把网页取下来，在用HTMLParser，sgmllib，htmllib等模块进行页面解析，提取出url集合

⑦ linux下python怎么写爬虫获取图片

跟linux有什么关系，python是跨平台的，爬取图片的代码如下：

import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #为请求设置user-agent,使得程序看起来更像一个人类
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP，使用户能以不同IP访问，从而防止被服务器发现
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):

html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]

a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9

a=html.find('img src=',b) for each in img_addrs:
print(each+'我的打印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)

url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()

完成

运行结果

⑧ Python 爬虫爬坑路（二）——B站图片，咸鱼的正确 GET 姿势

昨天在写完入门级爬虫之后，马上就迫不及待的着手开始写 B站的图片爬虫了，真的很喜欢这个破站呢 (〜￣△￣)〜

这里不涉及到 Python 爬虫的高级技巧，没有使用框架，没有考虑反爬机制，没有使用异步IO技术，因为这些，我都不会！

我们选定 B站的动画区进行测试，打开后我们发现有好多好多图....

但当我们使用 F12 查看这些图片的时候，发现并没有图片的地址...

这就是目前大多网站使用的 Ajax 技术动态加载数据的锅，可遇到这种情况这么办呢？别急别急，我们知道这些图片的地址一定是需要加载的，而目前常见WEB传输数据的基本就是方式 XML 和 Json (其实是我就知道这两种...)，那好我们去看看请求的 XML 和 Json 文件。

以下省略查找过程....

我们发现 B站的图片地址是保存在 Json 里面的，ok，我们保存好这个 json 地址:
https://api.bilibili.com/x/web-interface/dynamic/region?callback=jQuery172071087417824369_1505783866149&jsonp=jsonp&ps=15&rid=24&_=1505783866453

这个是 MAD·AMV 最新动态的 Json 文件，利用上面相同的方法，我们找到 3D区、短片·配音区、综合区以及右边排行部分的相应 json 地址。

好在 Chrome 浏览器提供了一个 Preview 功能，自动帮我们整理好数据，如下

这样就很清晰啦，我们只需要一层层解析拿到 pic 即可。于是我们这样写：

我们利用 requests 内置的 json 解码器，很不幸，报错：

json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

它提示说：解码 Json 数据的时候出了问题，可能是在第一行第一列，咦？好奇怪，刚才不是用浏览器看过结构了吗，没毛病啊，怎么还在报错：Σ( ￣□￣||)

别急别急，我们先看看原始的 Json 数据长啥样？用浏览器打开上面的 json 链接就可以了。

（/TДT)/ 前面的那些字母是干嘛的呀，为什么还有括号啊！

所以我们知道了 Json 解析错误的原因啦：后面在处理的时候把前面的这部分删掉就好啦，另外我们也发现了 archives 这个关键字，我们在上一张图看见过的哦，有印象吗？啊，你说没有呀，没关系，这里你只需要记着它是一个 List 的数据类型就好了呀！

为了防止被当作是恶意访问从而被封 IP，这里我们选择牺牲时间，取巧使用 sleep(x) ，让其等待一段时间之后再发出请求。

你可能会问我，呀，你这个，根本没有代理、没有混淆IP防止反爬、也没有模拟 Ajax 请求动态抓取云云~

那我可以很负责的告诉你，你！走错地方了！你要找的技术贴出门右拐！（￣へ￣）

我们恰巧使用的是 B站的 Ajax 技术，只要哪个视频有了最新评论(或者是一下其它的条件)，就会使用 Ajax 将最新的数据取出来。就像下面这样：

所以可能在访问人数多的时候，更新越快，越有可能获得更多不同的图片啦！

之后你就可以在吃饭的时候，把它挂起，然后吃饭回来就会发现有好多好多的图片！(=・ω・=)

之后会陆续的更新自己爬虫的爬坑过程，希望能够找到小伙伴一起学习呀！

导航:首页 > 编程语言 > python采集图片地址

python采集图片地址

与python采集图片地址相关的资料