⑴ python如何才能获取src地址
Copyright © 1999-2020, CSDN.NET, All Rights Reserved
python
打开APP
pergoods
关注
Python多线程爬取网站image的src属性实例 原创
2017-05-16 11:18:51
pergoods
码龄6年
关注
# coding=utf-8
'''
Created on 2017年5月16日
@author: chenkai
Python多线程爬取某单无聊图图片地址(requests+BeautifulSoup+threading+Queue模块)
'''
import requests
from bs4 import BeautifulSoup
import threading
import Queue
import time
class Spider_Test(threading.Thread):
def __init__(self,queue):
threading.Thread.__init__(self)
self.__queue = queue
def run(self):
while not self.__queue.empty():
page_url=self.__queue.get() [color=red]#从队列中取出url[/color]
print page_url
self.spider(page_url)
def spider(self,url):
r=requests.get(url) [color=red]#请求url[/color]
soup=BeautifulSoup(r.content,'lxml') [color=red]#r.content就是响应内容,转换为lxml的bs对象[/color]
imgs = soup.find_all(name='img',attrs={}) #查找所有的img标签,并获取标签属性值(为列表类型)
for img in imgs:
if 'onload' in str(img): [color=red]#img属性集合中包含onload属性的为动态图.gif,[/color]
print 'http:'+img['org_src']
else:
print 'http:'+img['src']
def main():
queue=Queue.Queue()
url_start = 'http://jandan.net/pic/page-'
for i in range(293,295):
url = url_start+str(i)+'#comment'
queue.put(url) [color=red]#将循环拼接的url放入队列中[/color]
threads=[]
thread_count=2 [color=red]#默认线程数(可自动修改)[/color]
for i in range(thread_count):
threads.append(Spider_Test(queue))
for i in threads:
i.start()
for i in threads:
i.join()
if __name__ == '__main__':[color=red] #在.py文件中使用这个条件语句,可以使这个条件语句块中的命令只在它独立运行时才执行[/color]
time_start = time.time()
main() [color=red]#调用main方法[/color]
print time.time()-time_start
[color=red]#背景知识[/color]
'''
q = Queue.Queue(maxsize = 10)
Queue.Queue类即是一个队列的同步实现。队列长度可为无限或者有限。可通过Queue的构造函数的可选参数maxsize来设定队列长度。如果maxsize小于1就表示队列长度无限。
将一个值放入队列中
q.put(10)
调用队列对象的put()方法在队尾插入一个项目。put()有两个参数,第一个item为必需的,为插入项目的值;第二个block为可选参数,默认为
1。如果队列当前为空且block为1,put()方法就使调用线程暂停,直到空出一个数据单元。如果block为0,put方法将引发Full异常。
将一个值从队列中取出
q.get()
调用队列对象的get()方法从队头删除并返回一个项目。可选参数为block,默认为True。如果队列为空且block为True,get()就使调用线程暂停,直至有项目可用。如果队列为空且block为False,队列将引发Empty异常。
'''
[color=red]如果想要下载图片需要
import urllib
再替换spider方法即可[/color]
def spider(self,url):
r=requests.get(url)
soup=BeautifulSoup(r.content,'lxml')
imgs = soup.find_all(name='img',attrs={})
urls=[]
for img in imgs:
if 'onload' in str(img):
print 'http:'+img['org_src']
urls.append('http:'+img['org_src'])
else:
print 'http:'+img['src']
url = urls.append('http:'+img['src'])
#下载图片
k=0
for urlitem in urls:
k+=1
if '.jpg' in urlitem:
urllib.urlretrieve(url=urlitem,filename='F:\image\\'+str(k)+'.jpg')
[color=red]-----------多线程访问网络实例[/color]
#coding:utf-8
import requests
import threading
import time
import sys
url = 'https://www..com'
def get_():
global url
time_start = time.time()
r = requests.get(url=url)
times = time.time()-time_start
sys.stdout.write('status:%s time:%s current_time:%s\n'%(r.status_code,times,time.strftime('%H:%M:%S')))
def main():
threads = []
thread_count = 10
for i in range(thread_count):
t = threading.Thread(target=get_,args=())
threads.append(t)
for i in range(thread_count):
threads[i].start()
for i in range(thread_count):
threads[i].join()
if __name__=='__main__':
⑵ python 如何将大量图片的url保存到本地
你如果要保存图片的url,直接把imgsrc写入本地文件就可以了,urllib.request.urlretrieve(imgsrc)这个的意思是你要保存的不是图片的url,而是要把图片下载下来,这个是要批量爬取网站上的图片,需要考虑网站的反爬虫措施了。
⑶ python爬虫 将在线html网页中的图片链接替换成本地链接并将html文件下载到本地
import os,re
def check_flag(flag):
regex = re.compile(r'images\/')
result = True if regex.match(flag) else False
return result
#soup = BeautifulSoup(open('index.html'))
from bs4 import BeautifulSoup
html_content = '''
<a href="https://xxx.com">测试01</a>
<a href="https://yyy.com/123">测试02</a>
<a href="https://xxx.com">测试01</a>
<a href="https://xxx.com">测试01</a>
'''
file = open(r'favour-en.html','r',encoding="UTF-8")
soup = BeautifulSoup(file, 'html.parser')
for element in soup.find_all('img'):
if 'src' in element.attrs:
print(element.attrs['src'])
if check_flag(element.attrs['src']):
#if element.attrs['src'].find("png"):
element.attrs['src'] = "michenxxxxxxxxxxxx" +'/'+ element.attrs['src']
print("##################################")
with open('index.html', 'w',encoding="UTF-8") as fp:
fp.write(soup.prettify()) # prettify()的作⽤是将sp美化⼀下,有可读性
⑷ python爬取到了src的链接怎么去下载
把img转成list然后用个for循环一个个下载呗,下载方法网上搜
⑸ 如何在centos安装python
更新python千万不要把老版本的删除!新老版本是可以共存的,很多基本的命令、软件包都要依赖预装的老版本python的,比如yum。
[root@localhost ~]# wget Python-2.7.11.tgz
[root@localhost ~]# tar -zxvf Python-2.7.11.tgz
[root@localhost ~]# cd Python-2.7.11
[root@localhost ~]# make
[root@localhost ~]# make install //默认安装到 /usr/local/lib/python2.7下
[root@localhost ~]# python -c "from distutils.sysconfig import get_python_lib; print (get_python_lib())"
/usr/local/lib/python2.7/site-packages
[root@localhost ~]# mv /usr/bin/python /usr/bin/python_old //修改旧的python版本为python_old
[root@localhost ~]# ln -s /usr/local/bin/python2.7 /usr/bin/python //建立软连接指向到当前系统默认python命令的bin目录,让系统使用新版本python
补充:默认的python成功指向3.3.0以后,yum不能正常使用,需要修改yum的配置文件。
⑹ python中怎么把图中的图片链接提取出来并且下载链接对应的图片啊
你不已经提出出来了吗?
在做个下载,保存就行了。
req=request.get(img.get('src'))
picture=req.content
path=r'D:\ProgramData\picture.png'
with open(path,'wb') as f:
f.write(picture)
⑺ 如何在Ubuntu和LinuxMint上安装Python 3.6.0
Python 3.6.0是在编写教程时的最新者老宽稳定版本。 此Python版本可供下载和安装。 本文将帮助您在Ubuntu和Linuxmint操作系统上安装Python 3.6.0。 要了解这个版本的更多信息,请访问Python官方网站。
步骤1 – 安装所需的包
在安装Python之前,请使用以下命令来安装Python的含冲先决条件。
$ sudo apt-get install build-essential checkinstall
$ sudo apt-get install libreadline-gplv2-dev libncursesw5-dev libssl-dev libsqlite3-dev tk-dev libgdbm-dev libc6-dev libbz2-dev
步骤2 – 下载Python 3.6.0
从python官方网站下载Python使用下面的命令。 您也可以下载最新版本代替下面指定。
$ cd /usr/src
$ wget
现在解压下载的软件包。
$ sudo tar xzf Python-3.6.0.tgz
第3步 – 编译Python源
现在使用下面的命令来使用altinstall在你的系统上编译python源代码。
$ cd Python-3.6.0
$ sudo ./configure
$ sudo make altinstall
make altinstall 用于防止替换默认首亮的python二进制文件/ usr / bin / python。
步骤4 – 检查Python版本
最后,您已经成功地在系统上安装了Python 3.6。 让我们使用下面的命令检查安装的python的版本
# python3.6 -V
Python 3.6.0