python图像任务_Python如何图像识别

1. python图像处理代码，望大神详细解释。越详细越好

#初始化一个矩形np.max(marks)+1行，3列，默认值为0
colorTab=np.zeros((np.max(marks)+1,3))

#遍历数组，给每行的3列赋值，就是RGB颜色值，8位的
foriinrange(len(colorTab)):
aa=np.random.uniform(0,255)
bb=np.random.uniform(0,255)
cc=np.random.uniform(0,255)
colorTab[i]=np.array([aa,bb,cc],np.uint8)

#初始化另一个跟img图像形状大小一样的图像，一副黑色图像
bgrImage=np.zeros(img.shape,np.uint8)

#遍历marks形状的行列
foriinrange(marks.shape[0]):
forjinrange(marks.shape[1]):

index=marks[i][j]
#判断是不是区域与区域之间的分界,如果是边界(-1)，则使用白色显示
ifindex==-1:
bgrImage[i][j]=np.array([255,255,255])#像素点设置位白色
else:
bgrImage[i][j]=colorTab[index]#像素点设置位上边随机生成的颜色值

#显示处理后的图像图像
cv2.imshow('AfterColorFill',bgrImage)
#总结，先生成一个跟marks相同数量的row*col的一张颜色表，然后创建一个跟marks相同大小的一副黑色图像
#最后对黑色图像画出白色边界和内部随机彩色像素值

2. 如何用python提取出两幅图像中不同的部分

简单说，两附图之间对应像素相减，然后求绝对值，差异大于某个特定值的就认为是不同点。（如果你的图片是jpg压缩，那么由于离散余弦变换过程去掉了高频信息，会导致图像颜色变化剧烈的部分出现细微锯齿状差异）
使用Numpy操作，np.abs(img1-img2)>thr。即可得到

3. python处理图片数据

目录

1.机器是如何存储图像的？

2.在Python中读取图像数据

3.从图像数据中提取特征的方法#1：灰度像素值特征

4.从图像数据中提取特征的方法#2：通道的平均像素值

5.从图像数据中提取特征的方法#3：提取边缘
是一张数字8的图像，仔细观察就会发现，图像是由小方格组成的。这些小方格被称为像素。

但是要注意，人们是以视觉的形式观察图像的，可以轻松区分边缘和颜色，从而识别图片中的内容。然而机器很难做到这一点，它们以数字的形式存储图像。请看下图：

机器以数字矩阵的形式储存图像，矩阵大小取决于任意给定图像的像素数。

假设图像的尺寸为180 x 200或n x m，这些尺寸基本上是图像中的像素数（高x宽）。

这些数字或像素值表示像素的强度或亮度，较小的数字（接近0）表示黑色，较大的数字（接近255）表示白色。通过分析下面的图像，读者就会弄懂到目前为止所学到的知识。

下图的尺寸为22 x 16，读者可以通过计算像素数来验证：

图片源于机器学习应用课程

刚才讨论的例子是黑白图像，如果是生活中更为普遍的彩色呢？你是否认为彩色图像也以2D矩阵的形式存储？

彩色图像通常由多种颜色组成，几乎所有颜色都可以从三原色（红色，绿色和蓝色）生成。

因此，如果是彩色图像，则要用到三个矩阵（或通道）——红、绿、蓝。每个矩阵值介于0到255之间，表示该像素的颜色强度。观察下图来理解这个概念：

图片源于机器学习应用课程

左边有一幅彩色图像（人类可以看到），而在右边，红绿蓝三个颜色通道对应三个矩阵，叠加三个通道以形成彩色图像。

请注意，由于原始矩阵非常大且可视化难度较高，因此这些不是给定图像的原始像素值。此外，还可以用各种其他的格式来存储图像，RGB是最受欢迎的，所以笔者放到这里。读者可以在此处阅读更多关于其他流行格式的信息。

用Python读取图像数据

下面开始将理论知识付诸实践。启动Python并加载图像以观察矩阵：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from skimage.io import imread, imshow
image = imread('image_8_original.png', as_gray=True)
imshow(image)

#checking image shape
image.shape, image

（28，28）

矩阵有784个值，而且这只是整个矩阵的一小部分。用一个LIVE编码窗口，不用离开本文就可以运行上述所有代码并查看结果。

下面来深入探讨本文背后的核心思想，并探索使用像素值作为特征的各种方法。

方法#1：灰度像素值特征

从图像创建特征最简单的方法就是将原始的像素用作单独的特征。

考虑相同的示例，就是上面那张图（数字‘8’），图像尺寸为28×28。

能猜出这张图片的特征数量吗？答案是与像素数相同！也就是有784个。

那么问题来了，如何安排这784个像素作为特征呢？这样，可以简单地依次追加每个像素值从而生成特征向量。如下图所示：

下面来用Python绘制图像，并为该图像创建这些特征：

image = imread('puppy.jpeg', as_gray=True)

image.shape, imshow(image)

（650，450）

该图像尺寸为650×450，因此特征数量应为297,000。可以使用NumPy中的reshape函数生成，在其中指定图像尺寸：

#pixel features

features = np.reshape(image, (660*450))

features.shape, features

(297000,)
array([0.96470588, 0.96470588, 0.96470588, ..., 0.96862745, 0.96470588,
0.96470588])

这里就得到了特征——长度为297,000的一维数组。很简单吧？在实时编码窗口中尝试使用此方法提取特征。

但结果只有一个通道或灰度图像，对于彩色图像是否也可以这样呢？来看看吧！

方法#2：通道的平均像素值

在读取上一节中的图像时，设置了参数‘as_gray = True’，因此在图像中只有一个通道，可以轻松附加像素值。下面删除参数并再次加载图像：

image = imread('puppy.jpeg')
image.shape

(660, 450, 3)

这次，图像尺寸为（660，450，3），其中3为通道数量。可以像之前一样继续创建特征，此时特征数量将是660*450*3 = 891,000。

或者，可以使用另一种方法：

生成一个新矩阵，这个矩阵具有来自三个通道的像素平均值，而不是分别使用三个通道中的像素值。

下图可以让读者更清楚地了解这一思路：

这样一来，特征数量保持不变，并且还能考虑来自图像全部三个通道的像素值。

image = imread('puppy.jpeg')
feature_matrix = np.zeros((660,450))
feature_matrix.shape

(660, 450)

现有一个尺寸为（660×450×3）的三维矩阵，其中660为高度，450为宽度，3是通道数。为获取平均像素值，要使用for循环：

for i in range(0,iimage.shape[0]):
for j in range(0,image.shape[1]):
feature_matrix[i][j] = ((int(image[i,j,0]) + int(image[i,j,1]) + int(image[i,j,2]))/3)

新矩阵具有相同的高度和宽度，但只有一个通道。现在，可以按照与上一节相同的步骤进行操作。依次附加像素值以获得一维数组：

features = np.reshape(feature_matrix, (660*450))
features.shape

(297000,)

方法#3：提取边缘特征

请思考，在下图中，如何识别其中存在的对象：

识别出图中的对象很容易——狗、汽车、还有猫，那么在区分的时候要考虑哪些特征呢？形状是一个重要因素，其次是颜色，或者大小。如果机器也能像这样识别形状会怎么样？

类似的想法是提取边缘作为特征并将其作为模型的输入。稍微考虑一下，要如何识别图像中的边缘呢？边缘一般都是颜色急剧变化的地方，请看下图：

笔者在这里突出了两个边缘。这两处边缘之所以可以被识别是因为在图中，可以分别看到颜色从白色变为棕色，或者由棕色变为黑色。如你所知，图像以数字的形式表示，因此就要寻找哪些像素值发生了剧烈变化。

假设图像矩阵如下：

图片源于机器学习应用课程

该像素两侧的像素值差异很大，于是可以得出结论，该像素处存在显着的转变，因此其为边缘。现在问题又来了，是否一定要手动执行此步骤？

当然不！有各种可用于突出显示图像边缘的内核，刚才讨论的方法也可以使用Prewitt内核（在x方向上）来实现。以下是Prewitt内核：

获取所选像素周围的值，并将其与所选内核（Prewitt内核）相乘，然后可以添加结果值以获得最终值。由于±1已经分别存在于两列之中，因此添加这些值就相当于获取差异。

还有其他各种内核，下面是四种最常用的内核：

图片源于机器学习应用课程

现在回到笔记本，为同一图像生成边缘特征：

#importing the required libraries
import numpy as np
from skimage.io import imread, imshow
from skimage.filters import prewitt_h,prewitt_v
import matplotlib.pyplot as plt
%matplotlib inline

#reading the image
image = imread('puppy.jpeg',as_gray=True)

#calculating horizontal edges using prewitt kernel
edges_prewitt_horizontal = prewitt_h(image)
#calculating vertical edges using prewitt kernel
edges_prewitt_vertical = prewitt_v(image)

imshow(edges_prewitt_vertical, cmap='gray')

4. python matplotlib 图像可视化

Python画图之总结待整理

https://morvanzhou.github.io/tutorials/data-manipulation/plt/
http://blog.sciencenet.cn/blog-1408284-850983.html
http://www.cnblogs.com/DHUtoBUAA/p/6619099.html
http://blog.csdn.net/wuguangbin1230/article/details/72858612
http://blog.sciencenet.cn/blog-251664-800766.html
http://blog.csdn.net/wuguangbin1230/article/details/72858612
http://www.jianshu.com/p/0a81b57bbb8c
https://pythonprogramming.net/

http://blog.csdn.net/haoji007/article/details/52063168

Python Data Visualizations

Seaborn 库： https://seaborn.pydata.org/

Python Seaborn 教程： http://elitedatascience.com/python-seaborn-tutorial

matplotlib: plotting with Python
matplotlib: plotting with Python-github

python-data-visualization-course
Interactive Web Plotting for Python
Interactive Web Plotting for Python-github

https://morvanzhou.github.io/tutorials/data-manipulation/plt/3-3-contours/
https://github.com/MorvanZhou/tutorials/tree/master/matplotlibTUT

https://github.com/jiandanjinxin/tf-dev-summit-tensorboard-tutorial
https://github.com/jiandanjinxin/tensorflow-mnist-tutorial

CSDN-markdown编辑器语法——字体、字号与颜色

%matplotlib inline
%matplotlib notebook

Need to use either

Only one in each notebook! using inline will just sent png images to browser, using notebook will provide interactivity and allow updating old figures. With notebook you need to make sure to create a new figure before plotting, otherwise the last one will be updated!

还有简便的 plt.close('all') 关闭所有图,不用管 fig 号码

Some plots from these tutorials:

调整名字和间隔

设置不同名字和位置

调整坐标轴

参数loc='upper right'
表示图例将添加在图中的右上角.

调整位置和名称

最后我们得到带有图例信息的图片.

移动坐标

然后我们挪动坐标轴的位置.

然后标注出点(x0, y0)的位置信息. 用plt.plot([x0, x0,], [0, y0,], 'k--', linewidth=2.5)
画出一条垂直于x轴的虚线.

添加注释 annotate
接下来我们就对(x0, y0)这个点进行标注.

其中参数xycoords='data'
是说基于数据的值来选位置,xytext=(+30, -30)
和textcoords='offset points'
对于标注位置的描述和 xy 偏差值,arrowprops
是对图中箭头类型的一些设置.

添加注释 text

其中-3.7, 3,
是选取text的位置, 空格需要用到转字符
,fontdict
设置文本字体.

生成图形
当图片中的内容较多，相互遮盖时，我们可以通过设置相关内容的透明度来使图片更易于观察，也即是通过本节中的bbox
参数设置来调节图像信息.
首先参考之前的例子, 我们先绘制图像基本信息：

调整坐标

然后对被遮挡的图像调节相关透明度，本例中设置 x轴和 y轴的刻度数字进行透明度设置

其中label.set_fontsize(12)重新调节字体大小，bbox设置目的内容的透明度相关参，facecolor调节 box 前景色，edgecolor 设置边框，本处设置边框为无，alpha设置透明度. 最终结果如下:

散点图
首先，先引入matplotlib.pyplot简写作plt,再引入模块numpy用来产生一些随机数据。生成1024个呈标准正态分布的二维数据组 (平均数是0，方差为1) 作为一个数据集，并图像化这个数据集。每一个点的颜色值用T来表示：

数据集生成完毕，现在来用scatterplot这个点集，鼠标点上去，可以看到这个函数的各个parameter的描述，如下图：
输入X和Y作为location，size=75，颜色为T，color map用默认值，透明度alpha 为 50%。 x轴显示范围定位(-1.5，1.5)，并用xtick()函数来隐藏x坐标轴，y轴同理：

今天的柱状图分成上下两部分，每一个柱体上都有相应的数值标注，并且取消坐标轴的显示。
生成基本图形
向上向下分别生成12个数据，X为 0 到 11 的整数，Y是相应的均匀分布的随机数据。使用的函数是plt.bar
，参数为X和Y：

这样我们就生成了下图所示的柱状图基本框架：

现在的结果呈现：

接下来我们用函数plt.text分别在柱体上方（下方）加上数值，用%.2f保留两位小数，横向居中对齐ha='center'，纵向底部（顶部）对齐va='bottom'：

最终的结果就像开始一样：

画等高线
数据集即三维点 (x,y) 和对应的高度值，共有256个点。高度值使用一个 height function f(x,y) 生成。 x, y 分别是在区间 [-3,3] 中均匀分布的256个值，并用meshgrid在二维平面中将每一个x和每一个y分别对应起来，编织成栅格:

接下来进行颜色填充。使用函数plt.contourf把颜色加进去，fill, 位置参数分别为：X, Y, f(X,Y)。透明度0.75，并将 f(X,Y) 的值对应到color map的暖色组中寻找对应颜色。8代表等高线的个数。

接下来进行等高线绘制。使用plt.contour函数划线。位置参数为：X, Y, f(X,Y)。颜色选黑色，线条宽度选0.5。现在的结果如下图所示，只有颜色和线条，还没有数值Label：

添加高度数字
其中，8代表等高线的密集程度，这里被分为10个部分。如果是0，则图像被一分为二。
最后加入Label，inline控制是否将Label画在线里面，字体大小为10。并将坐标轴隐藏：

随机矩阵画图

这一节我们讲解怎样在matplotlib中打印出图像。这里我们打印出的是纯粹的数字，而非自然图像。我们今天用这样 3x3 的 2D-array 来表示点的颜色，每一个点就是一个pixel。

colorbar
下面我们添加一个colorbar ，其中我们添加一个shrink参数，使colorbar的长度变短为原来的92%：

3D
首先在进行 3D Plot 时除了导入 matplotlib ，还要额外添加一个模块，即 Axes 3D 3D 坐标轴显示：

之后要先定义一个图像窗口，在窗口上添加3D坐标轴，显示成下图：

接下来给进 X 和 Y 值，并将 X 和 Y 编织成栅格。每一个（X, Y）点对应的高度值我们用下面这个函数来计算。

其中，rstride 和 cstride 分别代表 row 和 column 的跨度。
下面两个图分别是跨度为1 和 5 的效果：

投影

下面添加 XY 平面的等高线：

如果 zdir 选择了x，那么效果将会是对于 XZ 平面的投影，效果如下

5. python图像处理初学者求助

Pillow是Python里的图像处理库（PIL：Python Image Library），提供了了广泛的文件格式支持，强大的图像处理能力，主要包括图像储存、图像显示、格式转换以及基本的图像处理操作等。
1）使用 Image 类
PIL最重要的类是 Image class, 你可以通过多种方法创建这个类的实例；你可以从文件加载图像，或者处理其他图像, 或者从 scratch 创建。
要从文件加载图像，可以使用open( )函数，在Image模块中：

1
2

>>> from PIL import Image
>>> im = Image.open("E:/photoshop/1.jpg")

加载成功后，将返回一个Image对象，可以通过使用示例属性查看文件内容：

1
2
3

>>> print(im.format, im.size, im.mode)
('JPEG', (600, 351), 'RGB')
>>>

format 这个属性标识了图像来源。如果图像不是从文件读取它的值就是None。size属性是一个二元tuple，包含width和height（宽度和高度，单位都是px）。 mode 属性定义了图像bands的数量和名称，以及像素类型和深度。常见的modes 有 “L” (luminance) 表示灰度图像, “RGB” 表示真彩色图像, and “CMYK” 表示出版图像。
如果文件打开错误，返回 IOError 错误。
只要你有了 Image 类的实例，你就可以通过类的方法处理图像。比如，下列方法可以显示图像：

1

im.show()

2）读写图像
PIL 模块支持大量图片格式。使用在 Image 模块的 open() 函数从磁盘读取文件。你不需要知道文件格式就能打开它，这个库能够根据文件内容自动确定文件格式。要保存文件，使用 Image 类的 save() 方法。保存文件的时候文件名变得重要了。除非你指定格式，否则这个库将会以文件名的扩展名作为格式保存。
加载文件，并转化为png格式：

1
2
3
4
5
6
7
8
9
10
11
12
13

"Python Image Library Test"
from PIL import Image
import os
import sys

for infile in sys.argv[1:]:
f,e = os.path.splitext(infile)
outfile = f +".png"
if infile != outfile:
try:
Image.open(infile).save(outfile)
except IOError:
print("Cannot convert", infile)

save() 方法的第二个参数可以指定文件格式。
3）创建缩略图
缩略图是网络开发或图像软件预览常用的一种基本技术，使用Python的Pillow图像库可以很方便的建立缩略图，如下：

1
2
3
4
5
6
7

# create thumbnail
size = (128,128)
for infile in glob.glob("E:/photoshop/*.jpg"):
f, ext = os.path.splitext(infile)
img = Image.open(infile)
img.thumbnail(size,Image.ANTIALIAS)
img.save(f+".thumbnail","JPEG")

上段代码对photoshop下的jpg图像文件全部创建缩略图，并保存，glob模块是一种智能化的文件名匹配技术，在批图像处理中经常会用到。
注意：Pillow库不会直接解码或者加载图像栅格数据。当你打开一个文件，只会读取文件头信息用来确定格式，颜色模式，大小等等，文件的剩余部分不会主动处理。这意味着打开一个图像文件的操作十分快速，跟图片大小和压缩方式无关。
4）图像的剪切、粘贴与合并操作
Image 类包含的方法允许你操作图像部分选区，PIL.Image.Image.crop 方法获取图像的一个子矩形选区，如：

1
2
3
4

# crop, paste and merge
im = Image.open("E:/photoshop/lena.jpg")
box = (100,100,300,300)
region = im.crop(box)

矩形选区有一个4元元组定义，分别表示左、上、右、下的坐标。这个库以左上角为坐标原点，单位是px，所以上诉代码复制了一个 200×200 pixels 的矩形选区。这个选区现在可以被处理并且粘贴到原图。

1
2

region = region.transpose(Image.ROTATE_180)
im.paste(region, box)

当你粘贴矩形选区的时候必须保证尺寸一致。此外，矩形选区不能在图像外。然而你不必保证矩形选区和原图的颜色模式一致，因为矩形选区会被自动转换颜色。
5）分离和合并颜色通道
对于多通道图像，有时候在处理时希望能够分别对每个通道处理，处理完成后重新合成多通道，在Pillow中，很简单，如下：

1
2

r,g,b = im.split()
im = Image.merge("RGB", (r,g,b))

对于split（）函数，如果是单通道的，则返回其本身，否则，返回各个通道。
6）几何变换
对图像进行几何变换是一种基本处理，在Pillow中包括resize( )和rotate( )，如用法如下：

1
2

out = im.resize((128,128))
out = im.rotate(45) # degree conter-clockwise

其中，resize( )函数的参数是一个新图像大小的元祖，而rotate( )则需要输入顺时针的旋转角度。在Pillow中，对于一些常见的旋转作了专门的定义：

1
2
3
4
5

out = im.transpose(Image.FLIP_LEFT_RIGHT)
out = im.transpose(Image.FLIP_TOP_BOTTOM)
out = im.transpose(Image.ROTATE_90)
out = im.transpose(Image.ROTATE_180)
out = im.transpose(Image.ROTATE_270)

7）颜色空间变换
在处理图像时，根据需要进行颜色空间的转换，如将彩色转换为灰度：

1
2

cmyk = im.convert("CMYK")
gray = im.convert("L")

8）图像滤波

6. Python深度学习之图像识别

作者 | 周伟能

来源 | 小叮当讲SAS和Python

Python在机器学习（人工智能，AI）方面有着很大的优势。谈到人工智能，一般也会谈到其实现的语言Python。前面有几讲也是关于机器学习在图像识别中的应用。今天再来讲一个关于运用google的深度学习框架tensorflow和keras进行训练深度神经网络，并对未知图像进行预测。

导入python模块

导入图像数据

合并列表数据

将图片数据转化为数组

显示一张图片

训练神经网络

我们可以看到测试集的准确率达到99.67%

预测一个图像

预测为汽车的概率为100%。（括号内为真实标签）

预测为美女的概率为100%。（括号内为真实标签）

测试集中前15个图像预测完全正确。Nice!

最后我们来识别单张图片。

结果预测为汽车。Nice!

最后来预测一下外部随便下载的汽车或美女图片

预测为汽车，不错！

小编这里有10张图片，前5张为汽车图片，后五张为美女图片。

下面进行批量预测：

结果也是完全正确。

看到这里，感觉神经网络是不是很神奇，要想让神经网络预测得准确，我们就必须给予大量的数据进行训练模型，优化模型，以至于达到准确识别图像的目的，图像识别作为人工智能的一部分，现在已经慢慢走向成熟，虽然机器也有出错的时候，但是进过不断优化，错误率将会越来越小，相信机器智能或者人工智能时代能够创造出更多智能而美好的东西。为社会，为人类的自由做出更大的贡献。

7. 怎样使用Python图像处理

Python图像处理是一种简单易学，功能强大的解释型编程语言，它有简洁明了的语法，高效率的高层数据结构，能够简单而有效地实现面向对象编程，下文进行对Python图像处理进行说明。
当然，首先要感谢“恋花蝶”，是他的文章“用Python图像处理 ” 帮我坚定了用Python和PIL解决问题的想法，对于PIL的一些介绍和基本操作，可以看看这篇文章。我这里主要是介绍点我在使用过程中的经验。
PIL可以对图像的颜色进行转换，并支持诸如24位彩色、8位灰度图和二值图等模式，简单的转换可以通过Image.convert(mode)函数完成，其中mode表示输出的颜色模式。例如''L''表示灰度，''1''表示二值图模式等。
但是利用convert函数将灰度图转换为二值图时，是采用固定的阈值127来实现的，即灰度高于127的像素值为1，而灰度低于127的像素值为0。为了能够通过自定义的阈值实现灰度图到二值图的转换，就要用到 Image.point函数。
深度剖析Python语法功能
深度说明Python应用程序特点
对Python数据库进行学习研究
Python开发人员对Python经验之谈
对Python动态类型语言解析

Image.point函数有多种形式，这里只讨论Image.point(table, mode)，利用该函数可以通过查表的方式实现像素颜色的模式转换。其中table为颜色转换过程中的映射表，每个颜色通道应当有256个元素，而 mode表示所输出的颜色模式，同样的，''L''表示灰度，''1''表示二值图模式。
可见，转换过程的关键在于设计映射表，如果只是需要一个简单的箝位值，可以将table中高于或低于箝位值的元素分别设为1与0。当然，由于这里的table并没有什么特殊要求，所以可以通过对元素的特殊设定实现（0, 255）范围内，任意需要的一对一映射关系。
示例代码如下：
import Image # load a color image im = Image.open(''fun.jpg'') # convert to grey level image Lim = im.convert(''L'') Lim.save(''fun_Level.jpg'') # setup a converting table with constant threshold threshold = 80 table = [] for i in range(256): if i < threshold: table.append(0) else: table.append(1) # convert to binary image by the table bim = Lim.point(table, ''1'') bim.save(''fun_binary.jpg'')

IT部分通常要完成的任务相当繁重但支撑这些工作的资源却很少，这已经成为公开的秘密。任何承诺提高编码效率、降低软件总成本的IT解决方案都应该进行周到的考虑。Python图像处理所具有的一个显着优势就是可以在企业的软件创建和维护阶段节约大量资金，而这两个阶段的软件成本占到了软件整个生命周期中总成本的50%到95%。
Python清晰可读的语法使得软件代码具有异乎寻常的易读性，甚至对那些不是最初接触和开发原始项目的程序员都能具有这样的强烈感觉。虽然某些程序员反对在Python代码中大量使用空格。
不过，几乎人人都承认Python图像处理的可读性远胜于C或者Java，后两者都采用了专门的字符标记代码块结构、循环、函数以及其他编程结构的开始和结束。提倡Python的人还宣称，采用这些字符可能会产生显着的编程风格差异，使得那些负责维护代码的人遭遇代码可读性方面的困难。转载

8. python可以用来处理图像吗

可以的，
PythonWare公司提供了免费的Python图像处理工具包PIL(Python Image Library),该软件包提供了基本的图像处理功能，如：

改变图像大小，旋转图像，图像格式转换，色场空间转换，图像增强，直方图处理，插值和滤波等等。虽然在这个软件包上要实现类似MATLAB中的复杂的图像处理算法并不太适合，但是Python的快速开发能力以及面向对象等等诸多特点使得它非常适合用来进行原型开发。

在PIL中，任何一副图像都是用一个Image对象表示，而这个类由和它同名的模块导出，因此，最简单的形式是这样的：

import Image img = Image.open(“dip.jpg”)
注意：第一行的Image是模块名；第二行的img是一个Image对象；
Image类是在Image模块中定义的。关于Image模块和Image类，切记不要混淆了。现在，我们就可以对img进行各种操作了，所有对img的
操作最终都会反映到到dip.img图像上。

PIL提供了丰富的功能模块：Image,ImageDraw,ImageEnhance,ImageFile等等。最常用到的模块是
Image,ImageDraw,ImageEnhance这三个模块。下面我对此分别做一介绍。关于其它模块的使用请参见说明文档.有关PIL软件包和
相关的说明文档可在PythonWare的站点www.Pythonware.com上获得。

Image模块：

Image模块是PIL最基本的模块，其中导出了Image类，一个Image类实例对象就对应了一副图像。同时，Image模块还提供了很多有用的函数。

（1）打开一文件：
import Image img = Image.open(“dip.jpg”)

这将返回一个Image类实例对象，后面的所有的操作都是在img上完成的。

（2）调整文件大小:

import Image img = Image.open("img.jpg") new_img = img.resize
((128,128),Image.BILINEAR) new_img.save("new_img.jpg")

原来的图像大小是256x256,现在，保存的new_img.jpg的大小是128x128。

就是这么简单，需要说明的是Image.BILINEAR指定采用双线性法对像素点插值。

在批处理或者简单的Python图像处理任务中，采用Python和PIL（Python Image Library）的组合来完成图像处理任务是一个很不错的选择。设想有一个需要对某个文件夹下的所有图像将对比度提高2倍的任务。用Python来做将是十分简单的。当然，我也不得不承认Python在图像处理方面的功能还比较弱，显然还不适合用来进行滤波、特征提取等等一些更为复杂的应用。我个人的观点是，当你要实现这些“高级”的算法的时候，好吧，把它交给MATLAB去完成。但是，如果你面对的只是一个通常的不要求很复杂算法的图像处理任务，那么，Python图像处理应该才是你的最佳搭档。

9. Python如何图像识别

首先，先定位好问题是属于图像识别任务中的哪一类，最好上传一张植物叶子的图片。因为目前基于深度学习的卷积神经网络（CNN）确实在图像识别任务中取得很好的效果，深度学习属于机器学习，其研究的范式，或者说处理图像的步骤大体上是一致的。

1、第一步，准备好数据集，这里是指，需要知道输入、输出（视任务而定，针对你这个问题，建议使用有监督模型）是什么。你可以准备一个文件夹，里面存放好植物叶子的图像，而每张图像对应一个标签（有病/没病，或者是多类别标签，可能具体到哪一种病）。
具体实现中，会将数据集分为三个：训练集（计算模型参数）、验证集（调参，这个经常可以不需要实现划分，在python中可以用scikit-learn中的函数解决。测试集用于验证模型的效果，与前面两个的区别是，模型使用训练集和验证集时，是同时使用了输入数据和标签，而在测试阶段，模型是用输入+模型参数，得到的预测与真实标签进行对比，进而评估效果。
2、确定图像识别的任务是什么？

图像识别的任务可以分为四个：图像分类、目标检测、语义分割、实例分割，有时候是几个任务的结合。
图像分类是指以图像为输入，输出对该图像内容分类的描述，可以是多分类问题，比如猫狗识别。通过足够的训练数据（猫和狗的照片-标签，当然现在也有一系列的方法可以做小样本训练，这是细节了，这里并不敞开讲），让计算机/模型输出这张图片是猫或者狗，及其概率。当然，如果你的训练数据还有其它动物，也是可以的，那就是图像多分类问题。
目标检测指将图像或者视频中的目标与不感兴趣的部分区分开，判断是否存在目标，并确定目标的具体位置。比如，想要确定这只狗所佩戴的眼睛的位置，输入一张图片，输出眼睛的位置（可视化后可以讲目标区域框出来）。

看到这里，应该想想植物叶子诊断疾病的问题，只需要输入一整张植物叶子的图片，输出是哪种疾病，还是需要先提取叶子上某些感兴趣区域（可能是病变区域），在用病变区域的特征，对应到具体的疾病？
语义分割是当今计算机视觉领域的关键问题之一，宏观上看，语义分割是一项高层次的任务。其目的是以一些原始图像作为输入，输出具有突出显示的感兴趣的掩膜，其实质上是实现了像素级分类。对于输入图片，输出其舌头区域（注意可以是不规则的，甚至不连续的）。

而实例分割，可以说是在语义分割的基础上，在像素层面给出属于每个实例的像素。

看到这里，可以具体思考下自己的问题是对应其中的哪一类问题，或者是需要几种任务的结合。

3、实际操作
可以先通过一个简单的例子入手，先了解构建这一个框架需要准备什么。手写数字识别可以说是深度学习的入门数据集，其任务也经常作为该领域入门的案例，也可以自己在网上寻找。

导航:首页 > 编程语言 > python图像任务

python图像任务

与python图像任务相关的资料