pythonrgbtogray_用python写识别图片主要颜色的程序

1. python处理图片数据

目录

1.机器是如何存储图像的？

2.在Python中读取图像数据

3.从图像数据中提取特征的方法#1：灰度像素值特征

4.从图像数据中提取特征的方法#2：通道的平均像素值

5.从图像数据中提取特征的方法#3：提取边缘
是一张数字8的图像，仔细观察就会发现，图像是由小方格组成的。这些小方格被称为像素。

但是要注意，人们是以视觉的形式观察图像的，可以轻松区分边缘和颜色，从而识别图片中的内容。然而机器很难做到这一点，它们以数字的形式存储图像。请看下图：

机器以数字矩阵的形式储存图像，矩阵大小取决于任意给定图像的像素数。

假设图像的尺寸为180 x 200或n x m，这些尺寸基本上是图像中的像素数（高x宽）。

这些数字或像素值表示像素的强度或亮度，较小的数字（接近0）表示黑色，较大的数字（接近255）表示白色。通过分析下面的图像，读者就会弄懂到目前为止所学到的知识。

下图的尺寸为22 x 16，读者可以通过计算像素数来验证：

图片源于机器学习应用课程

刚才讨论的例子是黑白图像，如果是生活中更为普遍的彩色呢？你是否认为彩色图像也以2D矩阵的形式存储？

彩色图像通常由多种颜色组成，几乎所有颜色都可以从三原色（红色，绿色和蓝色）生成。

因此，如果是彩色图像，则要用到三个矩阵（或通道）——红、绿、蓝。每个矩阵值介于0到255之间，表示该像素的颜色强度。观察下图来理解这个概念：

图片源于机器学习应用课程

左边有一幅彩色图像（人类可以看到），而在右边，红绿蓝三个颜色通道对应三个矩阵，叠加三个通道以形成彩色图像。

请注意，由于原始矩阵非常大且可视化难度较高，因此这些不是给定图像的原始像素值。此外，还可以用各种其他的格式来存储图像，RGB是最受欢迎的，所以笔者放到这里。读者可以在此处阅读更多关于其他流行格式的信息。

用Python读取图像数据

下面开始将理论知识付诸实践。启动Python并加载图像以观察矩阵：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from skimage.io import imread, imshow
image = imread('image_8_original.png', as_gray=True)
imshow(image)

#checking image shape
image.shape, image

（28，28）

矩阵有784个值，而且这只是整个矩阵的一小部分。用一个LIVE编码窗口，不用离开本文就可以运行上述所有代码并查看结果。

下面来深入探讨本文背后的核心思想，并探索使用像素值作为特征的各种方法。

方法#1：灰度像素值特征

从图像创建特征最简单的方法就是将原始的像素用作单独的特征。

考虑相同的示例，就是上面那张图（数字‘8’），图像尺寸为28×28。

能猜出这张图片的特征数量吗？答案是与像素数相同！也就是有784个。

那么问题来了，如何安排这784个像素作为特征呢？这样，可以简单地依次追加每个像素值从而生成特征向量。如下图所示：

下面来用Python绘制图像，并为该图像创建这些特征：

image = imread('puppy.jpeg', as_gray=True)

image.shape, imshow(image)

（650，450）

该图像尺寸为650×450，因此特征数量应为297,000。可以使用NumPy中的reshape函数生成，在其中指定图像尺寸：

#pixel features

features = np.reshape(image, (660*450))

features.shape, features

(297000,)
array([0.96470588, 0.96470588, 0.96470588, ..., 0.96862745, 0.96470588,
0.96470588])

这里就得到了特征——长度为297,000的一维数组。很简单吧？在实时编码窗口中尝试使用此方法提取特征。

但结果只有一个通道或灰度图像，对于彩色图像是否也可以这样呢？来看看吧！

方法#2：通道的平均像素值

在读取上一节中的图像时，设置了参数‘as_gray = True’，因此在图像中只有一个通道，可以轻松附加像素值。下面删除参数并再次加载图像：

image = imread('puppy.jpeg')
image.shape

(660, 450, 3)

这次，图像尺寸为（660，450，3），其中3为通道数量。可以像之前一样继续创建特征，此时特征数量将是660*450*3 = 891,000。

或者，可以使用另一种方法：

生成一个新矩阵，这个矩阵具有来自三个通道的像素平均值，而不是分别使用三个通道中的像素值。

下图可以让读者更清楚地了解这一思路：

这样一来，特征数量保持不变，并且还能考虑来自图像全部三个通道的像素值。

image = imread('puppy.jpeg')
feature_matrix = np.zeros((660,450))
feature_matrix.shape

(660, 450)

现有一个尺寸为（660×450×3）的三维矩阵，其中660为高度，450为宽度，3是通道数。为获取平均像素值，要使用for循环：

for i in range(0,iimage.shape[0]):
for j in range(0,image.shape[1]):
feature_matrix[i][j] = ((int(image[i,j,0]) + int(image[i,j,1]) + int(image[i,j,2]))/3)

新矩阵具有相同的高度和宽度，但只有一个通道。现在，可以按照与上一节相同的步骤进行操作。依次附加像素值以获得一维数组：

features = np.reshape(feature_matrix, (660*450))
features.shape

(297000,)

方法#3：提取边缘特征

请思考，在下图中，如何识别其中存在的对象：

识别出图中的对象很容易——狗、汽车、还有猫，那么在区分的时候要考虑哪些特征呢？形状是一个重要因素，其次是颜色，或者大小。如果机器也能像这样识别形状会怎么样？

类似的想法是提取边缘作为特征并将其作为模型的输入。稍微考虑一下，要如何识别图像中的边缘呢？边缘一般都是颜色急剧变化的地方，请看下图：

笔者在这里突出了两个边缘。这两处边缘之所以可以被识别是因为在图中，可以分别看到颜色从白色变为棕色，或者由棕色变为黑色。如你所知，图像以数字的形式表示，因此就要寻找哪些像素值发生了剧烈变化。

假设图像矩阵如下：

图片源于机器学习应用课程

该像素两侧的像素值差异很大，于是可以得出结论，该像素处存在显着的转变，因此其为边缘。现在问题又来了，是否一定要手动执行此步骤？

当然不！有各种可用于突出显示图像边缘的内核，刚才讨论的方法也可以使用Prewitt内核（在x方向上）来实现。以下是Prewitt内核：

获取所选像素周围的值，并将其与所选内核（Prewitt内核）相乘，然后可以添加结果值以获得最终值。由于±1已经分别存在于两列之中，因此添加这些值就相当于获取差异。

还有其他各种内核，下面是四种最常用的内核：

图片源于机器学习应用课程

现在回到笔记本，为同一图像生成边缘特征：

#importing the required libraries
import numpy as np
from skimage.io import imread, imshow
from skimage.filters import prewitt_h,prewitt_v
import matplotlib.pyplot as plt
%matplotlib inline

#reading the image
image = imread('puppy.jpeg',as_gray=True)

#calculating horizontal edges using prewitt kernel
edges_prewitt_horizontal = prewitt_h(image)
#calculating vertical edges using prewitt kernel
edges_prewitt_vertical = prewitt_v(image)

imshow(edges_prewitt_vertical, cmap='gray')

2. python如何设置rgb颜色

通过代码来设置颜色。
可以使用语句，turtlecolor（"red"）通过这一句代码，画笔的颜色就被设置为红色，以此类推。
Python由荷兰数学和计算机科学研究学会的于1990年代初设计。

3. python：PIL图像处理

PIL (Python Imaging Library)

Python图像处理库，该库支持多种文件格式，提供强大的图像处理功能。

PIL中最重要的类是Image类，该类在Image模块中定义。

从文件加载图像：

如果成功，这个函数返回一个Image对象。现在你可以使用该对象的属性来探索文件的内容。

format 属性指定了图像文件的格式，如果图像不是从文件中加载的则为 None 。
size 属性是一个2个元素的元组，包含图像宽度和高度（像素）。
mode 属性定义了像素格式，常用的像素格式为：“L” (luminance) - 灰度图, “RGB” , “CMYK”。

如果文件打开失败, 将抛出IOError异常。

一旦你拥有一个Image类的实例，你就可以用该类定义的方法操作图像。比如：显示

( show() 的标准实现不是很有效率，因为它将图像保存到一个临时文件，然后调用外部工具（比如系统的默认图片查看软件）显示图像。该函数将是一个非常方便的调试和测试工具。)

接下来的部分展示了该库提供的不同功能。

PIL支持多种图像格式。从磁盘中读取文件，只需使用 Image 模块中的 open 函数。不需要提供文件的图像格式。PIL库将根据文件内容自动检测。

如果要保存到文件，使用 Image 模块中的 save 函数。当保存文件时，文件名很重要，除非指定格式，否则PIL库将根据文件的扩展名来决定使用哪种格式保存。

** 转换文件到JPEG **

save 函数的第二个参数可以指定使用的文件格式。如果文件名中使用了一个非标准的扩展名，则必须通过第二个参数来指定文件格式。

** 创建JPEG缩略图 **

需要注意的是，PIL只有在需要的时候才加载像素数据。当你打开一个文件时，PIL只是读取文件头获得文件格式、图像模式、图像大小等属性，而像素数据只有在需要的时候才会加载。

这意味着打开一个图像文件是一个非常快的操作，不会受文件大小和压缩算法类型的影响。

** 获得图像信息 **

Image 类提供了某些方法，可以操作图像的子区域。提取图像的某个子区域，使用 crop() 函数。

** 复制图像的子区域 **

定义区域使用一个包含4个元素的元组，(left, upper, right, lower)。坐标原点位于左上角。上面的例子提取的子区域包含300x300个像素。

该区域可以做接下来的处理然后再粘贴回去。

** 处理子区域然后粘贴回去 **

当往回粘贴时，区域的大小必须和参数匹配。另外区域不能超出图像的边界。然而原图像和区域的颜色模式无需匹配。区域会自动转换。

** 滚动图像 **

paste() 函数有个可选参数，接受一个掩码图像。掩码中255表示指定位置为不透明，0表示粘贴的图像完全透明，中间的值表示不同级别的透明度。

PIL允许分别操作多通道图像的每个通道，比如RGB图像。 split() 函数创建一个图像集合，每个图像包含一个通道。 merge() 函数接受一个颜色模式和一个图像元组，然后将它们合并为一个新的图像。接下来的例子交换了一个RGB图像的三个通道。

** 分离和合并图像通道 **

对于单通道图像， split() 函数返回图像本身。如果想处理各个颜色通道，你可能需要先将图像转为RGB模式。

resize() 函数接受一个元组，指定图像的新大小。
rotate() 函数接受一个角度值，逆时针旋转。

** 基本几何变换 **

图像旋转90度也可以使用 transpose() 函数。 transpose() 函数也可以水平或垂直翻转图像。

** transpose **

transpose() 和 rotate() 函数在性能和结果上没有区别。

更通用的图像变换函数为 transform() 。

PIL可以转换图像的像素模式。

** 转换颜色模式 **

PIL库支持从其他模式转为“L”或“RGB”模式，其他模式之间转换，则需要使用一个中间图像，通常是“RGB”图像。

ImageFilter 模块包含多个预定义的图像增强过滤器用于 filter() 函数。

** 应用过滤器 **

point() 函数用于操作图像的像素值。该函数通常需要传入一个函数对象，用于操作图像的每个像素：

** 应用点操作 **

使用以上技术可以快速地对图像像素应用任何简单的表达式。可以结合 point() 函数和 paste 函数修改图像。

** 处理图像的各个通道 **

注意用于创建掩码图像的语法：

Python计算逻辑表达式采用短路方式，即：如果and运算符左侧为false，就不再计算and右侧的表达式，而且返回结果是表达式的结果。比如 a and b 如果a为false则返回a，如果a为true则返回b，详见Python语法。

对于更多高级的图像增强功能，可以使用 ImageEnhance 模块中的类。

可以调整图像对比度、亮度、色彩平衡、锐度等。

** 增强图像 **

PIL库包含对图像序列（动画格式）的基本支持。支持的序列格式包括 FLI/FLC 、 GIF 和一些实验性的格式。 TIFF 文件也可以包含多个帧。

当打开一个序列文件时，PIL库自动加载第一帧。你可以使用 seek() 函数 tell() 函数在不同帧之间移动。

** 读取序列 **

如例子中展示的，当序列到达结尾时，将抛出EOFError异常。

注意当前版本的库中多数底层驱动只允许seek到下一帧。如果想回到前面的帧，只能重新打开图像。

以下迭代器类允许在for语句中循环遍历序列：

** 一个序列迭代器类 **

PIL库包含一些函数用于将图像、文本打印到Postscript打印机。以下是一个简单的例子。

** 打印到Postscript **

如前所述，可以使用 open() 函数打开图像文件，通常传入一个文件名作为参数：

如果打开成功，返回一个Image对象，否则抛出IOError异常。

也可以使用一个file-like object代替文件名（暂可以理解为文件句柄）。该对象必须实现read，seek，tell函数，必须以二进制模式打开。

** 从文件句柄打开图像 **

如果从字符串数据中读取图像，使用StringIO类：

** 从字符串中读取 **

如果图像文件内嵌在一个大文件里，比如 tar 文件中。可以使用ContainerIO或TarIO模块来访问。

** 从tar文档中读取 **

** 该小节不太理解，请参考原文 **

有些解码器允许当读取文件时操作图像。通常用于在创建缩略图时加速解码（当速度比质量重要时）和输出一个灰度图到激光打印机时。

draft() 函数。

** Reading in draft mode **

输出类似以下内容：

注意结果图像可能不会和请求的模式和大小匹配。如果要确保图像不大于指定的大小，请使用 thumbnail 函数。

Python2.7 教程 PIL
http://www.liaoxuefeng.com/wiki//

Python 之使用 PIL 库做图像处理
http://www.cnblogs.com/way_testlife/archive/2011/04/17/2019013.html

来自 http://effbot.org/imagingbook/introction.htm

4. python已知rgb，如何转为颜色

转为16进制就是分别把红绿蓝三种颜色的色值转为十六进制，前面加个井号

5. '求助'Python怎么判断图片是否为灰度图

不知道是搜索方法的问题还是自己不愿意看文档的问题，
总之本来想在Python的标准库里面找到一个可以判断是否为灰度图的标准库函数，
但是死活找不到，当新问题的难度比旧问题难时，果断回来解决旧问题，
那就是自己编写一个，效率问题嘛，还是忽略一下，不考虑了

参考怎么读取每个像素的RGB
这里判断是否为灰度图的标准是：每一个像素所对应的R、G、B的值是否相等。

6. 用python写识别图片主要颜色的程序

#-*-coding:utf-8-*-

importcolorsys

defget_dominant_color(image):

#颜色模式转换，以便输出rgb颜色值
image=image.convert('RGBA')

#生成缩略图，减少计算量，减小cpu压力
image.thumbnail((200,200))

max_score=None
dominant_color=None

forcount,(r,g,b,a)inimage.getcolors(image.size[0]*image.size[1]):
#跳过纯黑色
ifa==0:
continue

saturation=colorsys.rgb_to_hsv(r/255.0,g/255.0,b/255.0)[1]

y=min(abs(r*2104+g*4130+b*802+4096+131072)>>13,235)

y=(y-16.0)/(235-16)

#忽略高亮色
ify>0.9:
continue

#Calculatethescore,.
#Add0.1tothesaturationsowedon'tcompletelyignoregrayscale
#,butstillgivethemalow
#weight.
score=(saturation+0.1)*count

ifscore>max_score:
max_score=score
dominant_color=(r,g,b)

returndominant_color

if__name__=="__main__":
fromPILimportImage
importos

path=r'.\pics\'
fp=open('file_color.txt','w')
forfilenameinos.listdir(path):
printpath+filename
try:
color=get_dominant_color(Image.open(path+filename))
fp.write('Thecolorof'+filename+'is'+str(color)+'
')
except:
print"Thisfileformatisnotsupport"
fp.close()

pics文件夹和python程序在一个目录下，产生的文件名file_color.txt也在这个目录下。

看看能否帮到你

7. rgb转gray公式会超过255

rgb转gray公式是会超过255的弯陆，对于彩色转灰度，有一大简个很着名的心理学公式滚闹裤：Gray = R*0.299 + G*0.587 + B*0.114，RGB转换成灰度图像的一个常用公式是: Gray = R*0.299 + G*0.587 + B*0.114 //灰度转换函数*。

8. 用python K值聚类识别图片主要颜色的程序，算法python代码已经有了

难得被人求助一次, 这个必须回答一下. 不过你的需求确实没有写得太清楚. 根据k值算法出来的是主要颜色有三个, 所以我把三个颜色都打在记事本里了. 如果和你的需求有误, 请自行解决吧.

另外这里需要用到numpy的库, 希望你装了, 如果没装, 这个直接安装也比较麻烦, 可以看一下portablepython的绿色版。

代码如下：


#-*-coding:utf-8-*-
importImage
importrandom
importnumpy
classCluster(object):
def__init__(self):
self.pixels=[]
self.centroid=None
defaddPoint(self,pixel):
self.pixels.append(pixel)
defsetNewCentroid(self):
R=[colour[0]forcolourinself.pixels]
G=[colour[1]forcolourinself.pixels]
B=[colour[2]forcolourinself.pixels]
R=sum(R)/len(R)
G=sum(G)/len(G)
B=sum(B)/len(B)
self.centroid=(R,G,B)
self.pixels=[]
returnself.centroid
classKmeans(object):
def__init__(self,k=3,max_iterations=5,min_distance=5.0,size=200):
self.k=k
self.max_iterations=max_iterations
self.min_distance=min_distance
self.size=(size,size)
defrun(self,image):
self.image=image
self.image.thumbnail(self.size)
self.pixels=numpy.array(image.getdata(),dtype=numpy.uint8)
self.clusters=[Noneforiinrange(self.k)]
self.oldClusters=None
randomPixels=random.sample(self.pixels,self.k)
foridxinrange(self.k):
self.clusters[idx]=Cluster()
self.clusters[idx].centroid=randomPixels[idx]
iterations=0
whileself.shouldExit(iterations)isFalse:
self.oldClusters=[cluster.centroidforclusterinself.clusters]
printiterations
forpixelinself.pixels:
self.assignClusters(pixel)
forclusterinself.clusters:
cluster.setNewCentroid()
iterations+=1
return[cluster.centroidforclusterinself.clusters]
defassignClusters(self,pixel):
shortest=float('Inf')
forclusterinself.clusters:
distance=self.calcDistance(cluster.centroid,pixel)
ifdistance<shortest:
shortest=distance
nearest=cluster
nearest.addPoint(pixel)
defcalcDistance(self,a,b):
result=numpy.sqrt(sum((a-b)**2))
returnresult
defshouldExit(self,iterations):
ifself.oldClustersisNone:
returnFalse
foridxinrange(self.k):
dist=self.calcDistance(
numpy.array(self.clusters[idx].centroid),
numpy.array(self.oldClusters[idx])
)
ifdist<self.min_distance:
returnTrue
ifiterations<=self.max_iterations:
returnFalse
returnTrue
#############################################
#
defshowImage(self):
self.image.show()
defshowCentroidColours(self):
forclusterinself.clusters:
image=Image.new("RGB",(200,200),cluster.centroid)
image.show()
defshowClustering(self):
localPixels=[None]*len(self.image.getdata())
foridx,pixelinenumerate(self.pixels):
shortest=float('Inf')
forclusterinself.clusters:
distance=self.calcDistance(
cluster.centroid,
pixel
)
ifdistance<shortest:
shortest=distance
nearest=cluster
localPixels[idx]=nearest.centroid
w,h=self.image.size
localPixels=numpy.asarray(localPixels)
.astype('uint8')
.reshape((h,w,3))
colourMap=Image.fromarray(localPixels)
colourMap.show()

if__name__=="__main__":
fromPILimportImage
importos

k_image=Kmeans()
path=r'.\pics\'
fp=open('file_color.txt','w')
forfilenameinos.listdir(path):
printpath+filename
try:
color=k_image.run(Image.open(path+filename))
fp.write('Thecolorof'+filename+'is'+str(color)+'
')
except:
print"Thisfileformatisnotsupport"
fp.close()

9. rgb1_to_gray和rgb3_to_gray算子一样吗

单纯灰度转换而言，两个结果是一样的。不过 rgb3_to_gray 还会拦迟扒得到 R G B 三个通道的灰度图。即一共得到4幅图。而 rgb1_to_gray 没有三个通道的灰简昌度图。即只有一幅图旦闹。

导航:首页 > 编程语言 > pythonrgbtogray

pythonrgbtogray

与pythonrgbtogray相关的资料