图像分割分类算法_OCR图像文字识别图像分割算法

‘壹’ 图像分割

图像阈值化分割是一种传统的最常用的图像分割方法，因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量，而且也大大简化了分析和处理步骤，因此在很多情况下，是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。

图像阈值化的目的是要按照灰度级，对像素集合进行一个划分，得到的每个子集形成一个与现实景物相对应的区域，各个区域内部具有一致的属性，而相邻区域不具有这种一致属性。这样的划分可以通过从灰度级出发选取一个或多个阈值来实现。

基本原理是：通过设定不同的特征阈值，把图像象素点分为若干类。
常用的特征包括：直接来自原始图像的灰度或彩色特征；由原始灰度或彩色值变换得到的特征。
设原始图像为f(x，y)，按照一定的准则f(x，y)中找到特征值T，将图像分割为两个部分，分割后的图像为：
若取：b0=0(黑)，b1=1(白)，即为我们通常所说的图像二值化。

阈值分割方法实际上是输入图像f到输出图像g的如下变换：

其中，T为阈值，对于物体的图像元素g(i,j)=1，对于背景的图像元素g(i,j)=0。

由此可见，阈值分割算法的关键是确定阈值，如果能确定一个合适的阈值就可准确地将图像分割开来。阈值确定后，将阈值与像素点的灰度值逐个进行比较，而且像素分割可对各像素并行地进行，分割的结果直接给出图像区域。
阈值分割的优点是计算简单、运算效率较高、速度快。有着各种各样的阈值处理技术，包括全局阈值、自适应阈值、最佳阈值等等。

阈值处理技术参看：

区域分割是讲图像按照相似性准则分成不同的区域，主要包括区域增长，区域分裂合并和分水岭等几种类型。

区域生长是一种串行区域分割的图像分割方法。区域生长是指从某个像素出发，按照一定的准则，逐步加入邻近像素，当满足一定的条件时，区域生长终止。区域生长的好坏决定于1. 初始点（种子点）的选取。 2. 生长准则。 3. 终止条件。区域生长是从某个或者某些像素点出发，最后得到整个区域，进而实现目标的提取。

区域生长的基本思想是将具有相似性质的像素集合起来构成区域。具体先对每个需要分割的区域找一个种子像素作为生长的起点，然后将种子像素周围邻域中与种子像素有相同或相似性质的像素(根据某种事先确定的生长或相似准则来判定)合并到种子像素所在的区域中。将这些新像素当作新的种子像素继续进行上面的过程，直到再没有满足条件的像素可被包括进来。这样一个区域就长成了。

区域生长需要选择一组能正确代表所需区域的种子像素，确定在生长过程中的相似性准则，制定让生长停止的条件或准则。相似性准则可以是灰度级、彩色、纹理、梯度等特性。选取的种子像素可以是单个像素，也可以是包含若干个像素的小区域。大部分区域生长准则使用图像的局部性质。生长准则可根据不同原则制定，而使用不同的生长准则会影响区域生长的过程。

图1是区域增长的示例。

区域生长是一种古老的图像分割方法，最早的区域生长图像分割方法是由Levine等人提出的。该方法一般有两种方式，一种是先给定图像中要分割的目标物体内的一个小块或者说种子区域(seed point)，再在种子区域基础上不断将其周围的像素点以一定的规则加入其中，达到最终将代表该物体的所有像素点结合成一个区域的目的；另一种是先将图像分割成很多的一致性较强，如区域内像素灰度值相同的小区域，再按一定的规则将小区域融合成大区域，达到分割图像的目的，典型的区域生长法如T. C. Pong等人提出的基于小面（facet）模型的区域生长法，区域生长法固有的缺点是往往会造成过度分割，即将图像分割成过多的区域

区域生长实现的步骤如下:

区域分裂合并算法的基本思想是先确定一个分裂合并的准则，即区域特征一致性的测度，当图像中某个区域的特征不一致时就将该区域分裂成4个相等的子区域，当相邻的子区域满足一致性特征时则将它们合成一个大区域，直至所有区域不再满足分裂合并的条件为止。当分裂到不能再分的情况时，分裂结束，然后它将查找相邻区域有没有相似的特征，如果有就将相似区域进行合并，最后达到分割的作用。在一定程度上区域生长和区域分裂合并算法有异曲同工之妙，互相促进相辅相成的，区域分裂到极致就是分割成单一像素点，然后按照一定的测量准则进行合并，在一定程度上可以认为是单一像素点的区域生长方法。区域生长比区域分裂合并的方法节省了分裂的过程，而区域分裂合并的方法可以在较大的一个相似区域基础上再进行相似合并，而区域生长只能从单一像素点出发进行生长（合并）。

反复进行拆分和聚合以满足限制条件的算法。

令R表示整幅图像区域并选择一个谓词P。对R进行分割的一种方法是反复将分割得到的结果图像再次分为四个区域，直到对任何区域Ri，有P(Ri)=TRUE。这里是从整幅图像开始。如果P(R)=FALSE，就将图像分割为4个区域。对任何区域如果P的值是FALSE．就将这4个区域的每个区域再次分别分为4个区域，如此不断继续下去。这种特殊的分割技术用所谓的四叉树形式表示最为方便(就是说，每个非叶子节点正好有4个子树)，这正如图10.42中说明的树那样。注意，树的根对应于整幅图像，每个节点对应于划分的子部分。此时，只有R4进行了进一步的再细分。

如果只使用拆分，最后的分区可能会包含具有相同性质的相邻区域。这种缺陷可以通过进行拆分的同时也允许进行区域聚合来得到矫正。就是说，只有在P(Rj∪Rk)=TRUE时，两个相邻的区域Rj和Rk才能聚合。
前面的讨论可以总结为如下过程。在反复操作的每一步，我们需要做：

可以对前面讲述的基本思想进行几种变化。例如，一种可能的变化是开始时将图像拆分为一组图象块。然后对每个块进一步进行上述拆分，但聚合操作开始时受只能将4个块并为一组的限制。这4个块是四叉树表示法中节点的后代且都满足谓词P。当不能再进行此类聚合时，这个过程终止于满足步骤2的最后的区域聚合。在这种情况下，聚合的区域可能会大小不同。这种方法的主要优点是对于拆分和聚合都使用同样的四叉树，直到聚合的最后一步。

分水岭分割方法，是一种基于拓扑理论的数学形态学的分割方法，其基本思想是把图像看作是测地学上的拓扑地貌，图像中每一点像素的灰度值表示该点的海拔高度，每一个局部极小值及其影响区域称为集水盆，而集水盆的边界则形成分水岭。分水岭的概念和形成可以通过模拟浸入过程来说明。在每一个局部极小值表面，刺穿一个小孔，然后把整个模型慢慢浸入水中，随着浸入的加深，每一个局部极小值的影响域慢慢向外扩展，在两个集水盆汇合处构筑大坝，即形成分水岭。

分水岭的计算过程是一个迭代标注过程。分水岭比较经典的计算方法是L. Vincent提出的。在该算法中，分水岭计算分两个步骤，一个是排序过程，一个是淹没过程。首先对每个像素的灰度级进行从低到高排序，然后在从低到高实现淹没过程中，对每一个局部极小值在h阶高度的影响域采用先进先出(FIFO)结构进行判断及标注。

分水岭变换得到的是输入图像的集水盆图像，集水盆之间的边界点，即为分水岭。显然，分水岭表示的是输入图像极大值点。因此，为得到图像的边缘信息，通常把梯度图像作为输入图像，即

分水岭算法对微弱边缘具有良好的响应，图像中的噪声、物体表面细微的灰度变化，都会产生过度分割的现象。但同时应当看出，分水岭算法对微弱边缘具有良好的响应，是得到封闭连续边缘的保证的。另外，分水岭算法所得到的封闭的集水盆，为分析图像的区域特征提供了可能。
为消除分水岭算法产生的过度分割，通常可以采用两种处理方法，一是利用先验知识去除无关边缘信息。二是修改梯度函数使得集水盆只响应想要探测的目标。

为降低分水岭算法产生的过度分割，通常要对梯度函数进行修改，一个简单的方法是对梯度图像进行阈值处理，以消除灰度的微小变化产生的过度分割。即

程序可采用方法：用阈值限制梯度图像以达到消除灰度值的微小变化产生的过度分割，获得适量的区域，再对这些区域的边缘点的灰度级进行从低到高排序，然后在从低到高实现淹没的过程，梯度图像用Sobel算子计算获得。对梯度图像进行阈值处理时，选取合适的阈值对最终分割的图像有很大影响，因此阈值的选取是图像分割效果好坏的一个关键。缺点：实际图像中可能含有微弱的边缘，灰度变化的数值差别不是特别明显，选取阈值过大可能会消去这些微弱边缘。

参考文章：

图像分割的一种重要途径是通过边缘检测，即检测灰度级或者结构具有突变的地方，表明一个区域的终结，也是另一个区域开始的地方。这种不连续性称为边缘。不同的图像灰度不同，边界处一般有明显的边缘，利用此特征可以分割图像。

图像中边缘处像素的灰度值不连续，这种不连续性可通过求导数来检测到。对于阶跃状边缘，其位置对应一阶导数的极值点，对应二阶导数的过零点(零交叉点)。因此常用微分算子进行边缘检测。常用的一阶微分算子有Roberts算子、Prewitt算子和Sobel算子，二阶微分算子有Laplace算子和Kirsh算子等。在实际中各种微分算子常用小区域模板来表示，微分运算是利用模板和图像卷积来实现。这些算子对噪声敏感，只适合于噪声较小不太复杂的图像。

由于边缘和噪声都是灰度不连续点，在频域均为高频分量，直接采用微分运算难以克服噪声的影响。因此用微分算子检测边缘前要对图像进行平滑滤波。LoG算子和Canny算子是具有平滑功能的二阶和一阶微分算子，边缘检测效果较好，

在边缘检测算法中，前三个步骤用得十分普遍。这是因为大多数场合下，仅仅需要边缘检测器指出边缘出现在图像某一像素点的附近，而没有必要指出边缘的精确位置或方向．边缘检测误差通常是指边缘误分类误差，即把假边缘判别成边缘而保留，而把真边缘判别成假边缘而去掉．边缘估计误差是用概率统计模型来描述边缘的位置和方向误差的．我们将边缘检测误差和边缘估计误差区分开，是因为它们的计算方法完全不同，其误差模型也完全不同．

Roberts算子：边缘定位准，但是对噪声敏感。适用于边缘明显且噪声较少的图像分割。Roberts边缘检测算子是一种利用局部差分算子寻找边缘的算子,Robert算子图像处理后结果边缘不是很平滑。经分析，由于Robert算子通常会在图像边缘附近的区域内产生较宽的响应，故采用上述算子检测的边缘图像常需做细化处理，边缘定位的精度不是很高。

Prewitt算子：对噪声有抑制作用，抑制噪声的原理是通过像素平均，但是像素平均相当于对图像的低通滤波，所以Prewitt算子对边缘的定位不如Roberts算子。

Sobel算子：Sobel算子和Prewitt算子都是加权平均，但是Sobel算子认为，邻域的像素对当前像素产生的影响不是等价的，所以距离不同的像素具有不同的权值，对算子结果产生的影响也不同。一般来说，距离越远，产生的影响越小。

Isotropic Sobel算子：加权平均算子，权值反比于邻点与中心点的距离，当沿不同方向检测边缘时梯度幅度一致，就是通常所说的各向同性。
在边沿检测中，常用的一种模板是Sobel 算子。Sobel 算子有两个，一个是检测水平边沿的；另一个是检测垂直平边沿的。Sobel算子另一种形式是各向同性Sobel(Isotropic Sobel)算子，也有两个，一个是检测水平边沿的，另一个是检测垂直平边沿的。各向同性Sobel算子和普通Sobel算子相比，它的位置加权系数更为准确，在检测不同方向的边沿时梯度的幅度一致。由于建筑物图像的特殊性，我们可以发现，处理该类型图像轮廓时，并不需要对梯度方向进行运算，所以程序并没有给出各向同性Sobel算子的处理方法。

1971年，R.Kirsch[34]提出了一种能检测边缘方向的Kirsch算子新方法：它使用了8个模板来确定梯度幅度值和梯度的方向。

图像中的每个点都用8个掩模进行卷积，每个掩模对某个特定边缘方向作出最大响应。所有8个方向中的最大值作为边缘幅度图像的输出。最大响应掩模的序号构成了对边缘方向的编码。
Kirsch算子的梯度幅度值用如下公式：

不同检测算子的对比：

参考文章：

文章引用于木夜溯
编辑 Lornatang
校准 Lornatang

‘贰’ 基于K-means聚类算法的图像分割

实际上，无论是从算法思想，还是具体实现上，K-means算法是一种很简单的算法。它属于 无监督分类 ，通过按照 一定的方式度量 样本之间的相似度，通过迭代更新聚类中心，当聚类中心不再移动或移动差值小于阈值时，则就样本分为不同的类别。

根据聚类中心，将所有样本点分为最相似的类别。这需要一个有效的盘踞，平方差是最常用的度量方式，如下

我们知道：无论是灰度图还是RGB彩色图，实际上都是存有灰度值的矩阵，所以，图像的数据格式决定了在图像分割方向上，使用K-means聚类算法是十分容易也十分具体的。

click me

‘叁’ 图像分割算法分为几类

从学术角度讲图像分割主要分成3大类，一是基于边缘的，二是基于区域的，三是基于纹理的。由于基于纹理的也可以看成是基于区域的，所以有些专家也把分割方法分成基于边缘和基于区域两大类。
选择算法的时候主要参考你要分割的图像样本的特点。
如果图像的边界特别分明，比如绿叶和红花，在边界处红绿明显不同，可以精确提取到边界，这时候用基于边缘的方法就可行。但如果是像医学图像一样，轮廓不是特别明显，比如心脏图像，左心房和左心室颜色比较接近，它们之间的隔膜仅仅是颜色比它们深一些，但是色彩上来说很接近，这时候用基于边缘的方法就不合适了，用基于区域的方法更好。再比如带纹理的图像，例如条纹衫，如果用基于边缘的方法很可能就把每一条纹都分割成一个物体，但实际上衣服是一个整体，这时候用基于纹理的方法就能把纹理相同或相似的区域分成一个整体。
不过总体来说，基于区域的方法近些年更热一些，如Meanshift分割方法、测地线活动轮廓模型、JSEG等。

‘肆’ OCR图像文字识别图像分割算法

对于文字ocr中的分割步骤应用的算法一般是个综合体，不是像你说的单一某种算法可完成的
比如不粘连的可以用连通检测分割，粘连的一般会用投影分割加验知，粘连厉害的可以用像滴水法等

‘伍’ 图象分割有哪三种不同的途径

图象分割有三种不同的途径，其一是将各象素划归到相应物体或区域的象素聚类方法即区域法，其二是通过直接确定区域间的边界来实现分割的边界方法，其三是首先检测边缘象素再将边缘象素连接起来构成边界形成分割。早期的图像分割方法可以分为两大类。一类是边界方法，这种方法假设图像分割结果的某个子区域在原来图像中一定会有边缘存在；一类是区域方法，这种方法假设图像分割结果的某个子区域一定会有相同的性质，而不同区域的像素则没有共同的性质。这两种方法都有优点和缺点，有的学者考虑把两者结合起来进行研究。现在，随着计算机处理能力的提高，很多方法不断涌现，如基于彩色分量分割、纹理图像分割。所使用的数学工具和分析手段也是不断的扩展，从时域信号到频域信号处理，小波变换等等。

图像分割主要包括4种技术：并行边界分割技术、串行边界分割技术、并行区域分割技术和串行区域分割技术。下面是分别对每一项做简单的介绍。

‘陆’ 如何用区域生长法实现图像分割

区域生长法图像分割是直接根据像素的相似性和连通性来对图像进行聚类的算法。基本原理是，给出若干种子点，然后依次对这些种子点进行如下操作，直到种子点集合为空：判断种子点四邻域或八邻域的像素点是否和种子点相似（灰度相似或其他测度相似），如果相似则将该点加入种子点集合，否则不作处理。
该算法原理很简单，但在数据结构的组织上却需要技巧，本文介绍一种简易的数据组织方式实现该算法。

如上图所示，左图为一幅W*H大小的图像示意图，利用区域生长法图像分割算法，该图像被分割（聚类）为7块；右图为相应的数据结构，图像分割的结果属于图像空间数据，其实就是一系列的像素点坐标数组或与像素点坐标直接关联的属性数组如FLAG的数组等，这个数组的维度一定是W*H，而分割结果体现在数组元素的排列顺序：同一类别的元素连续存储。然而类别的界限无法用该数组表明，而只能用另外一个描述数组，这里我们称之为图像空间数据的“元数据”数据，这个数组的有效维度为空间数据的类别数，即7，每个元素代表的是空间数据数组中每个类别的元素个数，其实也就相应地表明了每个类别的指针位置。

‘柒’ 图像分割算法总结

图像处理的很多任务都离不开图像分割。因为图像分割在cv中实在太重要(有用)了，就先把图像分割的常用算法做个总结。

        接触机器学习和深度学习时间已经不短了。期间看过各种相关知识但从未总结过。本文过后我会尽可能详细的从工程角度来总结，从传统机器学习算法，传统计算机视觉库算法到深度学习目前常用算法和论文，以及模型在各平台的转化，量化，服务化部署等相关知识总结。

        图像分割常用算法大致分为下面几类。由于图像的能量范函，边缘追踪等方法的效果往往只能解决特定问题，效果并不理想，这里不再阐述。当然二值化本身也可以分割一些简单图像的。但是二值化算法较多，我会专门做一个文章来总结。这里不再赘述。

1.基于边缘的图像分割算法：

有利用图像梯度的传统算法算子的sobel，roberts，prewitt,拉普拉斯以及canny等。

这些算法的基本思想都是采用合适的卷积算子，对图像做卷积。从而求出图像对应的梯度图像。(至于为什么通过如图1这样的算子卷积，即可得到图像的梯度图像，请读者复习下卷积和倒数的概念自行推导)由于图像的边缘处往往是图像像素差异较大，梯度较大地方。因此我们通过合适的卷积核得到图像的梯度图像，即得到了图像的边缘图像。至于二阶算子的推导，与一阶类似。优点：传统算子梯度检测，只需要用合适的卷积核做卷积，即可快速得出对应的边缘图像。缺点：图像边缘不一定准确，复杂图像的梯度不仅仅出现在图像边缘，可以能出现在图像内部的色彩和纹理上。

             也有基于深度学习方法hed，rcf等。由于这类网络都有同一个比较严重的缺陷，这里只举例hed网络。hed是基于FCN和VGG改进，同时引出6个loss进行优化训练，通过多个层输出不同scale的粒度的边缘，然后通过一个训练权重融合各个层的边缘结果。hed网络结构如下：

可以得到一个比较完整的梯度图像，可参考github的hed实现。优点：图像的梯度细节和边缘完整性，相比传统的边缘算子要好很多。但是hed对于边缘的图像内部的边缘并不能很好的区分。当然我们可以自行更改loss来尝试只拟合外部的图像边缘。但最致命的问题在于，基于vgg的hed的网络表达能力有限，对于图像和背景接近，或者图像和背景部分相融的图片，hed似乎就有点无能为力了。

2.基于区域分割的算法：

区域分割比较常用的如传统的算法结合遗传算法，区域生长算法，区域分裂合并，分水岭算法等。这里传统算法的思路是比较简单易懂的，如果有无法理解的地方，欢迎大家一起讨论学习。这里不再做过多的分析。

基于区域和语意的深度学习分割算法，是目前图像分割成果较多和研究的主要方向。例如FCN系列的全卷积网络，以及经典的医学图像分割常用的unet系列，以及rcnn系列发展下的maskrcnn，以及18年底的PAnet。基于语意的图像分割技术，无疑会成为图像分割技术的主流。

其中，基于深度学习语意的其他相关算法也可以间接或直接的应用到图像分割。如经典的图像matting问题。18年又出现了许多非常优秀的算法和论文。如Deep-Image-Matting，以及效果非常优秀的MIT的 semantic soft segmentation(sss).

基于语意的图像分割效果明显要好于其他的传统算法。我在解决图像分割的问题时，首先尝试用了hed网络。最后的效果并不理想。虽然也参考github，做了hed的一些fine-tune,但是还是上面提到的原因，在我多次尝试后，最终放弃。转而适用FCN系列的网络。但是fcn也无法解决图像和背景相融的问题。图片相融的分割，感觉即需要大的感受野，又需要未相融部分原图像细节，所以单原FCN的网络，很难做出准确的分割。中间还测试过很多其他相关的网络，但都效果不佳。考虑到感受野和原图像细节，尝试了resnet和densenet作为图像特征提取的底层。最终我测试了unet系列的网络：

unet的原始模型如图所示。在自己拍照爬虫等手段采集了将近1000张图片。去掉了图片质量太差的，图片内容太过类似的。爬虫最终收集160多张，自己拍照收集200张图片后，又用ps手动p了边缘图像，采用图像增强变换，大约有300*24张图片。原生unet网络的表现比较一般。在将unet普通的卷积层改为resnet后，网络的表达能力明显提升。在将resnet改为resnet101，此时，即使对于部分相融的图像，也能较好的分割了。但是unet的模型体积已经不能接受。

在最后阶段，看到maskrcnn的实例分割。maskrcnn一路由rcnn,fasterrcnn发展过来。于是用maskrcnn来加入自己的训练数据和label图像进行训练。maskrcnn的结果表现并不令人满意，对于边缘的定位，相比于其他算法，略显粗糙。在产品应用中，明显还不合适。

3.基于图的分割算法

基于深度学习的deepgrab,效果表现并不是十分理想。deepgrab的git作者backbone采用了deeplabv2的网络结构。并没有完全安装原论文来做。

论文原地址参考： https://arxiv.org/pdf/1707.00243.pdf

整体结构类似于encode和decoder。并没有太仔细的研究，因为基于resent101的结构，在模型体积，速度以及deeplab的分割精度上，都不能满足当前的需求。之前大致总结过计算机视觉的相关知识点，既然目前在讨论移动端模型，那后面就分模块总结下移动端模型的应用落地吧。

由于时间实在有限。这里并没有针对每个算法进行详细的讲解。后续我会从基础的机器学习算法开始总结。

‘捌’ 在图像处理中有哪些算法

1、图像变换：

由于图像阵列很大，直接在空间域中进行处理，涉及计算量很大。采用各种图像变换的方法，如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术，将空间域的处理转换为变换域处理，可减少计算量，获得更有效的处理。它在图像处理中也有着广泛而有效的应用。

2、图像编码压缩：

图像编码压缩技术可减少描述图像的数据量，以便节省图像传输、处理时间和减少所占用的存储器容量。

压缩可以在不失真的前提下获得，也可以在允许的失真条件下进行。

编码是压缩技术中最重要的方法，它在图像处理技术中是发展最早且比较成熟的技术。

3、图像增强和复原：

图像增强和复原的目的是为了提高图像的质量，如去除噪声，提高图像的清晰度等。

图像增强不考虑图像降质的原因，突出图像中所感兴趣的部分。如强化图像高频分量，可使图像中物体轮廓清晰，细节明显；如强化低频分量可减少图像中噪声影响。

4、图像分割：

图像分割是数字图像处理中的关键技术之一。

图像分割是将图像中有意义的特征部分提取出来，其有意义的特征有图像中的边缘、区域等，这是进一步进行图像识别、分析和理解的基础。

5、图像描述：

图像描述是图像识别和理解的必要前提。

一般图像的描述方法采用二维形状描述，它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。

6、图像分类：

图像分类属于模式识别的范畴，其主要内容是图像经过某些预处理（增强、复原、压缩）后，进行图像分割和特征提取，从而进行判决分类。

图像分类常采用经典的模式识别方法，有统计模式分类和句法模式分类。

(8)图像分割分类算法扩展阅读：

图像处理主要应用在摄影及印刷、卫星图像处理、医学图像处理、面孔识别、特征识别、显微图像处理和汽车障碍识别等。

数字图像处理技术源于20世纪20年代，当时通过海底电缆从英国伦敦到美国纽约传输了一幅照片，采用了数字压缩技术。

数字图像处理技术可以帮助人们更客观、准确地认识世界，人的视觉系统可以帮助人类从外界获取3/4以上的信息，而图像、图形又是所有视觉信息的载体，尽管人眼的鉴别力很高，可以识别上千种颜色，

但很多情况下，图像对于人眼来说是模糊的甚至是不可见的，通过图象增强技术，可以使模糊甚至不可见的图像变得清晰明亮。

‘玖’ 目前应用最广的图像分割算法是什么

典型的图像分割方法有阀值法，边缘检测法，区域法,很多算法是在其上进行改进，目前没有一个算法适用所有图像.
目前常用的阈值分割方法有：双峰曲线拟合法，最大熵值分割法，类间方
差阈值分割法，模糊阈值分割法等;
边缘检测是最为普遍的对于灰度间断的检测方一般常用一阶和二阶导数来检测边，二阶导数：有梯度算子、Roberts、Prewitt和Sobel算子、拉普拉斯算子、Canny算子。

‘拾’ 图像分割——分水岭算法

姓名：谢意远

学号：19021110366T

嵌牛导读：图像中的目标物体是连接在一起的，则分割起来很困难，分水岭分割算法经常用于处理这类问题，通常会取得比较好的效果。

嵌牛鼻子：图像分割、分水岭算法

嵌牛提问：分水岭算法具体有哪些步骤？

嵌牛正文：

一、综述

分水岭分割算法把图像看成一幅“地形图”，其中亮度比较强的区域像素值较大，而比较暗的区域像素值较小，通过寻找“汇水盆地”和“分水岭界限”，对图像进行分割。而直接应用分水岭分割算法的效果往往并不好，如果在图像中对前景对象和背景对象进行标注区别，再应用分水岭算法会取得较好的分割效果。基于标记控制的分水岭分割方法有以下基本步骤：

1 综述

分水岭分割算法把图像看成一幅“地形图”，其中亮度比较强的区域像素值较大，而比较暗的区域像素值较小，通过寻找“汇水盆地”和“分水岭界限”，对图像进行分割。直接应用分水岭分割算法的效果往往并不好，如果在图像中对前景对象和背景对象进行标注区别，再应用分水岭算法会取得较好的分割效果。基于标记控制的分水岭分割方法有以下基本步骤：

1.计算分割函数。图像中较暗的区域是要分割的对象

2.计算前景标志。这些是每个对象内部连接的斑点像素。

3.计算背景标志。这些是不属于任何对象的要素。

4.修改分割函数，使其仅在前景和后景标记位置有极小值。

5.对修改后的分割函数做分水岭变换计算。

使用MATLAB图像处理工具箱

注：期间用到了很多图像处理工具箱的函数，例如fspecial、imfilter、watershed、label2rgb、imopen、imclose、imreconstruct、imcomplement、imregionalmax、bwareaopen、graythresh和imimposemin函数等。

2 步骤

第一步：读入彩色图像，将其转化成灰度图像

clc; clear all; close all;

rgb = imread('pears.png');

if ndims(rgb) == 3

I = rgb2gray(rgb);

else

I = rgb;

end

figure('units', 'normalized', 'position', [0 0 1 1]);

第2步：将梯度幅值作为分割函数

使用Sobel边缘算子对图像进行水平和垂直方向的滤波，然后求取模值，sobel算子滤波后的图像在边界处会显示比较大的值，在没有边界处的值会很小。

hy = fspecial('sobel');

hx = hy';

Iy = imfilter(double(I), hy, 'replicate');

Ix = imfilter(double(I), hx, 'replicate');

gradmag = sqrt(Ix.^2 + Iy.^2);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 2, 1); imshow(I,[]), title('灰度图像')

subplot(1, 2, 2); imshow(gradmag,[]), title('梯度幅值图像')

可否直接对梯度幅值图像使用分水岭算法？

L = watershed(gradmag);

Lrgb = label2rgb(L);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 2, 1); imshow(gradmag,[]), title('梯度幅值图像')

subplot(1, 2, 2); imshow(Lrgb); title('梯度幅值做分水岭变换')

直接使用梯度模值图像进行分水岭算法得到的结果往往会存在过度分割的现象。因此通常需要分别对前景对象和背景对象进行标记，以获得更好的分割效果。

第3步：标记前景对象

有多种方法可以应用在这里来获得前景标记，这些标记必须是前景对象内部的连接斑点像素。这个例子中，将使用形态学技术“基于开的重建”和“基于闭的重建”来清理图像。这些操作将会在每个对象内部创建单位极大值，使得可以使用imregionalmax来定位。

开运算和闭运算：先腐蚀后膨胀称为开；先膨胀后腐蚀称为闭。开和闭这两种运算可以除去比结构元素小的特定图像细节，同时保证不产生全局几何失真。开运算可以把比结构元素小的突刺滤掉，切断细长搭接而起到分离作用；闭运算可以把比结构元素小的缺口或孔填充上，搭接短的间隔而起到连接作用。

开操作是腐蚀后膨胀，基于开的重建（基于重建的开操作）是腐蚀后进行形态学重建。下面比较这两种方式。首先，用imopen做开操作。

se = strel('disk', 20);

Io = imopen(I, se);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 2, 1); imshow(I, []); title('灰度图像');

subplot(1, 2, 2); imshow(Io), title('图像开操作')

接下来，通过腐蚀后重建来做基于开的重建计算。

Ie = imerode(I,se)

Iobr = imreconstruct(Ie,I);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 2, 1); imshow(I, []); title('灰度图像');

subplot(1, 2, 2); imshow(Iobr, []), title('基于开的重建图像')

开操作后，接着进行闭操作，可以移除较暗的斑点和枝干标记。对比常规的形态学闭操作和基于闭的重建操作。首先，使用imclose：

Ioc = imclose(Io, se);

Ic = inclose(I,se);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(2, 2, 1); imshow(I, []); title('灰度图像');

subplot(2, 2, 2); imshow(Io, []); title('开操作图像');

subplot(2, 2, 3); imshow(Ic, []); title('闭操作图像');

subplot(2, 2, 4); imshow(Ioc, []), title('开闭操作');

现在使用imdilate，然后使用imreconstruct。注意必须对输入图像求补，对imreconstruct输出图像求补。IM2 = imcomplement(IM)计算图像IM的补集。IM可以是二值图像，或者RGB图像。IM2与IM有着相同的数据类型和大小。

Iobrd = imdilate(Iobr, se);

Iobrcbr = imreconstruct(imcomplement(Iobrd), imcomplement(Iobr));

Iobrcbr = imcomplement(Iobrcbr);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(2, 2, 1); imshow(I, []); title('灰度图像');

subplot(2, 2, 2); imshow(Ioc, []); title('开闭操作');

subplot(2, 2, 3); imshow(Iobr, []); title('基于开的重建图像');

subplot(2, 2, 4); imshow(Iobrcbr, []), title('基于闭的重建图像');

通过比较Iobrcbr和loc可以看到，在移除小污点同时不影响对象全局形状的应用下，基于重建的开闭操作要比标准的开闭重建更加有效。计算Iobrcbr的局部极大来得到更好的前景标记。

fgm = imregionalmax(Iobrcbr);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 3, 1); imshow(I, []); title('灰度图像');

subplot(1, 3, 2); imshow(Iobrcbr, []); title('基于重建的开闭操作');

subplot(1, 3, 3); imshow(fgm, []); title('局部极大图像');

为了帮助理解这个结果，叠加前景标记到原图上。

It1 = rgb(:, :, 1);

It2 = rgb(:, :, 2);

It3 = rgb(:, :, 3);

It1(fgm) = 255; It2(fgm) = 0; It3(fgm) = 0;

I2 = cat(3, It1, It2, It3);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(2, 2, 1); imshow(rgb, []); title('原图像');

subplot(2, 2, 2); imshow(Iobrcbr, []); title('基于重建的开闭操作');

subplot(2, 2, 3); imshow(fgm, []); title('局部极大图像');

subplot(2, 2, 4); imshow(I2); title('局部极大叠加到原图像');

注意到大多闭塞处和阴影对象没有被标记，这就意味着这些对象在结果中将不会得到合理的分割。而且，一些对象的前景标记会一直到对象的边缘。这就意味着应该清理标记斑点的边缘，然后收缩它们。可以通过闭操作和腐蚀操作来完成。

se2 = strel(ones(5,5));

fgm2 = imclose(fgm, se2);

fgm3 = imerode(fgm2, se2);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(2, 2, 1); imshow(Iobrcbr, []); title('基于重建的开闭操作');

subplot(2, 2, 2); imshow(fgm, []); title('局部极大图像');

subplot(2, 2, 3); imshow(fgm2, []); title('闭操作');

subplot(2, 2, 4); imshow(fgm3, []); title('腐蚀操作');

这个过程将会留下一些偏离的孤立像素，应该移除它们。可以使用bwareaopen，用来移除少于特定像素个数的斑点。BW2 = bwareaopen(BW,P)从二值图像中移除所以少于P像素值的连通块，得到另外的二值图像BW2。

fgm4 = bwareaopen(fgm3, 20);

It1 = rgb(:, :, 1);

It2 = rgb(:, :, 2);

It3 = rgb(:, :, 3);

It1(fgm4) = 255; It2(fgm4) = 0; It3(fgm4) = 0;

I3 = cat(3, It1, It2, It3);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(2, 2, 1); imshow(I2, []); title('局部极大叠加到原图像');

subplot(2, 2, 2); imshow(fgm3, []); title('闭腐蚀操作');

subplot(2, 2, 3); imshow(fgm4, []); title('去除小斑点操作');

subplot(2, 2, 4); imshow(I3, []); title('修改局部极大叠加到原图像');

第4步：计算背景标记

现在，需要标记背景。在清理后的图像Iobrcbr中，暗像素属于背景，所以可以从阈值操作开始。

bw =im2bw(Iobrcbr, graythresh(Iobrcbr));

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 2, 1); imshow(Iobrcbr, []); title('基于重建的开闭操作');

subplot(1, 2, 2); imshow(bw, []); title('阈值分割');

背景像素在黑色区域，但是理想情形下，不必要求背景标记太接近于要分割的对象边缘。通过计算“骨架影响范围”来“细化”背景，或者SKIZ，bw的前景。这个可以通过计算bw的距离变换的分水岭变换来实现，然后寻找结果的分水岭脊线（DL==0）。D = bwdist(BW)计算二值图像BW的欧几里得矩阵。对BW的每一个像素，距离变换指定像素和最近的BW非零像素的距离。bwdist默认使用欧几里得距离公式。BW可以由任意维数，D与BW有同样的大小。

D = bwdist(bw);

DL = watershed(D);

bgm = DL == 0;

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(2, 2, 1); imshow(Iobrcbr, []); title('基于重建的开闭操作');

subplot(2, 2, 2); imshow(bw, []); title('阈值分割');

subplot(2, 2, 3); imshow(label2rgb(DL), []); title('分水岭变换示意图');

subplot(2, 2, 4); imshow(bgm, []); title('分水岭变换脊线图');

第5步：计算分割函数的分水岭变换

函数imimposemin可以用来修改图像，使其只是在特定的要求位置有局部极小。这里可以使用imimposemin来修改梯度幅值图像，使其只在前景和后景标记像素有局部极小。

gradmag2 = imimposemin(gradmag, bgm | fgm4);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(2,2,1)imshow(bgm,[]);title('分水岭变换脊线图');

subplot(2, 2, 2); imshow(fgm4, []); title('前景标记');

subplot(2, 2, 3); imshow(gradmag, []); title('梯度幅值图像');

subplot(2, 2, 4); imshow(gradmag2, []); title('修改梯度幅值图像');

最后，可以做基于分水岭的图像分割计算。

第6步：查看结果

一个可视化技术是叠加前景标记、背景标记、分割对象边界到初始图像。可以使用膨胀来实现某些要求，比如对象边界，更加清晰可见。对象边界定位于L==0的位置。

It1 = rgb(:, :, 1);

It2 = rgb(:, :, 2);

It3 = rgb(:, :, 3);

fgm5 = imdilate(L == 0, ones(3, 3)) | bgm | fgm4;

It1(fgm5) = 255; It2(fgm5) = 0; It3(fgm5) = 0;

I4 = cat(3, It1, It2, It3);

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 2, 1); imshow(rgb, []); title('原图像');

subplot(1, 2, 2); imshow(I4, []); title('标记和对象边缘叠加到原图像');

可视化说明了前景和后景标记如何影响结果。在几个位置，部分的较暗对象与它们相邻的较亮的邻接对象相融合，这是因为受遮挡的对象没有前景标记。

另外一个有用的可视化技术是将标记矩阵作为彩色图像进行显示。标记矩阵，比如通过watershed和bwlabel得到的，可以使用label2rgb转换到真彩图像来显示。

Lrgb = label2rgb(L,'jet', 'w', 'shuffle');

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 2, 1); imshow(rgb, []); title('原图像');

subplot(1, 2, 2); imshow(Lrgb); title('彩色分水岭标记矩阵');

可以使用透明度来叠加这个伪彩色标记矩阵在原亮度图像上进行显示。

figure('units', 'normalized', 'position', [0 0 1 1]);

subplot(1, 2, 1); imshow(rgb, []); title('原图像');

subplot(1, 2, 2); imshow(rgb, []); hold on;

himage = imshow(Lrgb);

set(himage, 'AlphaData', 0.3);

title('标记矩阵叠加到原图像');

导航:首页 > 源码编译 > 图像分割分类算法

图像分割分类算法

(8)图像分割分类算法扩展阅读：

与图像分割分类算法相关的资料