1. 车牌识别算法的研究与分类
车牌识别系统要综合应用多种手段提取车牌区域,对汽车牌照的精确定位并最终完成对汽车牌照的识别。因此车牌识别系统要应对多种复杂环境,如车流量高峰期、照射反光、车牌污染等。利用模拟人脑智能的ANN,在识别车牌时能进行联想记忆与推理,能够较好地解决字符残缺不完整而无法识别的问题。
车牌识别方法的研究
车牌识别系统主要包括车牌定位、字符分割、字符识别等工作模块,同时系统统自身具有良好的维护性和扩展性,可在无需为车辆加装其他特殊装置情况下实现对车辆的自动检测。
车牌定位方法的研究
车牌定位就是把车牌区域完整的从一副具有复杂背景的车辆图像中分割出来,它是解决图像处理中的实际问题,其方法多种多样,当前最常见的定位技术主要有:基于边缘检测的方法、基于彩色分割的方法、基于小波变换的方法、遗传算法和人工神经网络技术等。
基于边缘检测的车牌定位方法:在对车牌进行定位前,先将汽车图像通过灰度变换、直方图均衡化等增强预处理,再经二值化,最后利用边缘检测算子对图像进行边缘检测。检测到边缘后在进行区域膨胀,腐蚀去无关的小物件,这时图像会呈现出多个连通的判断区域,最后找出所有连通域中最可能是车牌的那一个便可 。
基于色彩分割的车牌定位方法:主要由彩色分割和日标定位等模块组成,在进行色彩分割前,要先将原始图像从RGB色彩空间转换到HSV空间,再在HSV空间内进行色彩分析。具体的分割运算:依次将四种车牌底色中一种为基准,对图像中每一像素先对照表1进行色彩分量比较,对超出基准色限定范围的像素直接设置为背景色(白色),否则统计所有落在该区间内的像素三分量的均值,作为分割计算的颜色中心,再对所有区间范围内的像素计算其与颜色中心的色彩距离,若距离大于阀值,则设置为背景色,否则设置为日标色(黑色)
由于图像背景的复杂性,色彩过滤后的图像仍然可能包含多个可能的目标区域,需进一步使用车牌体态比特征对多个目标区域进行过滤。
基于小波变换的车牌定位方法:先将车辆图像转换成索引图像,然后对索引图像作用小波变换,获取图像在不同子带的小波系数。车牌识别特征提取就是基于汽车图像在小波变换后的LH高频子带,根据图像中车牌区域的小波系数幅值大、密度高的特点,可以通过作用一个阈值来滤掉非牌照候选区域的小波系数。通过小波尺度分解提出纹理清晰且具有不同空间分辨率、不同方向的边缘子图;再利用车牌日标区域具有水平方向低频、垂直方向高频的特点实现子图提取,最后用数学形态学方法对小波分解后的细节图像进行一系列的形态运算,进一步消除无用信息和噪声,以确定车牌位置。
基于遗传算法的车牌定位方法:车牌日标区域的主要特点有车牌底色往往与车身颜色、字符颜色有较大差异;另外牌照的长度比变化有一定范围,存在一个最大和最小长宽比。根据这些特点,可以在灰度图像的基础上提取相应的特征。还有车牌内字符之间的间隔比较均匀,字符和牌照底色在灰度值上存在跳变,而字符本身与牌照底的内部都有较均匀灰度。又由于车牌有一个连续或由于磨损而不连续的边框,车牌内字符有多个,基本呈水平排列,所以在牌照的矩形区域内存在较丰富的边缘,呈现出规则的纹理特征,因此在实际中我们只要先对彩色图像进行灰度化和二值化处理,采用反映不同疏密度的一维滤波器组在水平方向对二值图像进行滤波便可获得车牌图像的纹理特征向量,再对待定局部区域图像进行滤波处理获得其特征向量,将其与车牌特征描述向量进行比较就能得到该区域作为车牌区的可能性。
采用神经网络实现车牌定位算法:可采用对灰度图像直接感知的方法实现,即使用一个滑动窗口作为采样窗口(可根据车牌特征选择长条形或狭长形滑动窗口),在灰度图像上依次移动,将窗口覆盖下的图像块作为神经网络的输入,所采用的BP网络是3层全连接前馈网络,其输入层神经元数日为滑动窗口的尺寸,其输出层神经元数日为l。当输出接近二分之一时,表示滑动窗口下的图像块属于车牌区域:当输出接近二分之一时,表示滑动窗口下的图像块属于背景区域。此算法的样本集的选择和搜索策略都是很重要的,这都会对定位效果有影响,因此首先要对车牌和北京交替反复采样,并且要在所选图像中尽量包括各种不同光照条件、背景复杂度和牌照颜色,以有利于网络实现泛化,这样可以加强网络的容错性;而对于搜索策略而言,由于车牌一般位于图像的中下方,因此一般采取白下而上遍历,这样不容易误将车型标志处定位为车牌区域,并且当遍历图像后出现不止一个候选车牌区域的时候,也应优先考虑最下的候选车牌区域。另外,由于神经网络具有一定的容错性,对于倾斜角度较大的车牌,要在神经网络处理之前先进行水平校正。
字符分割方法的研究
字符分割的任务是把多行或多字符图像中的每个字符从整个图像中切割出来成为单个字符。字符分割的算法很多,通常根据处理对象的不同采用不同的算法。常见的方法主要有:模板匹配法、水平投影法、聚类分析法、基于自适应退化形态特征的图像分割法等,在这里我们详细阐述前三种方法。
模板匹配法:此方法先在二值图像上计算竖直积分投影的平滑曲线,搜索平滑曲线的局部最小值得到一个波谷位置序列;再将相邻两个波谷分别作为左右边界提取出一组矩形区域;最后,根据一定的规则对矩形区域进行删除、分裂、合并及调整大小,从而实现对车牌区域的单字符分割。
水平投影法:此方法先自下而上再白上而下对车牌区域图像进行逐行扫描,找到并分别记录下扫描到的第1个白色像素点位置,确定图像大致的高度范围;在此高度范围之内再自左向右逐行扫描,遇到第1个白色像素时认为是字符分割的起始位置,然后继续扫描,直至遇到没有白色像素的列,则认为是这个字符分割结果。重复上述过程,直至图像的最右端,得到每个字符比较精确的宽度范围:在已知的每个字符比较精确的宽度范围内,再分别进行自上而下和白下而上的逐行扫描来确定每个字符精确的高度范围。
聚类分析法:此方法是按照属于同一个字符的像素构成一个连通域的原则,再结合先验知识,字符的高度、间距的固定比例关系等,来逐个分割车牌区域中的字符的。
2. 图像分割技术论文
图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!
图像分割技术研究
摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。
关键词:图像分割、阈值、边缘检测、区域分割
中图分类号: TN957.52 文献标识码: A
1引言
随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。
2图像分割方法
图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。
2.1基于灰度特征的阈值分割方法
阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。
这类方法主要包括以下几种:
(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。
(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。
(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。
2.2 边缘检测分割法
基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。
2.3基于区域的分割方法
基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。
区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。
2.4结合特定工具的图像分割技术
20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。
2.4.1基于数学形态学的分割算法
分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。
2.4.2基于模糊数学的分割算法
目前,模糊技术在图像分割中应用的一个显着特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。
这类方法主要有广义模糊算子与模糊阈值法两种分割算法。
(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。
(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。
2.4.3基于遗传算法的分割方法
此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。
2.4.4基于神经网络分割算法
人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。
2.5图像分割中的其他方法
前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。
(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。
(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的
(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。
(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。
3图像分割性能的评价
图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。
4图像分割技术的发展趋势
随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。
参考文献
[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003
[2] 章毓晋.图像分割[M].北京:科学出版社,2001.
[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.
[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.
点击下页还有更多>>>图像分割技术论文
3. 图像分割算法总结
图像处理的很多任务都离不开图像分割。因为图像分割在cv中实在太重要(有用)了,就先把图像分割的常用算法做个总结。
接触机器学习和深度学习时间已经不短了。期间看过各种相关知识但从未总结过。本文过后我会尽可能详细的从工程角度来总结,从传统机器学习算法,传统计算机视觉库算法到深度学习目前常用算法和论文,以及模型在各平台的转化,量化,服务化部署等相关知识总结。
图像分割常用算法大致分为下面几类。由于图像的能量范函,边缘追踪等方法的效果往往只能解决特定问题,效果并不理想,这里不再阐述。当然二值化本身也可以分割一些简单图像的。但是二值化算法较多,我会专门做一个文章来总结。这里不再赘述。
1.基于边缘的图像分割算法:
有利用图像梯度的传统算法算子的sobel,roberts,prewitt,拉普拉斯以及canny等。
这些算法的基本思想都是采用合适的卷积算子,对图像做卷积。从而求出图像对应的梯度图像。(至于为什么通过如图1这样的算子卷积,即可得到图像的梯度图像,请读者复习下卷积和倒数的概念自行推导)由于图像的边缘处往往是图像像素差异较大,梯度较大地方。因此我们通过合适的卷积核得到图像的梯度图像,即得到了图像的边缘图像。至于二阶算子的推导,与一阶类似。优点:传统算子梯度检测,只需要用合适的卷积核做卷积,即可快速得出对应的边缘图像。缺点:图像边缘不一定准确,复杂图像的梯度不仅仅出现在图像边缘,可以能出现在图像内部的色彩和纹理上。
也有基于深度学习方法hed,rcf等。由于这类网络都有同一个比较严重的缺陷,这里只举例hed网络。hed是基于FCN和VGG改进,同时引出6个loss进行优化训练,通过多个层输出不同scale的粒度的边缘,然后通过一个训练权重融合各个层的边缘结果。hed网络结构如下:
可以得到一个比较完整的梯度图像,可参考github的hed实现。优点:图像的梯度细节和边缘完整性,相比传统的边缘算子要好很多。但是hed对于边缘的图像内部的边缘并不能很好的区分。当然我们可以自行更改loss来尝试只拟合外部的图像边缘。但最致命的问题在于,基于vgg的hed的网络表达能力有限,对于图像和背景接近,或者图像和背景部分相融的图片,hed似乎就有点无能为力了。
2.基于区域分割的算法:
区域分割比较常用的如传统的算法结合遗传算法,区域生长算法,区域分裂合并,分水岭算法等。这里传统算法的思路是比较简单易懂的,如果有无法理解的地方,欢迎大家一起讨论学习。这里不再做过多的分析。
基于区域和语意的深度学习分割算法,是目前图像分割成果较多和研究的主要方向。例如FCN系列的全卷积网络,以及经典的医学图像分割常用的unet系列,以及rcnn系列发展下的maskrcnn,以及18年底的PAnet。基于语意的图像分割技术,无疑会成为图像分割技术的主流。
其中,基于深度学习语意的其他相关算法也可以间接或直接的应用到图像分割。如经典的图像matting问题。18年又出现了许多非常优秀的算法和论文。如Deep-Image-Matting,以及效果非常优秀的MIT的 semantic soft segmentation(sss).
基于语意的图像分割效果明显要好于其他的传统算法。我在解决图像分割的问题时,首先尝试用了hed网络。最后的效果并不理想。虽然也参考github,做了hed的一些fine-tune,但是还是上面提到的原因,在我多次尝试后,最终放弃。转而适用FCN系列的网络。但是fcn也无法解决图像和背景相融的问题。图片相融的分割,感觉即需要大的感受野,又需要未相融部分原图像细节,所以单原FCN的网络,很难做出准确的分割。中间还测试过很多其他相关的网络,但都效果不佳。考虑到感受野和原图像细节,尝试了resnet和densenet作为图像特征提取的底层。最终我测试了unet系列的网络:
unet的原始模型如图所示。在自己拍照爬虫等手段采集了将近1000张图片。去掉了图片质量太差的,图片内容太过类似的。爬虫最终收集160多张,自己拍照收集200张图片后,又用ps手动p了边缘图像,采用图像增强变换,大约有300*24张图片。原生unet网络的表现比较一般。在将unet普通的卷积层改为resnet后,网络的表达能力明显提升。在将resnet改为resnet101,此时,即使对于部分相融的图像,也能较好的分割了。但是unet的模型体积已经不能接受。
在最后阶段,看到maskrcnn的实例分割。maskrcnn一路由rcnn,fasterrcnn发展过来。于是用maskrcnn来加入自己的训练数据和label图像进行训练。maskrcnn的结果表现并不令人满意,对于边缘的定位,相比于其他算法,略显粗糙。在产品应用中,明显还不合适。
3.基于图的分割算法
基于深度学习的deepgrab,效果表现并不是十分理想。deepgrab的git作者backbone采用了deeplabv2的网络结构。并没有完全安装原论文来做。
论文原地址参考: https://arxiv.org/pdf/1707.00243.pdf
整体结构类似于encode和decoder。并没有太仔细的研究,因为基于resent101的结构,在模型体积,速度以及deeplab的分割精度上,都不能满足当前的需求。之前大致总结过计算机视觉的相关知识点,既然目前在讨论移动端模型,那后面就分模块总结下移动端模型的应用落地吧。
由于时间实在有限。这里并没有针对每个算法进行详细的讲解。后续我会从基础的机器学习算法开始总结。
4. 基于粒子群的图像分割国内外研究现状
图像分割是图像理解的基础,也是图像分析的关键步骤。资料显示,在分割过程中使用的先验知识越多,算法的精度越高,分割能力越强,但分割的速度变慢。本文针对图像阈值分割的鲁棒性及分割速度问题,研究基于图像灰度阈值的快速分割技术和方法。 主要工作为综合利用灰色理论、小波变换、模糊理论、模式识别、熵及直方图等概念,构造新的阈值分割模型,提高分割质量;另一方面,采用20世纪我国学者开始关注的群体智能算法,通过其高效、并行寻优能力来优化分割模型,提高分割速度。 主要研究成果包括: (1)将遗传算法、小波变换、图像二维熵和灰色理论相结合,提出一种基于二维灰熵模型的快速SAR图像分割方法。理论分析和实验结果表明,与传统Abutaleb分割方法相比,该方法鲁棒性好且分割速度明显加快。 (2)将Tsallis熵运用到图像阈值分割,利用粒子群优化算法的并行寻优能力,提出一种基于灰色Tsallis熵的SAR图像快速分割方法。该方法较传统的图像分割方法更具灵活性,且分割速度较快。 (3)将模糊理论与狄色关联分析理论相结合,提出一种基于灰色模糊熵的SAR图像快速分割方法。该方法弥补了传统模糊分割方法对噪声敏感的缺陷,鲁棒性增强,而且经粒子群优化算法的优化后,分割速度提高。 (4)研究了模式识别理论中的Fisher判别准则函数,并以之作为图像阈值的选取准则,提出基于Fisher准则和灰色后处理的快速图像分割方法。该方法一方面降低了边界区域信息对分割结果的影响,一方面借助粒子群优化算法提高了阈值的搜索速度,减少了分割时间。