1. 車牌識別演算法的研究與分類
車牌識別系統要綜合應用多種手段提取車牌區域,對汽車牌照的精確定位並最終完成對汽車牌照的識別。因此車牌識別系統要應對多種復雜環境,如車流量高峰期、照射反光、車牌污染等。利用模擬人腦智能的ANN,在識別車牌時能進行聯想記憶與推理,能夠較好地解決字元殘缺不完整而無法識別的問題。
車牌識別方法的研究
車牌識別系統主要包括車牌定位、字元分割、字元識別等工作模塊,同時系統統自身具有良好的維護性和擴展性,可在無需為車輛加裝其他特殊裝置情況下實現對車輛的自動檢測。
車牌定位方法的研究
車牌定位就是把車牌區域完整的從一副具有復雜背景的車輛圖像中分割出來,它是解決圖像處理中的實際問題,其方法多種多樣,當前最常見的定位技術主要有:基於邊緣檢測的方法、基於彩色分割的方法、基於小波變換的方法、遺傳演算法和人工神經網路技術等。
基於邊緣檢測的車牌定位方法:在對車牌進行定位前,先將汽車圖像通過灰度變換、直方圖均衡化等增強預處理,再經二值化,最後利用邊緣檢測運算元對圖像進行邊緣檢測。檢測到邊緣後在進行區域膨脹,腐蝕去無關的小物件,這時圖像會呈現出多個連通的判斷區域,最後找出所有連通域中最可能是車牌的那一個便可 。
基於色彩分割的車牌定位方法:主要由彩色分割和日標定位等模塊組成,在進行色彩分割前,要先將原始圖像從RGB色彩空間轉換到HSV空間,再在HSV空間內進行色彩分析。具體的分割運算:依次將四種車牌底色中一種為基準,對圖像中每一像素先對照表1進行色彩分量比較,對超出基準色限定范圍的像素直接設置為背景色(白色),否則統計所有落在該區間內的像素三分量的均值,作為分割計算的顏色中心,再對所有區間范圍內的像素計算其與顏色中心的色彩距離,若距離大於閥值,則設置為背景色,否則設置為日標色(黑色)
由於圖像背景的復雜性,色彩過濾後的圖像仍然可能包含多個可能的目標區域,需進一步使用車牌體態比特徵對多個目標區域進行過濾。
基於小波變換的車牌定位方法:先將車輛圖像轉換成索引圖像,然後對索引圖像作用小波變換,獲取圖像在不同子帶的小波系數。車牌識別特徵提取就是基於汽車圖像在小波變換後的LH高頻子帶,根據圖像中車牌區域的小波系數幅值大、密度高的特點,可以通過作用一個閾值來濾掉非牌照候選區域的小波系數。通過小波尺度分解提出紋理清晰且具有不同空間解析度、不同方向的邊緣子圖;再利用車牌日標區域具有水平方向低頻、垂直方向高頻的特點實現子圖提取,最後用數學形態學方法對小波分解後的細節圖像進行一系列的形態運算,進一步消除無用信息和雜訊,以確定車牌位置。
基於遺傳演算法的車牌定位方法:車牌日標區域的主要特點有車牌底色往往與車身顏色、字元顏色有較大差異;另外牌照的長度比變化有一定范圍,存在一個最大和最小長寬比。根據這些特點,可以在灰度圖像的基礎上提取相應的特徵。還有車牌內字元之間的間隔比較均勻,字元和牌照底色在灰度值上存在跳變,而字元本身與牌照底的內部都有較均勻灰度。又由於車牌有一個連續或由於磨損而不連續的邊框,車牌內字元有多個,基本呈水平排列,所以在牌照的矩形區域內存在較豐富的邊緣,呈現出規則的紋理特徵,因此在實際中我們只要先對彩色圖像進行灰度化和二值化處理,採用反映不同疏密度的一維濾波器組在水平方向對二值圖像進行濾波便可獲得車牌圖像的紋理特徵向量,再對待定局部區域圖像進行濾波處理獲得其特徵向量,將其與車牌特徵描述向量進行比較就能得到該區域作為車牌區的可能性。
採用神經網路實現車牌定位演算法:可採用對灰度圖像直接感知的方法實現,即使用一個滑動窗口作為采樣窗口(可根據車牌特徵選擇長條形或狹長形滑動窗口),在灰度圖像上依次移動,將窗口覆蓋下的圖像塊作為神經網路的輸入,所採用的BP網路是3層全連接前饋網路,其輸入層神經元數日為滑動窗口的尺寸,其輸出層神經元數日為l。當輸出接近二分之一時,表示滑動窗口下的圖像塊屬於車牌區域:當輸出接近二分之一時,表示滑動窗口下的圖像塊屬於背景區域。此演算法的樣本集的選擇和搜索策略都是很重要的,這都會對定位效果有影響,因此首先要對車牌和北京交替反復采樣,並且要在所選圖像中盡量包括各種不同光照條件、背景復雜度和牌照顏色,以有利於網路實現泛化,這樣可以加強網路的容錯性;而對於搜索策略而言,由於車牌一般位於圖像的中下方,因此一般採取白下而上遍歷,這樣不容易誤將車型標志處定位為車牌區域,並且當遍歷圖像後出現不止一個候選車牌區域的時候,也應優先考慮最下的候選車牌區域。另外,由於神經網路具有一定的容錯性,對於傾斜角度較大的車牌,要在神經網路處理之前先進行水平校正。
字元分割方法的研究
字元分割的任務是把多行或多字元圖像中的每個字元從整個圖像中切割出來成為單個字元。字元分割的演算法很多,通常根據處理對象的不同採用不同的演算法。常見的方法主要有:模板匹配法、水平投影法、聚類分析法、基於自適應退化形態特徵的圖像分割法等,在這里我們詳細闡述前三種方法。
模板匹配法:此方法先在二值圖像上計算豎直積分投影的平滑曲線,搜索平滑曲線的局部最小值得到一個波谷位置序列;再將相鄰兩個波谷分別作為左右邊界提取出一組矩形區域;最後,根據一定的規則對矩形區域進行刪除、分裂、合並及調整大小,從而實現對車牌區域的單字元分割。
水平投影法:此方法先自下而上再白上而下對車牌區域圖像進行逐行掃描,找到並分別記錄下掃描到的第1個白色像素點位置,確定圖像大致的高度范圍;在此高度范圍之內再自左向右逐行掃描,遇到第1個白色像素時認為是字元分割的起始位置,然後繼續掃描,直至遇到沒有白色像素的列,則認為是這個字元分割結果。重復上述過程,直至圖像的最右端,得到每個字元比較精確的寬度范圍:在已知的每個字元比較精確的寬度范圍內,再分別進行自上而下和白下而上的逐行掃描來確定每個字元精確的高度范圍。
聚類分析法:此方法是按照屬於同一個字元的像素構成一個連通域的原則,再結合先驗知識,字元的高度、間距的固定比例關系等,來逐個分割車牌區域中的字元的。
2. 圖像分割技術論文
圖像分割是圖像處理與計算機視覺的基本問題之一,是圖像處理圖像分析的關鍵步驟。我整理了圖像分割技術論文,歡迎閱讀!
圖像分割技術研究
摘要:圖像分割是圖像處理與計算機視覺的基本問題之一,是圖像處理圖像分析的關鍵步驟。本文介紹了基於閾值的分割方法和圖像分割的圖像分割性能的評價、應用現狀;最後總結出圖像分割的發展趨勢。
關鍵詞:圖像分割、閾值、邊緣檢測、區域分割
中圖分類號: TN957.52 文獻標識碼: A
1引言
隨著圖像分割技術研究的深入,其應用日趨廣泛。凡屬需要對圖像目標進行提取、測量的工作都離不開圖像分割。圖像分割是圖像處理、模式識別和人工智慧等多個領域中一個十分重要且又十分困難的問題,是計算機視覺技術中首要的、重要的關鍵步驟。圖像分割結果的好壞直接影響對計算機視覺中的圖像理解。現有的方法多是為特定應用設計的,有很大的針對性和局限性,到目前為止還不存在一個通用的方法,也不存在一個判斷分割是否成功的客觀標准。因此,對圖像分割的研究目前還缺乏一個統一的理論體系,使得圖像分割的研究仍然是一個極富有挑戰性的課題。
2圖像分割方法
圖像分割(Image Segmentation),簡單地說就是將一幅數字圖像分割成不同的區域,在同一區域內具有在一定的准則下可認為是相同的性質,如灰度、顏色、紋理等。而任何相鄰區域之間其性質具有明顯的區別。
2.1基於灰度特徵的閾值分割方法
閾值分割技術是經典的、流行的圖象分割方法之一,它是用一個或幾個閾值將圖像的灰度級分為幾個部分,認為屬於同一個部分的像素是同一個物體。
這類方法主要包括以下幾種:
(1)單閾值法,用一個全局閾值區分背景和目標。當一幅圖像的直方圖具有明顯的雙峰時,選擇兩峰之間的谷底作為閾值。
(2)雙閾值法,用兩個閾值區分背景和目標。通過設置兩個閾值,以防單閾值設置閾值過高或過低,把目標像素誤歸為背景像素,或把背景像素誤歸為目標像素。
(3)多閾值法,當存在照明不均,突發雜訊等因素或背景灰度變化較大時,整幅圖像不存在合適的單一閾值,單一閾值不能兼顧圖像不同區域的具體情況,這時可將圖像分塊處理,對每一塊設一個閾值。
2.2 邊緣檢測分割法
基於邊緣檢測技術可以按照處理的順序分為並行邊緣檢測和串列邊緣檢測兩大類。常見的邊緣檢測方法有:差分法、模板匹配法及統計方法等。由於邊緣灰度變化規律一般體現為階梯狀或者脈沖狀。邊緣與差分值的關系可以歸納為兩種情況,其一是邊緣發生在差分最大值或者最小值處;其二是邊緣發生在過零處。
2.3基於區域的分割方法
基於區域的分割方法利用的是圖像的空間性質。該方法認為分割出來的某一區域具有相似的性質。常用的方法有區域生長法和區域分裂合並法。該類方法對含有復雜場景或自然景物等先驗知識不足的圖像進行分割,效果較好。
區域生長方法是把一幅圖像分成許多小區域開始的,這些初始的小區域可能是小的鄰域甚至是單個像素,在每個區域中,通過計算能反映一個物體內像素一致性的特徵,作為區域合並的判斷標准。區域合並的第一步是賦給每個區域一組參數,即特徵。接下來對相鄰區域的所有邊界進行考查,如果給定邊界兩側的特徵值差異明顯,那麼這個邊界很強,反之則弱。強邊界允許繼續存在,而弱邊界被消除,相鄰區域被合並。沒有可以消除的弱邊界時,區域合並過程結束,圖像分割也就完成。
2.4結合特定工具的圖像分割技術
20世紀80年代末以來,隨著一些特殊理論的出現及其成熟,如數學形態學、分形理論、模糊數學、小波分析、模式識別、遺傳演算法等,大量學者致力於將新的概念、新的方法用於圖像分割,有效地改善了分割效果。產生了不少新的分割演算法。下面對這些演算法做一些簡單的概括。
2.4.1基於數學形態學的分割演算法
分水嶺演算法是一種經典的借鑒了數學形態理論的分割方法。該方法中,將一幅圖像比為一個具有不同高度值的地形,高灰度值處被認為是山脊,底灰度值處被認為是山谷,將一滴水從任一點流下,它會朝地勢底的地方流動,最終聚於某一局部最底點,最後所有的水滴會分聚在不同的吸引盆地,由此,相應的圖像就被分割成若幹部分。分水嶺演算法具有運算簡單、性能優良,能夠較好提取運動對象輪廓、准確得到運動物體邊緣的優點。但分割時需要梯度信息,對雜訊較敏感。
2.4.2基於模糊數學的分割演算法
目前,模糊技術在圖像分割中應用的一個顯著特點就是它能和現有的許多圖像分割方法相結合,形成一系列的集成模糊分割技術,例如模糊聚類、模糊閾值、模糊邊緣檢測技術等。
這類方法主要有廣義模糊運算元與模糊閾值法兩種分割演算法。
(1)廣義模糊運算元在廣義模糊集合的范圍內對圖像處理,使真正的邊緣處於較低灰度級,但還有一些不是邊緣的像素點的灰度也在較低灰度級中,雖然演算法的計算簡明,且邊緣細膩,但得到的邊緣圖會出現斷線問題。
(2)模糊閾值法引入灰度圖像的模糊數學描述,通過計算圖像的模糊熵來選取圖像的分割閾值,後用閾值法處理圖像得到邊界。
2.4.3基於遺傳演算法的分割方法
此演算法是受生物進化論思想提出的一種優化問題的解決方法,它使用參數編碼集而不是參數本身,通過模擬進化,以適者生存的策略搜索函數的解空間,它是在點群中而不是在單點進行尋優。遺傳演算法在求解過程中使用隨機轉換規則而不是確定性規則來工作,它唯一需要的信息是適應值,通過對群體進行簡單的復制、雜交、變異作用完成搜索過程。由於此法能進行能量函數全局最小優化搜索,且可以降低搜索空間維數,降低演算法對模板初始位置的敏感,計算時間也大為減少。其缺點是容易收斂於局部最優。
2.4.4基於神經網路分割演算法
人工神經網路具有自組織、自學習、自適應的性能和非常強的非線性映射能力,適合解決背景知識不清楚、推理規則不明確和比較復雜的分類問題,因而也適合解決比較復雜的圖像分割問題。原則上講,大部分分割方法都可用 ANN(attificial neural network)實現。ANN 用於分割的研究起步較晚,只有多層前饋NN,多層誤差反傳(BP)NN,自組織NN,Hopfield NN以及滿足約束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了應用。使用一個多層前向神經網路用於圖象分割,輸入層神經元的數目取決於輸入特徵數,而輸出層神經元的數目等同於分類的數目。
2.5圖像分割中的其他方法
前面介紹了4大類圖像分割較常用的方法,有關圖像分割方法和文獻很多,新方法不斷產生,這些方法有的只對特定的情形有效,有的綜合了幾種方法,放在一起統稱為第5類。
(1)標號法(labeling)是一種基於統計學的方法,這種方法將圖像欲分割成的幾個區域各以一個不同的標號來表示,用一定的方式對圖像中的每一個像素賦以標號,標號相同的像素就合並成該標號所代表的區域。
(2)基於Snak模型的分割方法,基於Snake模型的分割是通過對能量函數的動態優化來逼近圖像目標的真實輪廓的
(3)紋理分割,由於新的數學工具的引入,紋理分割技術取得了一些進展,張蓬等人將小波分析應用於紋理基元提取。
(4)基於知識的圖像分割方法,直接建立在先驗知識的基礎上,使分割更符合實際圖像的特點。該方法的難度在於知識的正確合理的表示與利用。
3圖像分割性能的評價
圖像分割評價主要有兩個方面的內容:一是研究各分割演算法在不同情況下的表現,掌握如何選擇和控制其參數設置,以適應不同需要。二是分析多個分割演算法在分割同一圖像時的性能,比較優劣,以便在實際應用中選取合適的演算法。分割評價方法分為分析法和實驗法兩大類。分析法是直接分析分割演算法本身的原理及性能,而實驗法是通過對測試圖像的分割結果來評價演算法的。兩種方法各有優劣,由於缺乏可靠理論依據,並非所有分割演算法都能夠通過分析法分析其性能。每種評價方法都是出於某種考慮而提出來的,不同的評價方法只能反映分割演算法性能的某一性能。另一方面,每一種分割演算法的性能是由多種因素決定的,因此,有可能需要多種准則來綜合評價。
4圖像分割技術的發展趨勢
隨著神經網路、遺傳演算法、統計學理論、小波理論以及分形理論等在圖像分割中的廣泛應用,圖像分割技術呈現出以下的發展趨勢:(1)多種特徵的融合。(2)多種分割方法的結合。(3)新理論與新方法。
參考文獻
[1] [美]RC岡薩雷斯.數字圖像處理(第二版)[M].阮秋琦,等譯.北京:電子工業出版社,2003
[2] 章毓晉.圖像分割[M].北京:科學出版社,2001.
[3] 李弼程,彭天強,彭波等.智能圖像處理技術[M].北京:電子工業出版社,2004.
[4] 楊暉,曲秀傑.圖像分割方法綜述[J].電腦開發與應用。2005,18(3):21-23.
點擊下頁還有更多>>>圖像分割技術論文
3. 圖像分割演算法總結
圖像處理的很多任務都離不開圖像分割。因為圖像分割在cv中實在太重要(有用)了,就先把圖像分割的常用演算法做個總結。
接觸機器學習和深度學習時間已經不短了。期間看過各種相關知識但從未總結過。本文過後我會盡可能詳細的從工程角度來總結,從傳統機器學習演算法,傳統計算機視覺庫演算法到深度學習目前常用演算法和論文,以及模型在各平台的轉化,量化,服務化部署等相關知識總結。
圖像分割常用演算法大致分為下面幾類。由於圖像的能量范函,邊緣追蹤等方法的效果往往只能解決特定問題,效果並不理想,這里不再闡述。當然二值化本身也可以分割一些簡單圖像的。但是二值化演算法較多,我會專門做一個文章來總結。這里不再贅述。
1.基於邊緣的圖像分割演算法:
有利用圖像梯度的傳統演算法運算元的sobel,roberts,prewitt,拉普拉斯以及canny等。
這些演算法的基本思想都是採用合適的卷積運算元,對圖像做卷積。從而求出圖像對應的梯度圖像。(至於為什麼通過如圖1這樣的運算元卷積,即可得到圖像的梯度圖像,請讀者復習下卷積和倒數的概念自行推導)由於圖像的邊緣處往往是圖像像素差異較大,梯度較大地方。因此我們通過合適的卷積核得到圖像的梯度圖像,即得到了圖像的邊緣圖像。至於二階運算元的推導,與一階類似。優點:傳統運算元梯度檢測,只需要用合適的卷積核做卷積,即可快速得出對應的邊緣圖像。缺點:圖像邊緣不一定準確,復雜圖像的梯度不僅僅出現在圖像邊緣,可以能出現在圖像內部的色彩和紋理上。
也有基於深度學習方法hed,rcf等。由於這類網路都有同一個比較嚴重的缺陷,這里只舉例hed網路。hed是基於FCN和VGG改進,同時引出6個loss進行優化訓練,通過多個層輸出不同scale的粒度的邊緣,然後通過一個訓練權重融合各個層的邊緣結果。hed網路結構如下:
可以得到一個比較完整的梯度圖像,可參考github的hed實現。優點:圖像的梯度細節和邊緣完整性,相比傳統的邊緣運算元要好很多。但是hed對於邊緣的圖像內部的邊緣並不能很好的區分。當然我們可以自行更改loss來嘗試只擬合外部的圖像邊緣。但最致命的問題在於,基於vgg的hed的網路表達能力有限,對於圖像和背景接近,或者圖像和背景部分相融的圖片,hed似乎就有點無能為力了。
2.基於區域分割的演算法:
區域分割比較常用的如傳統的演算法結合遺傳演算法,區域生長演算法,區域分裂合並,分水嶺演算法等。這里傳統演算法的思路是比較簡單易懂的,如果有無法理解的地方,歡迎大家一起討論學習。這里不再做過多的分析。
基於區域和語意的深度學習分割演算法,是目前圖像分割成果較多和研究的主要方向。例如FCN系列的全卷積網路,以及經典的醫學圖像分割常用的unet系列,以及rcnn系列發展下的maskrcnn,以及18年底的PAnet。基於語意的圖像分割技術,無疑會成為圖像分割技術的主流。
其中,基於深度學習語意的其他相關演算法也可以間接或直接的應用到圖像分割。如經典的圖像matting問題。18年又出現了許多非常優秀的演算法和論文。如Deep-Image-Matting,以及效果非常優秀的MIT的 semantic soft segmentation(sss).
基於語意的圖像分割效果明顯要好於其他的傳統演算法。我在解決圖像分割的問題時,首先嘗試用了hed網路。最後的效果並不理想。雖然也參考github,做了hed的一些fine-tune,但是還是上面提到的原因,在我多次嘗試後,最終放棄。轉而適用FCN系列的網路。但是fcn也無法解決圖像和背景相融的問題。圖片相融的分割,感覺即需要大的感受野,又需要未相融部分原圖像細節,所以單原FCN的網路,很難做出准確的分割。中間還測試過很多其他相關的網路,但都效果不佳。考慮到感受野和原圖像細節,嘗試了resnet和densenet作為圖像特徵提取的底層。最終我測試了unet系列的網路:
unet的原始模型如圖所示。在自己拍照爬蟲等手段採集了將近1000張圖片。去掉了圖片質量太差的,圖片內容太過類似的。爬蟲最終收集160多張,自己拍照收集200張圖片後,又用ps手動p了邊緣圖像,採用圖像增強變換,大約有300*24張圖片。原生unet網路的表現比較一般。在將unet普通的卷積層改為resnet後,網路的表達能力明顯提升。在將resnet改為resnet101,此時,即使對於部分相融的圖像,也能較好的分割了。但是unet的模型體積已經不能接受。
在最後階段,看到maskrcnn的實例分割。maskrcnn一路由rcnn,fasterrcnn發展過來。於是用maskrcnn來加入自己的訓練數據和label圖像進行訓練。maskrcnn的結果表現並不令人滿意,對於邊緣的定位,相比於其他演算法,略顯粗糙。在產品應用中,明顯還不合適。
3.基於圖的分割演算法
基於深度學習的deepgrab,效果表現並不是十分理想。deepgrab的git作者backbone採用了deeplabv2的網路結構。並沒有完全安裝原論文來做。
論文原地址參考: https://arxiv.org/pdf/1707.00243.pdf
整體結構類似於encode和decoder。並沒有太仔細的研究,因為基於resent101的結構,在模型體積,速度以及deeplab的分割精度上,都不能滿足當前的需求。之前大致總結過計算機視覺的相關知識點,既然目前在討論移動端模型,那後面就分模塊總結下移動端模型的應用落地吧。
由於時間實在有限。這里並沒有針對每個演算法進行詳細的講解。後續我會從基礎的機器學習演算法開始總結。
4. 基於粒子群的圖像分割國內外研究現狀
圖像分割是圖像理解的基礎,也是圖像分析的關鍵步驟。資料顯示,在分割過程中使用的先驗知識越多,演算法的精度越高,分割能力越強,但分割的速度變慢。本文針對圖像閾值分割的魯棒性及分割速度問題,研究基於圖像灰度閾值的快速分割技術和方法。 主要工作為綜合利用灰色理論、小波變換、模糊理論、模式識別、熵及直方圖等概念,構造新的閾值分割模型,提高分割質量;另一方面,採用20世紀我國學者開始關注的群體智能演算法,通過其高效、並行尋優能力來優化分割模型,提高分割速度。 主要研究成果包括: (1)將遺傳演算法、小波變換、圖像二維熵和灰色理論相結合,提出一種基於二維灰熵模型的快速SAR圖像分割方法。理論分析和實驗結果表明,與傳統Abutaleb分割方法相比,該方法魯棒性好且分割速度明顯加快。 (2)將Tsallis熵運用到圖像閾值分割,利用粒子群優化演算法的並行尋優能力,提出一種基於灰色Tsallis熵的SAR圖像快速分割方法。該方法較傳統的圖像分割方法更具靈活性,且分割速度較快。 (3)將模糊理論與狄色關聯分析理論相結合,提出一種基於灰色模糊熵的SAR圖像快速分割方法。該方法彌補了傳統模糊分割方法對雜訊敏感的缺陷,魯棒性增強,而且經粒子群優化演算法的優化後,分割速度提高。 (4)研究了模式識別理論中的Fisher判別准則函數,並以之作為圖像閾值的選取准則,提出基於Fisher准則和灰色後處理的快速圖像分割方法。該方法一方面降低了邊界區域信息對分割結果的影響,一方面藉助粒子群優化演算法提高了閾值的搜索速度,減少了分割時間。