智能演算法在圖像分割中的應用_求智能演算法優化Normalized Cut的圖像分割這篇論文

❶ 什麼是人工智慧視覺與圖像識別中應用最廣泛的

在人工智慧視覺與圖像識別中，應用旅岩最廣泛的技術包括以下幾種：

1. 卷積神經網路（Convolutional Neural Networks，CNN）：卷積神經網路是一種專門用於處理圖像和視覺數據的深度學習演算法，具有較高的識別准確率。它通過多層卷積、池化和全連接等層次處理圖像，從而實現對圖像的特徵提取和分類。

2. 目標檢測（Object Detection）：目標檢測是指在圖像中自動識別和定位感興趣的目標物體。常見的目標檢測演算法包括基於區域的卷積神經網路（Region-based CNN，R-CNN）、快速區域卷積神經網路（Fast R-CNN）、單階段檢測網格（Single Shot MultiBox Detector，SSD）等。

3. 圖像分割（Image Segmentation）：圖像分割是指將圖像劃分成若干個具有語義意義的子區域。常用的圖像分割演算法包括基於區域的卷積神經網路（R-CNN）、裂鎮衫全卷積神經網路（Fully Convolutional Networks，FCN）等。

4. 人臉識別（Face Recognition）：人臉識別是一種基於圖像或視頻中人臉特肆腔征進行身份認證的技術。常見的人臉識別演算法包括卷積神經網路（CNN）、支持向量機（Support Vector Machine，SVM）等。

綜上所述，卷積神經網路、目標檢測、圖像分割和人臉識別是人工智慧視覺與圖像識別中應用最廣泛的技術。這些技術在人臉識別、智能安防、自動駕駛、軍事偵察和醫學影像分析等方面均有重要應用。

❷ 圖像分割演算法那麼多如何正確的使用適合的演算法

從學術角度講圖像分割主要分成3大類，一是基於邊緣的，二是基於區域的，三是基於紋理的。由於基於紋理的也可以看成是基於區域的，所以有些專家也把分割方法分成基於邊緣和基於區域兩大類。
選擇演算法的時候主要參考你要分割的圖像樣本的特點。
如果圖像的邊界特別分明，比如綠葉和紅花，在邊界處紅綠明顯不同，可以精確提取到邊界，這時候用基於邊緣的方法就可行。但如果是像醫學圖像一樣，輪廓不是特別明顯，比如心臟圖像，左心房和左心室顏色比較接近，它們之間的隔膜僅僅是顏色比它們深一些，但是色彩上來說很接近，這時候用基於邊緣的方法就不合適了，用基於區域的方法更好。再比如帶紋理的圖像，例如條紋衫，如果用基於邊緣的方法很可能就把每一條紋都分割成一個物體，但實際上衣服是一個整體，這時候用基於紋理的方法就能把紋理相同或相似的區域分成一個整體。
不過總體來說，基於區域的方法近些年更熱一些，如Meanshift分割方法、測地線活動輪廓模型、JSEG等。

❸ 醫療健康領域人工智慧在醫學影像方面的應用

人工智慧在醫學影像方面的應用，是指利用計算機技術和人工智慧演算法對醫學影像進行分析和診斷。這種技術可以幫助醫生更准確地診斷疾病，提納洞高醫療效率和准確性。

總之，人工智慧在醫學影像方面的應用，可以幫助醫生更准確地診斷疾病，提高醫療效率和准確性，為病人提供更好的醫療服務。

❹ 圖像分割演算法總結

圖像處理的很多任務都離不開圖像分割。因為圖像分割在cv中實在太重要(有用)了，就先把圖像分割的常用演算法做個總結。

        接觸機器學習和深度學習時間已經不短了。期間看過各種相關知識但從未總結過。本文過後我會盡可能詳細的從工程角度來總結，從傳統機器學習演算法，傳統計算機視覺庫演算法到深度學習目前常用演算法和論文，以及模型在各平台的轉化，量化，服務化部署等相關知識總結。

        圖像分割常用演算法大致分為下面幾類。由於圖像的能量范函，邊緣追蹤等方法的效果往往只能解決特定問題，效果並不理想，這里不再闡述。當然二值化本身也可以分割一些簡單圖像的。但是二值化演算法較多，我會專門做一個文章來總結。這里不再贅述。

1.基於邊緣的圖像分割演算法：

有利用圖像梯度的傳統演算法運算元的sobel，roberts，prewitt,拉普拉斯以及canny等。

這些演算法的基本思想都是採用合適的卷積運算元，對圖像做卷積。從而求出圖像對應的梯度圖像。(至於為什麼通過如圖1這樣的運算元卷積，即可得到圖像的梯度圖像，請讀者復習下卷積和倒數的概念自行推導)由於圖像的邊緣處往往是圖像像素差異較大，梯度較大地方。因此我們通過合適的卷積核得到圖像的梯度圖像，即得到了圖像的邊緣圖像。至於二階運算元的推導，與一階類似。優點：傳統運算元梯度檢測，只需要用合適的卷積核做卷積，即可快速得出對應的邊緣圖像。缺點：圖像邊緣不一定準確，復雜圖像的梯度不僅僅出現在圖像邊緣，可以能出現在圖像內部的色彩和紋理上。

             也有基於深度學習方法hed，rcf等。由於這類網路都有同一個比較嚴重的缺陷，這里只舉例hed網路。hed是基於FCN和VGG改進，同時引出6個loss進行優化訓練，通過多個層輸出不同scale的粒度的邊緣，然後通過一個訓練權重融合各個層的邊緣結果。hed網路結構如下：

可以得到一個比較完整的梯度圖像，可參考github的hed實現。優點：圖像的梯度細節和邊緣完整性，相比傳統的邊緣運算元要好很多。但是hed對於邊緣的圖像內部的邊緣並不能很好的區分。當然我們可以自行更改loss來嘗試只擬合外部的圖像邊緣。但最致命的問題在於，基於vgg的hed的網路表達能力有限，對於圖像和背景接近，或者圖像和背景部分相融的圖片，hed似乎就有點無能為力了。

2.基於區域分割的演算法：

區域分割比較常用的如傳統的演算法結合遺傳演算法，區域生長演算法，區域分裂合並，分水嶺演算法等。這里傳統演算法的思路是比較簡單易懂的，如果有無法理解的地方，歡迎大家一起討論學習。這里不再做過多的分析。

基於區域和語意的深度學習分割演算法，是目前圖像分割成果較多和研究的主要方向。例如FCN系列的全卷積網路，以及經典的醫學圖像分割常用的unet系列，以及rcnn系列發展下的maskrcnn，以及18年底的PAnet。基於語意的圖像分割技術，無疑會成為圖像分割技術的主流。

其中，基於深度學習語意的其他相關演算法也可以間接或直接的應用到圖像分割。如經典的圖像matting問題。18年又出現了許多非常優秀的演算法和論文。如Deep-Image-Matting，以及效果非常優秀的MIT的 semantic soft segmentation(sss).

基於語意的圖像分割效果明顯要好於其他的傳統演算法。我在解決圖像分割的問題時，首先嘗試用了hed網路。最後的效果並不理想。雖然也參考github，做了hed的一些fine-tune,但是還是上面提到的原因，在我多次嘗試後，最終放棄。轉而適用FCN系列的網路。但是fcn也無法解決圖像和背景相融的問題。圖片相融的分割，感覺即需要大的感受野，又需要未相融部分原圖像細節，所以單原FCN的網路，很難做出准確的分割。中間還測試過很多其他相關的網路，但都效果不佳。考慮到感受野和原圖像細節，嘗試了resnet和densenet作為圖像特徵提取的底層。最終我測試了unet系列的網路：

unet的原始模型如圖所示。在自己拍照爬蟲等手段採集了將近1000張圖片。去掉了圖片質量太差的，圖片內容太過類似的。爬蟲最終收集160多張，自己拍照收集200張圖片後，又用ps手動p了邊緣圖像，採用圖像增強變換，大約有300*24張圖片。原生unet網路的表現比較一般。在將unet普通的卷積層改為resnet後，網路的表達能力明顯提升。在將resnet改為resnet101，此時，即使對於部分相融的圖像，也能較好的分割了。但是unet的模型體積已經不能接受。

在最後階段，看到maskrcnn的實例分割。maskrcnn一路由rcnn,fasterrcnn發展過來。於是用maskrcnn來加入自己的訓練數據和label圖像進行訓練。maskrcnn的結果表現並不令人滿意，對於邊緣的定位，相比於其他演算法，略顯粗糙。在產品應用中，明顯還不合適。

3.基於圖的分割演算法

基於深度學習的deepgrab,效果表現並不是十分理想。deepgrab的git作者backbone採用了deeplabv2的網路結構。並沒有完全安裝原論文來做。

論文原地址參考： https://arxiv.org/pdf/1707.00243.pdf

整體結構類似於encode和decoder。並沒有太仔細的研究，因為基於resent101的結構，在模型體積，速度以及deeplab的分割精度上，都不能滿足當前的需求。之前大致總結過計算機視覺的相關知識點，既然目前在討論移動端模型，那後面就分模塊總結下移動端模型的應用落地吧。

由於時間實在有限。這里並沒有針對每個演算法進行詳細的講解。後續我會從基礎的機器學習演算法開始總結。

❺ 圖像分割的相關應用

1. 機器視覺
2. 人臉識別
3. 指紋識別
4. 交通控制系統
5. 在衛星圖像中定位物體（道路告判、森胡汪林等）
6. 行人檢測
7. 醫學影像，包括:
（1）腫瘤和其他病理的定位
（2）組織體積的測量
（3）計算機引導的手術
（4）診斷
（5）治療方案的定製
（6）解剖學結構的研究
現在已經有了許多各種用途的圖像分割演算法。對於圖像分割問題沒有統一襪做改的解決方法，這一技術通常要與相關領域的知識結合起來，這樣才能更有效的解決該領域中的圖像分割問題。

❻ 醫學圖像分割及應用

截至目前，我們已經學習了很多關於圖像分割的相關演算法，就此，對圖像的分割演算法做以下總結：

基於能量的分割方法，有一些顯著的缺點，如：

水平集演算法的提出可以有效解決上述缺點，所謂水平，即指同一高度的一些像素點，將水平集的演算法引入到圖像分析的領域，水平集算此氏法提出了一個更高的維度來表達這些曲線。

水平集演算法對圖像的活動輪廓分割有一些新的術語表達：
contour front
contour energy forces
image energy speed function

為了避免3D 輪廓計算的復雜性，提出一個零水平集（zero level set）的概念，並且提出了一個動態的坐標平面表達front的演化，如下圖所示，我們總能帶鏈總結出當前時刻的水平面，根據曲面的函數表達，總能總能計算出下一時刻的輪廓演化。與圖像能量表達的輪廓不同，水平集演算法多了一個平面的維度對輪廓施加影響。

水平集演算法通過零水平集的設置和初始輪廓的約束求解偏微分方程的方式實現。

如下圖所示，形象地表示了一個水平集演算法的原理示意圖，在front裡面的點小於0，而front外面的點大於0，零水平面所對應的點設為0

不需要移動輪廓，僅僅通過改變圖片中的一些值就可以很容易地實現圖像地分割。

水平集演算法的運算流程如下：

水平集演算法的一個重要概念是速度函數（speed function）,而對速度函數
有以下三個概念：

front通過迭代實現繁衍，而迭代的過程必有一個停止條件，此條件是由森行散圖像本身的性質決定的，gradient函數來表示這一停止條件，如 ,有以下三種常用的函數：

而

水平集演算法的擴展可以從兩個方向進行:

為了改進水平，提出了一個快速行進演算法（Fast Marching）

Fast Marching 演算法使得front朝著一個方向前進，要麼擴展，要麼收縮，避免了分割輪廓的抖動，提高了演算法的運行速度，同時，為了避免輪廓的碰撞，每個網路與輪廓點只交叉一次。

在實際的演算法應用中，通常將Fast Marching演算法和水平集演算法結合來完成圖像的分割，用Fast Marching 演算法高效的實現輪廓線的行進，完成一個粗分割，當演算法趨向於收斂時，用水平集演算法完成更為精準的分割。

如下圖所示，任意一個時刻點輪廓線網格點交叉的坐標 ,並且在任意高度處，表面會給出在時刻所到達點的集合。

❼ R-CNN和Mask R-CNN在圖像分割中的應用史

姓名：王咫毅

學號：19021211150

【嵌牛導讀】機器學習成為現在研究的一大熱門，而機器學習所應用到的領域圖像處理目標檢測圖像分割都已經日趨成熟，而cnn是如何應用到圖像分割里邊的呢？而其發展過程又有哪些呢？

【嵌牛鼻子】機器學習 cnn

【嵌牛提問】r-cnn和mask r-cnn有什麼區別？兩者又是怎麼形成的？

【嵌牛正文】

在 Athelas (Athelas 通過深度學習進行血液診斷)，我們使用卷積神經網路（CNN）不僅僅是分類！在這篇文章中，我們將看到如何在圖像實例分割中使用CNN，效果很好。

自從 Alex Krizhevsky，Geoff Hinton和Ilya Sutskever在2012年贏得ImageNet以來，卷積神經網路（CNNs）已經成為圖像分類的黃金標准。事實上，從那時起，CNN已經改進到現在他們在ImageNet挑戰中勝過人類的程度！

need-to-insert-img

CNN現在在ImageNet挑戰中勝過人類。上圖中的y軸是ImageNet上的錯誤率。

雖然這些結果令人印象深刻，但圖像分類遠比真人類視覺理解的復雜性和多樣性簡單得多。

need-to-insert-img

分類挑戰中使用的圖像示例。請注意圖像是如何構圖良好的，並且只有一個對象。

在分類中，通常有一個圖像，其中一個對象作為焦點，任務是說該圖像是什麼（見上文）。但是，當我們觀察周圍的世界時，我們會執行更復雜的任務。

need-to-insert-img

現實生活中的景點通常由許多不同的，重疊的物體，背景和動作組成。

我們看到復雜的景點有多個重疊的物體和不同的背景，我們不僅要對這些不同的物體進行分類，還要確定它們之間的界限，差異和關系！

need-to-insert-img

CNN可以幫助我們完成這些復雜的任務嗎？也就是說，給定一個更復雜的圖像，我們可以使用CNN來識別圖像中的不同對象及其邊界嗎？正如Ross Girshick和他的同齡人在過去幾年所表明的那樣，答案是肯定的。

這篇文章的目標

通過這篇文章，我們將介紹在對象檢測和分割中使用的一些主要技術背後的直覺，並了解它們是如何從一個實現發展到下一個實現的。特別是，我們將介紹R-CNN（地區CNN），這是CNN對此問題的原始應用，以及其後代Fast R-CNN和Faster R-CNN。最後，我們將介紹最近由Facebook Research發布的一篇文章Mask R-CNN，它擴展了這種對象檢測技術以提供像素級分割。以下是本文中引用的論文：

R-CNN： https ： //arxiv.org/abs/1311.2524

Fast R-CNN： https ： //arxiv.org/abs/1504.08083

Faster R-CNN： https ： //arxiv.org/abs/1506.01497

Mask R-CNN： https ： //arxiv.org/abs/1703.06870

2014年：R-CNN - CNN在物體檢測中的早期應用

need-to-insert-img

諸如R-CNN的對象檢測演算法接收圖像並識別圖像中主要對象的位置和分類。

受多倫多大學Hinton實驗室研究的啟發，由Jitendra Malik教授領導的加州大學伯克利分校的一個小團隊問自己，今天看來是一個不可避免的問題：

在多大程度上[Krizhevsky等。al的結果]推廣到物體檢測？

對象檢測的任務是在圖像中查找不同的對象並對其進行分類（如上圖所示）。由Ross Girshick（我們將再次看到的名字），Jeff Donahue和Trevor Darrel組成的團隊發現，通過測試PASCAL VOC Challenge，這是一種類似於ImageNet的流行物體檢測挑戰，Krizhevsky的結果可以解決這個問題。他們寫，

本文首次表明，與基於簡單HOG類功能的系統相比，CNN可以在PASCAL VOC上實現更高的物體檢測性能。

現在讓我們花一點時間來了解他們的架構，CNNs區域（R-CNN）是如何工作的。

了解R-CNN

R-CNN的目標是接收圖像，並正確識別圖像中主要對象（通過邊界框）的位置。

輸入：圖像

輸出：圖像中每個對象的邊界框+標簽。

但是我們如何找出這些邊界框的位置？R-CNN做了我們可能直觀地做的事情 - 在圖像中提出一堆框，看看它們中的任何一個是否實際上對應於一個對象。

need-to-insert-img

選擇性搜索查看多個比例的窗口，並查找共享紋理，顏色或強度的相鄰像素

R-CNN使用稱為選擇性搜索的過程創建這些邊界框或區域提議，您可以在此處閱讀。在較高的層次上，選擇性搜索（如上圖所示）通過不同大小的窗口查看圖像，並且對於每個尺寸，嘗試通過紋理，顏色或強度將相鄰像素組合在一起以識別對象。

need-to-insert-img

在創建一組區域提議後，R-CNN通過AlexNet的修改版本傳遞圖像，以確定它是否是有效區域。

一旦提出建議，R-CNN將該區域變為標準的方形大小，並將其傳遞給AlexNet的修改版本（ImageNet 2012的獲獎提交，啟發了R-CNN），如上所示。

在CNN的最後一層，R-CNN增加了一個支持向量機（SVM），它簡單地分類這是否是一個對象，如果是的話，是什麼對象。這是上圖中的第4步。

改進邊界框

現在，在盒子里找到了這個物體，我們可以收緊盒子以適應物體的真實尺寸嗎？我們可以，這是R-CNN的最後一步。R-CNN對區域提議運行簡單的線性回歸，以生成更緊密的邊界框坐標以獲得最終結果。以下是此回歸模型的輸入和輸出：

輸入：與對象對應的圖像的子區域。

輸出：子區域中對象的新邊界框坐標。

總而言之，R-CNN只是以下步驟：

1.為邊界框生成一組提議。

2.通過預先訓練的AlexNet運行邊界框中的圖像，最後運行SVM，以查看框中圖像的對象。

3.通過線性回歸模型運行該框，一旦對象被分類，就為框輸出更緊密的坐標。

2015年：快速R-CNN - 加速並簡化R-CNN

need-to-insert-img

Ross Girshick寫了R-CNN和Fast R-CNN。他繼續在Facebook Research推動計算機視覺的界限。

R-CNN效果很好，但由於一些簡單的原因，它確實很慢：

它需要CNN（AlexNet）的正向傳遞，用於每個單個圖像的每個區域建議（每個圖像大約2000個前向傳遞！）。

它必須分別訓練三個不同的模型 - 用於生成圖像特徵的CNN，用於預測類的分類器，以及用於收緊邊界框的回歸模型。這使得管道極難訓練。

2015年，R-CNN的第一作者Ross Girshick解決了這兩個問題，導致了我們短暫歷史中的第二個演算法 - 快速R-CNN。現在讓我們回顧一下它的主要見解。

Fast R-CNN洞察力1：RoI（感興趣區域）池

對於CNN的前向傳遞，Girshick意識到對於每個圖像，圖像的許多建議區域總是重疊，導致我們一次又一次地運行相同的CNN計算（~2000次！）。他的洞察力很簡單 - 為什麼不在每張圖像上運行CNN一次，然後找到一種方法來分享〜2000個提案中的計算？

need-to-insert-img

在RoIPool中，創建圖像的完整前向傳遞，並從所得到的前向傳遞中提取每個感興趣區域的conv特徵。

這正是Fast R-CNN使用稱為RoIPool（感興趣區域池）的技術所做的事情。在其核心，RoIPool分享CNN的前向傳遞，以在其子區域中形成圖像。在上圖中，請注意如何通過從CNN的要素圖中選擇相應的區域來獲取每個區域的CNN要素。然後，匯集每個區域中的要素（通常使用最大池）。所以我們所需要的只是原始圖像的一次傳遞而不是~2000！

快速R-CNN洞察力2：將所有模型組合到一個網路中

need-to-insert-img

快速R-CNN將CNN，分類器和邊界框回歸器組合成一個單一網路

Fast R-CNN的第二個見解是在單個模型中聯合訓練CNN，分類器和邊界框回歸器。之前我們有不同的模型來提取圖像特徵（CNN），分類（SVM）和收緊邊界框（回歸量），而快速R-CNN則使用單個網路來計算所有三個。

您可以在上圖中看到這是如何完成的。快速R-CNN用在CNN頂部的softmax層替換SVM分類器以輸出分類。它還添加了一個與softmax圖層平行的線性回歸圖層，以輸出邊界框坐標。這樣，所需的所有輸出都來自一個網路！以下是此整體模型的輸入和輸出：

輸入：帶有區域提案的圖像。

輸出：每個區域的對象分類以及更嚴格的邊界框。

2016年：更快的R-CNN - 加速地區提案

即使有了所有這些進步，快速R-CNN過程仍然存在一個瓶頸 - 區域提議者。正如我們所看到的，檢測對象位置的第一步是生成一堆潛在的邊界框或感興趣的區域進行測試。在Fast R-CNN中，這些提議是使用選擇性搜索創建的，這是一個相當緩慢的過程，被發現是整個過程的瓶頸。

need-to-insert-img

微軟研究院的首席研究員孫健帶領團隊領導更快的R-CNN。

在2015年中期，由Shaoqing Ren，Kaiming He，Ross Girshick和Jian Sun組成的微軟研究團隊找到了一種方法，通過他們（創造性地）命名為快速R-CNN的架構，使該區域提案步驟幾乎免費。

更快的R-CNN的見解是區域建議取決於已經通過CNN的前向傳遞（分類的第一步）計算的圖像的特徵。那麼為什麼不為區域提案重用那些相同的CNN結果而不是運行單獨的選擇性搜索演算法呢？

need-to-insert-img

在Faster R-CNN中，單個CNN用於區域提議和分類。

實際上，這正是R-CNN團隊更快取得的成就。在上圖中，您可以看到單個CNN如何用於執行區域提議和分類。這樣，只有一個CNN需要接受培訓，我們幾乎可以免費獲得地區建議！作者寫道：

我們的觀察結果是，基於區域的探測器（如Fast R-CNN）使用的卷積特徵圖也可用於生成區域提議[從而實現幾乎無成本的區域提議]。

以下是其模型的輸入和輸出：

輸入：圖像（注意不需要區域提議）。

輸出：圖像中對象的分類和邊界框坐標。

如何生成區域

讓我們花點時間看看R-CNN如何通過CNN功能更快地生成這些區域提案。Faster R-CNN在CNN的功能之上增加了一個完全卷積網路，創建了所謂的區域提案網路。

need-to-insert-img

區域提案網路在CNN的功能上滑動窗口。在每個窗口位置，網路輸出每個錨點的分數和邊界框（因此4k框坐標，其中k是錨的數量）。

區域提議網路通過在CNN特徵映射和每個窗口上傳遞滑動窗口來工作，輸出 k個潛在的邊界框以及每個框預期有多好的分數。這些 k 盒代表什麼？

need-to-insert-img

我們知道人們的邊界框往往是矩形和垂直的。我們可以通過創建這樣的維度錨來利用這種直覺來指導我們的區域提案網路。

直覺上，我們知道圖像中的對象應該適合某些常見的寬高比和大小。例如，我們知道我們想要一些類似於人類形狀的矩形盒子。同樣，我們知道我們不會看到很多非常薄的盒子。以這種方式，我們創建 k 這樣的常見寬高比，我們稱之為錨盒。對於每個這樣的錨箱，我們輸出一個邊界框並在圖像中的每個位置得分。

考慮到這些錨框，我們來看看這個區域提案網路的輸入和輸出：

輸入：CNN功能圖。

輸出：每個錨點的邊界框。表示該邊界框中圖像成為對象的可能性的分數。

然後，我們將可能是對象的每個這樣的邊界框傳遞到Fast R-CNN，以生成分類和收緊的邊界框。

2017：Mask R-CNN - 擴展更快的R-CNN以實現像素級分割

need-to-insert-img

圖像實例分割的目標是在像素級別識別場景中不同的對象是什麼。

到目前為止，我們已經看到我們如何能夠以許多有趣的方式使用CNN功能來有效地定位帶有邊界框的圖像中的不同對象。

我們是否可以擴展這些技術以進一步找到每個對象的精確像素而不僅僅是邊界框？這個問題被稱為圖像分割，是Kaiming He和包括Girshick在內的一組研究人員在Facebook AI上使用一種名為 Mask R-CNN 的架構進行探索的。

need-to-insert-img

Facebook AI的研究員Kaiming He是Mask R-CNN的主要作者，也是Faster R-CNN的合著者。

就像Fast R-CNN和Faster R-CNN一樣，Mask R-CNN的潛在直覺也是直截了當的。鑒於Faster R-CNN在物體檢測方面的效果非常好，我們是否可以擴展它以進行像素級分割？

need-to-insert-img

在掩碼R-CNN中，在快速R-CNN的CNN特徵之上添加完全卷積網路（FCN）以生成掩碼（分段輸出）。注意這與Faster R-CNN的分類和邊界框回歸網路並行。

Mask R-CNN通過向更快的R-CNN添加分支來完成此操作，該分支輸出二進制掩碼，該Mask 表示給定像素是否是對象的一部分。與以前一樣，分支（上圖中的白色）只是基於CNN的特徵映射之上的完全卷積網路。以下是其輸入和輸出：

輸入：CNN功能圖。

輸出：矩陣在像素屬於對象的所有位置上為1，在其他位置為0（這稱為二進制掩碼）。

但Mask R-CNN的作者不得不進行一次小調整，以使這條管道按預期工作。

RoiAlign - 重新調整RoIPool更准確

need-to-insert-img

而不是RoIPool，圖像通過RoIAlign傳遞，以便RoIPool選擇的特徵圖的區域更精確地對應於原始圖像的區域。這是必需的，因為像素級分割需要比邊界框更細粒度的對齊。

當在原始的快速R-CNN架構上運行而沒有修改時，Mask R-CNN作者意識到由RoIPool選擇的特徵圖的區域與原始圖像的區域略微不對准。由於圖像分割需要像素級特異性，與邊界框不同，這自然會導致不準確。

作者能夠通過巧妙地調整RoIPool來解決這個問題，使用一種稱為RoIAlign的方法進行更精確的對齊。

need-to-insert-img

我們如何准確地將感興趣的區域從原始圖像映射到特徵圖？

想像一下，我們有一個大小為 128x128 的圖像和一個大小為 25x25 的特徵圖。讓我們想像一下，我們想要的特徵區域對應於原始圖像中左上角的 15x15 像素（見上文）。我們如何從要素圖中選擇這些像素？

我們知道原始圖像中的每個像素對應於特徵圖中的~25 / 128像素。要從原始圖像中選擇15個像素，我們只選擇15 * 25 / 128~ = 2.93 像素。

在RoIPool中，我們將它向下舍入並選擇2個像素，導致輕微的錯位。但是，在RoIAlign中，我們避免了這種舍入。相反，我們使用雙線性插值來准確了解像素2.93處的內容。這在很大程度上是允許我們避免RoIPool引起的錯位的原因。

生成這些掩模後，Mask R-CNN將它們與Faster R-CNN中的分類和邊界框組合在一起，生成如此精確的分割：

need-to-insert-img

Mask R-CNN能夠對圖像中的對象進行分段和分類。

期待

在短短3年時間里，我們已經看到研究界如何從Krizhevsky等進步。al的原始結果是R-CNN，最後一直到Mask R-CNN這樣強大的結果。孤立地看，像面具R-CNN這樣的結果看起來像天才的難以置信的飛躍，是無法接近的。然而，通過這篇文章，我希望你已經看到這些進步如何通過多年的努力和合作實現直觀，漸進的改進。R-CNN，Fast R-CNN，Faster R-CNN以及最後的Mask R-CNN提出的每個想法都不一定是量子跳躍，但它們的總和產品已經產生了非常顯著的結果，使我們更接近人類水平了解視力。

讓我特別興奮的是，R-CNN和Mask R-CNN之間的時間只有三年！通過持續的資金，關注和支持，未來計算機視覺能夠進一步提升？

❽ 求智能演算法優化Normalized Cut的圖像分割這篇論文

是陝西師范的把？我有，已經給你發了，採納我啊！

導航:首頁 > 源碼編譯 > 智能演算法在圖像分割中的應用

智能演算法在圖像分割中的應用

與智能演算法在圖像分割中的應用相關的資料