傳統目標檢測演算法優點_目標跟蹤演算法好處

① 目標檢測-YOLOv3

傳統的目標檢測演算法適用的場景有限，而且維護成本很大。深度學習方法應用於目標檢測，不僅演算法適應性好，還可以進行遷移學習，降低成本。

深度學習目標檢測演算法中，基於錨框（Anchor）的方法主要分為 一階段 方法和 兩階段 方法。

兩階段 方法先對感興趣的區域進行選擇，然後進一步對候選框內做分類和回歸，最終輸出選擇的框以及對應的分類。兩階段的模型有R-CNN系列，比如 R-CNN，Fast-RCNN，Faster-RCNN 等。兩階段模型的優點是精度高，但是速度及較慢。

一階段 方法直接對anchor進行回歸和分類，得到最終目標框和類別，演算法有 YOLOv2，v3，SSD，RetinaNet 等。一階段模型的推理速度較快，但是相對的精度會下降一些。

此外還有一些 anchor-free 的方法，包括基於關鍵點的檢測演算法以及基於中心檢測演算法等。

下面是一些基礎概念和縮寫：
BBox ：Bounding Box 邊界框
Anchor ：錨框
RoI ： Region of Interest 特定的感興趣區域
Region Proposal ：候選區域
RPN : Region proposal network 提取候選區域的網路
IoU : Intersaction over Union （Area of Overlap/ Area of Union）交並比,預測框的質量
mAP ：mean average precision
NMS ：non-maximum suppression 非極大值抑制

YOLO系列的模型在保有一定精度的基礎上擁有很快的推理速度，在下面圖中YOLOv3的推理速度遠超其他模型，因此在實時監測領域中有很好的應用。

YOLO的名字來源於you only look once，從名字上就道出了YOLO的精髓。

YOLOv1將圖像劃分為S*S個網路，物體真實框的中心落在哪個網格上，哪個網格對應的錨框就負責檢測物體。
每個網格會預測一個邊界框以及對應的置信度，這里的置信度反映的是模型認為這個框里包含著物體的把握以及它預測到這個物體的精確程度。所以置信度就等於。如果物體不存在，那麼置信度應該等於零。
每個邊界框會預測5個值。（x，y）坐標表示框相對於網格單元邊界的中心。 w,y是相對於整個圖像預測寬度和高度。最後，置信度預測表示預測框與任何真實框之間的IOU。

YOLOv2在v1的基礎上進行了優化，骨幹網路使用了DarkNet19，並且將輸入圖片給尺寸從224增大到448，並且將網路結構設為全卷積網路結構加上Batch Norm，使用了Kmeans聚類方法來計算anchor，引入了多尺度訓練，使網路在訓練過程中學習不同尺度的圖像。不過待改進的地方有在小目標上召回率不高，靠近的群體目標檢測效果不好，檢測精度還有優化空間。

YOLOv3使用了更加深的骨幹網路DarkNet53，同時加入了多尺度預測，在COCO數據集上聚類； 9中不同尺度的anchor，在分類上使用sigmoid激活函數，支持了目標的多分類。YOLOv3的優點是推理速度快，性價比高，通用性強；缺點是召回率較低，定位精度較差，對於靠近或者遮擋的群體、小物體的檢測能力相對較弱。

YOLOv3在v1的基礎上做了很多改動。

邊界框預測
YOLOv3使用聚類預測到的邊界框作為錨框。網路為邊界框預測4個坐標值，如果單元格從圖像的左上角偏移了 ,並且先驗邊界框的寬度和高度為，則預測如下圖：

YOLOv3給每個邊界框用邏輯回歸預測一個objectness score，如果某個邊界框和真實框重合度比其他都高，那麼它的objectness score應該是1。而其他框雖然也與真實框有重疊，會被忽略掉。

類別預測
使用的是sigmoid函數，沒有用softmax因為沒必要。

不同尺度的預測
YOLOv3使用k-means聚類來確定bounding box priors，選擇了9個clusters和3個scales，然後在整個scales上均勻分割clusters。在COCO數據集上，9個cluster分別為(10×13)，(16×30)，(33×23），(30×61)，(62×45)，(59×119)，(116×90) ，(156×198)，(373×326)。

特徵提取
YOLOv3使用了Darknet-53，特點是加入了殘差，比之前的網路更深了（有53層卷積層所以叫Darknet-53）。

借一張圖看一下YOLOv3的整個流程：

每個輸出分支上對應著三個尺寸的先驗框（總共3 3=9種尺度）。經過32倍下采樣的網格，每一個網格對應著輸入圖像上32 32的區域，適合檢測尺寸較大的目標，而8倍下采樣的網格適合檢測尺寸小的目標。

輸出特徵的高度H和寬度W，相當於將圖像劃分為H*W個網格，而不是直接在圖像上畫網格。也就是說32倍下采樣之後得到的，相當於在輸入圖像上劃一個的網格，每一個網格對應著輸出特徵圖上的一個點。

特徵圖的C通道上表示預測框的信息，包括坐標信息，目標置信度，分類。
C=B*(1+4+class_num)，B為特徵圖上分配的錨框個數。

損失函數有三個，分類損失，定位損失和objectness損失。分類使用sigmoid激活函數，loss是sigmoid cross entropy。定位損失在x,y上使用sigmoid函數和sigmoid cross entropy損失，在w,h上使用L1損失。objectness損失用的是sigmoid激活函數和sigmoid cross entropy損失。

對於與真實框重疊的框，三種損失都要計算
對於沒有真實框重疊的框，只計算objectness（0）；對於與真實框重疊但不是最匹配的框，忽略它們。

② 目標跟蹤演算法好處

目標跟蹤演算法好處是：
1、可以提高後續檢測的准確性。
2、能夠掌握目標的運動狀態。

③ 目標檢測演算法（R-CNN，fast R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3）

深度學習目前已經應用到了各個領域，應用場景大體分為三類：物體識別，目標檢測，自然語言處理。目標檢測可以理解為是物體識別和物體定位的綜合，不僅僅要識別出物體屬於哪個分類，更重要的是得到物體在圖片中的具體位置。

2014年R-CNN演算法被提出，基本奠定了two-stage方式在目標檢測領域的應用。它的演算法結構如下圖

演算法步驟如下：

R-CNN較傳統的目標檢測演算法獲得了50%的性能提升，在使用VGG-16模型作為物體識別模型情況下，在voc2007數據集上可以取得66%的准確率，已經算還不錯的一個成績了。其最大的問題是速度很慢，內存佔用量很大，主要原因有兩個

針對R-CNN的部分問題，2015年微軟提出了Fast R-CNN演算法，它主要優化了兩個問題。

R-CNN和fast R-CNN均存在一個問題，那就是由選擇性搜索來生成候選框，這個演算法很慢。而且R-CNN中生成的2000個左右的候選框全部需要經過一次卷積神經網路，也就是需要經過2000次左右的CNN網路，這個是十分耗時的（fast R-CNN已經做了改進，只需要對整圖經過一次CNN網路）。這也是導致這兩個演算法檢測速度較慢的最主要原因。

faster R-CNN 針對這個問題，提出了RPN網路來進行候選框的獲取，從而擺脫了選擇性搜索演算法，也只需要一次卷積層操作，從而大大提高了識別速度。這個演算法十分復雜，我們會詳細分析。它的基本結構如下圖

主要分為四個步驟：

使用VGG-16卷積模型的網路結構：

卷積層採用的VGG-16模型，先將PxQ的原始圖片，縮放裁剪為MxN的圖片，然後經過13個conv-relu層，其中會穿插4個max-pooling層。所有的卷積的kernel都是3x3的，padding為1，stride為1。pooling層kernel為2x2, padding為0，stride為2。

MxN的圖片，經過卷積層後，變為了(M/16) x (N/16)的feature map了。

faster R-CNN拋棄了R-CNN中的選擇性搜索（selective search）方法，使用RPN層來生成候選框，能極大的提升候選框的生成速度。RPN層先經過3x3的卷積運算，然後分為兩路。一路用來判斷候選框是前景還是背景，它先reshape成一維向量，然後softmax來判斷是前景還是背景，然後reshape恢復為二維feature map。另一路用來確定候選框的位置，通過bounding box regression實現，後面再詳細講。兩路計算結束後，挑選出前景候選框（因為物體在前景中），並利用計算得到的候選框位置，得到我們感興趣的特徵子圖proposal。

卷積層提取原始圖像信息，得到了256個feature map，經過RPN層的3x3卷積後，仍然為256個feature map。但是每個點融合了周圍3x3的空間信息。對每個feature map上的一個點，生成k個anchor（k默認為9）。anchor分為前景和背景兩類（我們先不去管它具體是飛機還是汽車，只用區分它是前景還是背景即可）。anchor有[x,y,w,h]四個坐標偏移量，x,y表示中心點坐標，w和h表示寬度和高度。這樣，對於feature map上的每個點，就得到了k個大小形狀各不相同的選區region。

對於生成的anchors，我們首先要判斷它是前景還是背景。由於感興趣的物體位於前景中，故經過這一步之後，我們就可以舍棄背景anchors了。大部分的anchors都是屬於背景，故這一步可以篩選掉很多無用的anchor，從而減少全連接層的計算量。

對於經過了3x3的卷積後得到的256個feature map，先經過1x1的卷積，變換為18個feature map。然後reshape為一維向量，經過softmax判斷是前景還是背景。此處reshape的唯一作用就是讓數據可以進行softmax計算。然後輸出識別得到的前景anchors。

另一路用來確定候選框的位置，也就是anchors的[x,y,w,h]坐標值。如下圖所示，紅色代表我們當前的選區，綠色代表真實的選區。雖然我們當前的選取能夠大概框選出飛機，但離綠色的真實位置和形狀還是有很大差別，故需要對生成的anchors進行調整。這個過程我們稱為bounding box regression。

假設紅色框的坐標為[x,y,w,h], 綠色框，也就是目標框的坐標為[Gx, Gy,Gw,Gh], 我們要建立一個變換，使得[x,y,w,h]能夠變為[Gx, Gy,Gw,Gh]。最簡單的思路是，先做平移，使得中心點接近，然後進行縮放，使得w和h接近。如下：

我們要學習的就是dx dy dw dh這四個變換。由於是線性變換，我們可以用線性回歸來建模。設定loss和優化方法後，就可以利用深度學習進行訓練，並得到模型了。對於空間位置loss，我們一般採用均方差演算法，而不是交叉熵（交叉熵使用在分類預測中）。優化方法可以採用自適應梯度下降演算法Adam。

得到了前景anchors，並確定了他們的位置和形狀後，我們就可以輸出前景的特徵子圖proposal了。步驟如下：

1，得到前景anchors和他們的[x y w h]坐標。

2，按照anchors為前景的不同概率，從大到小排序，選取前pre_nms_topN個anchors，比如前6000個

3，剔除非常小的anchors。

4，通過NMS非極大值抑制，從anchors中找出置信度較高的。這個主要是為了解決選取交疊問題。首先計算每一個選區面積，然後根據他們在softmax中的score（也就是是否為前景的概率）進行排序，將score最大的選區放入隊列中。接下來，計算其餘選區與當前最大score選區的IOU（IOU為兩box交集面積除以兩box並集面積，它衡量了兩個box之間重疊程度）。去除IOU大於設定閾值的選區。這樣就解決了選區重疊問題。

5，選取前post_nms_topN個結果作為最終選區proposal進行輸出，比如300個。

經過這一步之後，物體定位應該就基本結束了，剩下的就是物體識別了。

和fast R-CNN中類似，這一層主要解決之前得到的proposal大小形狀各不相同，導致沒法做全連接。全連接計算只能對確定的shape進行運算，故必須使proposal大小形狀變為相同。通過裁剪和縮放的手段，可以解決這個問題，但會帶來信息丟失和圖片形變問題。我們使用ROI pooling可以有效的解決這個問題。

ROI pooling中，如果目標輸出為MxN，則在水平和豎直方向上，將輸入proposal劃分為MxN份，每一份取最大值，從而得到MxN的輸出特徵圖。

ROI Pooling層後的特徵圖，通過全連接層與softmax，就可以計算屬於哪個具體類別，比如人，狗，飛機，並可以得到cls_prob概率向量。同時再次利用bounding box regression精細調整proposal位置，得到bbox_pred，用於回歸更加精確的目標檢測框。

這樣就完成了faster R-CNN的整個過程了。演算法還是相當復雜的，對於每個細節需要反復理解。faster R-CNN使用resNet101模型作為卷積層，在voc2012數據集上可以達到83.8%的准確率，超過yolo ssd和yoloV2。其最大的問題是速度偏慢，每秒只能處理5幀，達不到實時性要求。

針對於two-stage目標檢測演算法普遍存在的運算速度慢的缺點， yolo創造性的提出了one-stage。也就是將物體分類和物體定位在一個步驟中完成。 yolo直接在輸出層回歸bounding box的位置和bounding box所屬類別，從而實現one-stage。通過這種方式， yolo可實現45幀每秒的運算速度，完全能滿足實時性要求（達到24幀每秒，人眼就認為是連續的）。它的網路結構如下圖：

主要分為三個部分：卷積層，目標檢測層，NMS篩選層。

採用Google inceptionV1網路，對應到上圖中的第一個階段，共20層。這一層主要是進行特徵提取，從而提高模型泛化能力。但作者對inceptionV1進行了改造，他沒有使用inception mole結構，而是用一個1x1的卷積，並聯一個3x3的卷積來替代。（可以認為只使用了inception mole中的一個分支，應該是為了簡化網路結構）

先經過4個卷積層和2個全連接層，最後生成7x7x30的輸出。先經過4個卷積層的目的是為了提高模型泛化能力。yolo將一副448x448的原圖分割成了7x7個網格，每個網格要預測兩個bounding box的坐標(x,y,w,h)和box內包含物體的置信度confidence，以及物體屬於20類別中每一類的概率（yolo的訓練數據為voc2012，它是一個20分類的數據集）。所以一個網格對應的參數為（4x2+2+20) = 30。如下圖

其中前一項表示有無人工標記的物體落入了網格內，如果有則為1，否則為0。第二項代表bounding box和真實標記的box之間的重合度。它等於兩個box面積交集，除以面積並集。值越大則box越接近真實位置。

分類信息： yolo的目標訓練集為voc2012，它是一個20分類的目標檢測數據集。常用目標檢測數據集如下表：

| Name | # Images (trainval) | # Classes | Last updated |

| --------------- | ------------------- | --------- | ------------ |

| ImageNet | 450k | 200 | 2015 |

| COCO | 120K | 90 | 2014 |

| Pascal VOC | 12k | 20 | 2012 |

| Oxford-IIIT Pet | 7K | 37 | 2012 |

| KITTI Vision | 7K | 3 | |

每個網格還需要預測它屬於20分類中每一個類別的概率。分類信息是針對每個網格的，而不是bounding box。故只需要20個，而不是40個。而confidence則是針對bounding box的，它只表示box內是否有物體，而不需要預測物體是20分類中的哪一個，故只需要2個參數。雖然分類信息和confidence都是概率，但表達含義完全不同。

篩選層是為了在多個結果中（多個bounding box）篩選出最合適的幾個，這個方法和faster R-CNN 中基本相同。都是先過濾掉score低於閾值的box，對剩下的box進行NMS非極大值抑制，去除掉重疊度比較高的box（NMS具體演算法可以回顧上面faster R-CNN小節）。這樣就得到了最終的最合適的幾個box和他們的類別。

yolo的損失函數包含三部分，位置誤差，confidence誤差，分類誤差。具體公式如下：

誤差均採用了均方差演算法，其實我認為，位置誤差應該採用均方差演算法，而分類誤差應該採用交叉熵。由於物體位置只有4個參數，而類別有20個參數，他們的累加和不同。如果賦予相同的權重，顯然不合理。故yolo中位置誤差權重為5，類別誤差權重為1。由於我們不是特別關心不包含物體的bounding box，故賦予不包含物體的box的置信度confidence誤差的權重為0.5，包含物體的權重則為1。

Faster R-CNN准確率mAP較高，漏檢率recall較低，但速度較慢。而yolo則相反，速度快，但准確率和漏檢率不盡人意。SSD綜合了他們的優缺點，對輸入300x300的圖像，在voc2007數據集上test，能夠達到58 幀每秒( Titan X 的 GPU )，72.1%的mAP。

SSD網路結構如下圖：

和yolo一樣，也分為三部分：卷積層，目標檢測層和NMS篩選層

SSD論文採用了VGG16的基礎網路，其實這也是幾乎所有目標檢測神經網路的慣用方法。先用一個CNN網路來提取特徵，然後再進行後續的目標定位和目標分類識別。

這一層由5個卷積層和一個平均池化層組成。去掉了最後的全連接層。SSD認為目標檢測中的物體，只與周圍信息相關，它的感受野不是全局的，故沒必要也不應該做全連接。SSD的特點如下。

每一個卷積層，都會輸出不同大小感受野的feature map。在這些不同尺度的feature map上，進行目標位置和類別的訓練和預測，從而達到多尺度檢測的目的，可以克服yolo對於寬高比不常見的物體，識別准確率較低的問題。而yolo中，只在最後一個卷積層上做目標位置和類別的訓練和預測。這是SSD相對於yolo能提高准確率的一個關鍵所在。

如上所示，在每個卷積層上都會進行目標檢測和分類，最後由NMS進行篩選，輸出最終的結果。多尺度feature map上做目標檢測，就相當於多了很多寬高比例的bounding box，可以大大提高泛化能力。

和faster R-CNN相似，SSD也提出了anchor的概念。卷積輸出的feature map，每個點對應為原圖的一個區域的中心點。以這個點為中心，構造出6個寬高比例不同，大小不同的anchor（SSD中稱為default box）。每個anchor對應4個位置參數(x,y,w,h)和21個類別概率（voc訓練集為20分類問題，在加上anchor是否為背景，共21分類）。如下圖所示：

另外，在訓練階段，SSD將正負樣本比例定位1：3。訓練集給定了輸入圖像以及每個物體的真實區域（ground true box），將default box和真實box最接近的選為正樣本。然後在剩下的default box中選擇任意一個與真實box IOU大於0.5的，作為正樣本。而其他的則作為負樣本。由於絕大部分的box為負樣本，會導致正負失衡，故根據每個box類別概率排序，使正負比例保持在1：3。SSD認為這個策略提高了4%的准確率

另外，SSD採用了數據增強。生成與目標物體真實box間IOU為0.1 0.3 0.5 0.7 0.9的patch，隨機選取這些patch參與訓練，並對他們進行隨機水平翻轉等操作。SSD認為這個策略提高了8.8%的准確率。

和yolo的篩選層基本一致，同樣先過濾掉類別概率低於閾值的default box，再採用NMS非極大值抑制，篩掉重疊度較高的。只不過SSD綜合了各個不同feature map上的目標檢測輸出的default box。

SSD基本已經可以滿足我們手機端上實時物體檢測需求了，TensorFlow在android上的目標檢測官方模型ssd_mobilenet_v1_android_export.pb，就是通過SSD演算法實現的。它的基礎卷積網路採用的是mobileNet，適合在終端上部署和運行。

針對yolo准確率不高，容易漏檢，對長寬比不常見物體效果差等問題，結合SSD的特點，提出了yoloV2。它主要還是採用了yolo的網路結構，在其基礎上做了一些優化和改進，如下

網路採用DarkNet-19：19層，裡麵包含了大量3x3卷積，同時借鑒inceptionV1，加入1x1卷積核全局平均池化層。結構如下

yolo和yoloV2隻能識別20類物體，為了優化這個問題，提出了yolo9000，可以識別9000類物體。它在yoloV2基礎上，進行了imageNet和coco的聯合訓練。這種方式充分利用imageNet可以識別1000類物體和coco可以進行目標位置檢測的優點。當使用imageNet訓練時，只更新物體分類相關的參數。而使用coco時，則更新全部所有參數。

YOLOv3可以說出來直接吊打一切圖像檢測演算法。比同期的DSSD(反卷積SSD), FPN（feature pyramid networks）准確率更高或相仿，速度是其1/3.。

YOLOv3的改動主要有如下幾點：

不過如果要求更精準的預測邊框，採用COCO AP做評估標準的話，YOLO3在精確率上的表現就弱了一些。如下圖所示。

當前目標檢測模型演算法也是層出不窮。在two-stage領域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 演算法，將對抗學習引入到目標檢測領域。Face++也提出了Light-Head R-CNN，主要探討了 R-CNN 如何在物體檢測中平衡精確度和速度。

one-stage領域也是百花齊放，2017年首爾大學提出 R-SSD 演算法，主要解決小尺寸物體檢測效果差的問題。清華大學提出了 RON 演算法，結合 two stage 名的方法和 one stage 方法的優勢，更加關注多尺度對象定位和負空間樣本挖掘問題。

目標檢測領域的深度學習演算法，需要進行目標定位和物體識別，演算法相對來說還是很復雜的。當前各種新演算法也是層不出窮，但模型之間有很強的延續性，大部分模型演算法都是借鑒了前人的思想，站在巨人的肩膀上。我們需要知道經典模型的特點，這些tricks是為了解決什麼問題，以及為什麼解決了這些問題。這樣才能舉一反三，萬變不離其宗。綜合下來，目標檢測領域主要的難點如下：

一文讀懂目標檢測AI演算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2

從YOLOv1到v3的進化之路

SSD-Tensorflow超詳細解析【一】：載入模型對圖片進行測試 https://blog.csdn.net/k87974/article/details/80606407

YOLO https://pjreddie.com/darknet/yolo/ https://github.com/pjreddie/darknet

C#項目參考：https://github.com/AlturosDestinations/Alturos.Yolo

項目實踐貼個圖。

④ 目標檢測 YOLO系列——YOLO v1

YOLO v1:You Only Look Once: Unified, Real-Time Object Detection
YOLO v2:YOLO9000：Better，Faster，Stronger
YOLO v3:YOLOv3: An Incremental Improvement

近幾年來，目標檢測演算法取得了很大的突破。比較流行的演算法可以分為兩類，一類是基於Region Proposal的R-CNN系演算法（R-CNN，Fast R-CNN, Faster R-CNN），它們是two-stage的，需要先使用啟發式方法（selective search）或者CNN網路（RPN）產生Region Proposal，然後再在Region Proposal上做分類與回歸。而另一類是Yolo，SSD這類one-stage演算法，其僅僅使用一個CNN網路直接預測不同目標的類別與位置。第一類方法是准確度高一些，但是速度慢，但是第二類演算法是速度快，但是准確性要低一些。這里我們談的是Yolo-v1版本演算法，其性能是差於後來的SSD演算法的，但是Yolo後來也繼續進行改進，產生了Yolo9000、YOLO v3演算法。

傳統方法常採用滑動窗口法，滑動窗口的目標檢測演算法思路非常簡單，它將檢測問題轉化為了圖像分類問題。其基本原理就是採用不同大小和比例（寬高比）的窗口在整張圖片上以一定的步長進行滑動，然後對這些窗口對應的區域做圖像分類，這樣就可以實現對整張圖片的檢測了，如 DPM 就是採用這種思路。但是這個方法有致命的缺點，就是你並不知道要檢測的目標大小是什麼規模，所以你要設置不同大小和比例的窗口去滑動，而且還要選取合適的步長。但是這樣會產生很多的子區域，並且都要經過分類器去做預測，這需要很大的計算量，所以你的分類器不能太復雜，因為要保證速度。解決思路之一就是減少要分類的子區域，這就是R-CNN的一個改進策略，其採用了 selective search 方法來找到最有可能包含目標的子區域（Region Proposal），其實可以看成採用啟發式方法過濾掉很多子區域，這會提升效率。

如果你使用的是CNN分類器，那麼滑動窗口是非常耗時的。但是結合卷積運算的特點，我們可以使用CNN實現更高效的滑動窗口方法。這里要介紹的是一種全卷積的方法，簡單來說就是網路中用卷積層代替了全連接層，如圖所示。輸入圖片大小是16x16，經過一系列卷積操作，提取了2x2的特徵圖，但是這個2x2的圖上每個元素都是和原圖是一一對應的，如圖上藍色的格子對應藍色的區域，這不就是相當於在原圖上做大小為14x14的窗口滑動，且步長為2，共產生4個字區域。最終輸出的通道數為4，可以看成4個類別的預測概率值，這樣一次CNN計算就可以實現窗口滑動的所有子區域的分類預測。這其實是overfeat演算法的思路。之所可以CNN可以實現這樣的效果是因為卷積操作的特性，就是圖片的空間位置信息的不變性，盡管卷積過程中圖片大小減少，但是位置對應關系還是保存的。這個思路也被R-CNN借鑒，從而誕生了Fast R-cNN演算法。

上面盡管可以減少滑動窗口的計算量，但是只是針對一個固定大小與步長的窗口，這是遠遠不夠的。Yolo演算法很好的解決了這個問題，它不再是窗口滑動了，而是直接將原始圖片分割成互不重合的小方塊，然後通過卷積最後生產這樣大小的特徵圖，基於上面的分析，可以認為特徵圖的每個元素也是對應原始圖片的一個小方塊，然後用每個元素來可以預測那些中心點在該小方格內的目標，這就是Yolo演算法的樸素思想。

整體來看，Yolo演算法採用一個單獨的CNN模型實現end-to-end的目標檢測，整個系統如圖所示：首先將輸入圖片resize到448x448，然後送入CNN網路，最後處理網路預測結果得到檢測的目標。相比R-CNN演算法，其是一個統一的框架，其速度更快，而且Yolo的訓練過程也是end-to-end的。

具體來說，Yolo的CNN網路將輸入的圖片分割成網格，然後每個單元格負責去檢測那些中心點落在該格子內的目標，如圖所示，可以看到狗這個目標的中心落在左下角一個單元格內，那麼該單元格負責預測這個狗。每個單元格會預測B個邊界框（bounding box）以及邊界框的 置信度 （confidence score）。所謂置信度其實包含兩個方面，一是這個邊界框含有目標的可能性大小，二是這個邊界框的准確度。前者記為，當該邊界框是背景時（即不包含目標），此時。而當該邊界框包含目標時，。邊界框的准確度可以用預測框與實際框（ground truth）的 IOU （intersection over union，交並比）來表徵，記為 IOU 。因此置信度可以定義為。

很多人可能將Yolo的置信度看成邊界框是否含有目標的概率，但是其實它是兩個因子的乘積，預測框的准確度也反映在裡面。邊界框的大小與位置可以用4個值來表徵：(x,y,h,w)，其中(x,y)是邊界框的中心坐標，而w和h是邊界框的寬與高。還有一點要注意，中心坐標的預測值(x,y)是相對於每個單元格左上角坐標點的偏移值，並且單位是相對於單元格大小的，單元格的坐標定義如圖所示。而邊界框的w和h預測值是相對於整個圖片的寬與高的比例，這樣理論上4個元素的大小應該在[0,1]范圍。這樣，每個邊界框的預測值實際上包含5個元素：(x,y,w,h,c)，其中前4個表徵邊界框的大小與位置，而最後一個值是置信度。

值得注意的是，不管一個單元格預測多少個邊界框，其只預測一組類別概率值，這是Yolo演算法的一個缺點，在後來的改進版本中，Yolo9000是把類別概率預測值與邊界框是綁定在一起的。同時，我們可以計算出各個邊界框類別置信度（class-specificconfidence scores）:

邊界框類別置信度表徵的是該邊界框中目標屬於各個類別的可能性大小以及邊界框匹配目標的好壞。後面會說，一般會根據類別置信度來過濾網路的預測框。

總結一下，每個單元格需要預測個值。如果將輸入圖片劃分為網格，那麼最終預測值為大小的張量。整個模型的預測值結構如下圖所示。對於PASCALVOC數據，其共有20個類別，如果使用S=7,B=2,那麼最終的預測結果就是大小的張量。在下面的網路結構中我們會詳細講述每個單元格的預測值的分布位置。

Yolo採用卷積網路來提取特徵，然後使用全連接層來得到預測值。網路結構參考GooLeNet模型，包含24個卷積層和2個全連接層，如圖所示。對於卷積層，主要使用1x1卷積來做channle rection，然後緊跟3x3卷積。對於卷積層和全連接層，採用Leaky ReLU激活函數：max(x,0)。但是最後一層卻採用線性激活函數。除了上面這個結構，文章還提出了一個輕量級版本Fast Yolo，其僅使用9個卷積層，並且卷積層中使用更少的卷積核。

可以看到網路的最後輸出為大小的張量。這和前面的討論是一致的。這個張量所代表的具體含義如圖所示。對於每一個單元格，前20個元素是類別概率值，然後2個元素是邊界框置信度，兩者相乘可以得到類別置信度，最後8個元素是邊界框的(x,y,w,h)。大家可能會感到奇怪，對於邊界框為什麼把置信度c和(x,y,w,h)都分開排列，而不是按照(x,y,w,h,c)這樣排列，其實純粹是為了計算方便，因為實際上這30個元素都是對應一個單元格，其排列是可以任意的。但是分離排布，可以方便地提取每一個部分。這里來解釋一下，首先網路的預測值是一個二維張量P，其shape為。

採用切片，那麼就是類別概率部分; 是置信度部分; 是邊界框的預測結果。這樣，提取每個部分是非常方便的，這會方面後面的訓練及預測時的計算。

在訓練之前，先在ImageNet上進行了預訓練，其預訓練的分類模型採用圖中前20個卷積層，然後添加一個average-pool層和全連接層。預訓練之後，在預訓練得到的20層卷積層之上加上隨機初始化的4個卷積層和2個全連接層。由於檢測任務一般需要更高清的圖片，所以將網路的輸入從224x224增加到了448x448。整個網路的流程如下圖所示：

損失函數計算如下：

其中第一項是邊界框中心坐標的誤差項，指的是第i個單元格存在目標，且該單元格中的第j個邊界框負責預測該目標。第二項是邊界框的高與寬的誤差項。第三項是包含目標的邊界框的置信度誤差項。第四項是不包含目標的邊界框的置信度誤差項。而最後一項是包含目標的單元格的分類誤差項，指的是第i個單元格存在目標。

在說明Yolo演算法的預測過程之前，這里先介紹一下非極大值抑制演算法（non maximum suppression, NMS），這個演算法不單單是針對Yolo演算法的，而是所有的檢測演算法中都會用到。NMS演算法主要解決的是一個目標被多次檢測的問題，如圖中人臉檢測，可以看到人臉被多次檢測，但是其實我們希望最後僅僅輸出其中一個最好的預測框，比如對於美女，只想要紅色那個檢測結果。那麼可以採用NMS演算法來實現這樣的效果：首先從所有的檢測框中找到置信度最大的那個框，然後挨個計算其與剩餘框的IOU，如果其值大於一定閾值（重合度過高），那麼就將該框剔除；然後對剩餘的檢測框重復上述過程，直到處理完所有的檢測框。

下面就來分析Yolo的預測過程，這里我們不考慮batch，認為只是預測一張輸入圖片。根據前面的分析，最終的網路輸出是，但是我們可以將其分割成三個部分：類別概率部分為，置信度部分為，而邊界框部分為（對於這部分不要忘記根據原始圖片計算出其真實值）。然後將前兩項相乘可以得到 類別置信度值為 ，這里總共預測了邊界框。

所有的准備數據已經得到了，那麼先說第一種策略來得到檢測框的結果。首先，對於每個預測框根據類別置信度選取置信度最大的那個類別作為其預測標簽，經過這層處理我們得到各個預測框的預測類別及對應的置信度值，其大小都是[7,7,2]。一般情況下，會設置置信度閾值，就是將置信度小於該閾值的box過濾掉，所以經過這層處理，剩餘的是置信度比較高的預測框。最後再對這些預測框使用NMS演算法，最後留下來的就是檢測結果。一個值得注意的點是NMS是對所有預測框一視同仁，還是區分每個類別，分別使用NMS。Ng在deeplearning.ai中講應該區分每個類別分別使用NMS，但是看了很多實現，其實還是同等對待所有的框，可能是不同類別的目標出現在相同位置這種概率很低吧。

上面的預測方法應該非常簡單明了，但是對於Yolo演算法，其卻採用了另外一個不同的處理思路（至少從C源碼看是這樣的），其區別就是先使用NMS，然後再確定各個box的類別。其基本過程如圖所示。對於98個boxes，首先將小於置信度閾值的值歸0，然後分類別地對置信度值採用NMS，這里NMS處理結果不是剔除，而是將其置信度值歸為0。最後才是確定各個box的類別，當其置信度值不為0時才做出檢測結果輸出。這個策略不是很直接，但是貌似Yolo源碼就是這樣做的。Yolo論文裡面說NMS演算法對Yolo的性能是影響很大的，所以可能這種策略對Yolo更好。

總結一下Yolo的優缺點。首先是優點，Yolo採用一個CNN網路來實現檢測，是單管道策略，其訓練與預測都是end-to-end，所以Yolo演算法比較簡潔且速度快。第二點由於Yolo是對整張圖片做卷積，所以其在檢測目標有更大的視野，它不容易對背景誤判。另外，Yolo的泛化能力強，在做遷移時，模型魯棒性高。

Yolo的缺點，首先Yolo各個單元格僅僅預測兩個邊界框，而且屬於一個類別。對於小物體，Yolo的表現會不如人意。這方面的改進可以看SSD，其採用多尺度單元格。也可以看Faster R-CNN，其採用了anchor boxes。Yolo對於在物體的寬高比方面泛化率低，就是無法定位不尋常比例的物體。當然Yolo的定位不準確也是很大的問題。

參考鏈接
YOLO演算法的原理與實現
https://cloud.tencent.com/developer/article/1058057

導航:首頁 > 源碼編譯 > 傳統目標檢測演算法優點

傳統目標檢測演算法優點

與傳統目標檢測演算法優點相關的資料