cvpr隨機演算法_深度學習之卷積神經網路經典模型

⑴ 【目標檢測演算法解讀】yolo系列演算法二

https://blog.csdn.net/Gentleman_Qin/article/details/84349144

|聲明：遵循CC 4.0 BY-SA版權協議

    建立在YOLOv1的基礎上，經過Joseph Redmon等的改進，YOLOv2和YOLO9000演算法在2017年CVPR上被提出，並獲得最佳論文提名，重點解決YOLOv1召回率和定位精度方面的誤差。在提出時，YOLOv2在多種監測數據集中都要快過其他檢測系統，並可以在速度與精確度上進行權衡。

    YOLOv2採用Darknet-19作為特徵提取網路，增加了批量標准化（Batch Normalization）的預處理，並使用224×224和448×448兩階段訓練ImageNet，得到預訓練模型後fine-tuning。

    相比於YOLOv1是利用FC層直接預測Bounding Box的坐標，YOLOv2借鑒了FSR-CNN的思想，引入Anchor機制，利用K-Means聚類的方式在訓練集中聚類計算出更好的Anchor模板，在卷積層使用Anchor Boxes操作，增加Region Proposal的預測，同時採用較強約束的定位方法，大大提高演算法召回率。同時結合圖像細粒度特徵，將淺層特徵與深層特徵相連，有助於對小尺寸目標的檢測。

    下圖所示是YOLOv2採取的各項改進帶了的檢測性能上的提升：

    YOLO9000 的主要檢測網路也是YOLO v2，同時使用WordTree來混合來自不同的資源的訓練數據，並使用聯合優化技術同時在ImageNet和COCO數據集上進行訓練，目的是利用數量較大的分類數據集來幫助訓練檢測模型，因此，YOLO 9000的網路結構允許實時地檢測超過9000種物體分類，進一步縮小了檢測數據集與分類數據集之間的大小代溝。

    下面將具體分析YOLOv2的各個創新點:

BN概述：

    對數據進行預處理（統一格式、均衡化、去噪等）能夠大大提高訓練速度，提升訓練效果。BN正是基於這個假設的實踐，對每一層輸入的數據進行加工。

    BN是2015年Google研究員在論文《Batch Normalization: Accelerating Deep Network Training by Recing Internal Covariate Shift》一文中提出的，同時也將BN應用到了2014年的GoogLeNet上，也就是Inception-v2。

    BN層簡單講就是對網路的每一層的輸入都做了歸一化，這樣網路就不需要每層都去學數據的分布，收斂會更快。YOLOv1演算法（採用的是GoogleNet網路提取特徵）是沒有BN層的，而在YOLOv2中作者為每個卷積層都添加了BN層。

    使用BN對網路進行優化，讓網路提高了收斂性，同時還消除了對其他形式的正則化（regularization）的依賴，因此使用BN後可以從模型中去掉Dropout，而不會產生過擬合。

BN優點：

神經網路每層輸入的分布總是發生變化，加入BN，通過標准化上層輸出，均衡輸入數據分布，加快訓練速度，因此可以設置較大的學習率（Learning Rate）和衰減（Decay）；

通過標准化輸入，降低激活函數（Activation Function）在特定輸入區間達到飽和狀態的概率，避免梯度彌散（Gradient Vanishing）問題；

輸入標准化對應樣本正則化，BN在一定程度上可以替代 Dropout解決過擬合問題。

BN演算法：

    在卷積或池化之後，激活函數之前，對每個數據輸出進行標准化，方式如下圖所示：

    公式很簡單，前三行是 Batch內數據歸一化（假設一個Batch中有每個數據），同一Batch內數據近似代表了整體訓練數據。第四行引入了附加參數 γ 和 β，此二者的取值演算法可以參考BN論文，在此不再贅述。

    fine-tuning：用已經訓練好的模型，加上自己的數據集，來訓練新的模型。即使用別人的模型的前幾層，來提取淺層特徵，而非完全重新訓練模型，從而提高效率。一般新訓練模型准確率都會從很低的值開始慢慢上升，但是fine-tuning能夠讓我們在比較少的迭代次數之後得到一個比較好的效果。

    YOLO模型分為兩部分，分類模型和檢測模型，前者使用在ImageNet上預訓練好的模型，後者在檢測數據集上fine-tuning。

    YOLOv1在預訓練時採用的是224*224的輸入（在ImageNet數據集上進行），然後在檢測的時候採用448*448的輸入，這會導致從分類模型切換到檢測模型的時候，模型還要適應圖像解析度的改變。

    YOLOv2則將預訓練分成兩步：先用224*224的輸入在ImageNet數據集訓練分類網路，大概160個epoch（將所有訓練數據循環跑160次）後將輸入調整到448*448，再訓練10個epoch（這兩步都是在ImageNet數據集上操作）。然後利用預訓練得到的模型在檢測數據集上fine-tuning。這樣訓練得到的模型，在檢測時用448*448的圖像作為輸入可以順利檢測。

    YOLOv1將輸入圖像分成7*7的網格，每個網格預測2個Bounding Box，因此一共有98個Box，同時YOLOv1包含有全連接層，從而能直接預測Bounding Boxes的坐標值，但也導致丟失較多的空間信息，定位不準。

    YOLOv2首先將YOLOv1網路的FC層和最後一個Pooling層去掉，使得最後的卷積層可以有更高解析度的特徵，然後縮減網路，用416*416大小的輸入代替原來的448*448，使得網路輸出的特徵圖有奇數大小的寬和高，進而使得每個特徵圖在劃分單元格（Cell）的時候只有一個中心單元格（Center Cell）。

    為什麼希望只有一個中心單元格呢？由於圖片中的物體都傾向於出現在圖片的中心位置，特別是比較大的物體，所以有一個單元格單獨位於物體中心的位置用於預測這些物體。

    YOLOv2通過引入Anchor Boxes，通過預測Anchor Box的偏移值與置信度，而不是直接預測坐標值。YOLOv2的卷積層採用32這個值來下采樣圖片，所以通過選擇416*416用作輸入尺寸最終能輸出一個13*13的特徵圖。若採用FSRCNN中的方式，每個Cell可預測出9個Anchor Box，共13*13*9=1521個（YOLOv2確定Anchor Boxes的方法見是維度聚類，每個Cell選擇5個Anchor Box）。

    在FSRCNN中，以一個51*39大小的特徵圖為例，其可以看做一個尺度為51*39的圖像，對於該圖像的每一個位置，考慮9個可能的候選窗口：3種面積3種比例。這些候選窗口稱為Anchor Boxes。下圖示出的是51*39個Anchor Box中心，以及9種Anchor Box示例。

YOLOv1和YOLOv2特徵圖數據結構：

YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）

    其中B對應Box數量，5對應邊界框的定位信息（w,y,w,h）和邊界框置信度（Confidience）。解析度是7*7，每個Cell預測2個Box，這2個Box共用1套條件類別概率（1*20）。

YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）

    解析度提升至13*13，對小目標適應性更好，借鑒了FSRCNN的思想，每個Cell對應K個Anchor box（YOLOv2中K=5），每個Anchor box對應1組條件類別概率（1*20）。

    聚類：聚類是指事先沒有「標簽」而通過某種成團分析找出事物之間存在聚集性原因的過程。即在沒有劃分類別的情況下，根據數據相似度進行樣本分組。

    在FSR-CNN中Anchor Box的大小和比例是按經驗設定的，然後網路會在訓練過程中調整Anchor Box的尺寸，最終得到准確的Anchor Boxes。若一開始就選擇了更好的、更有代表性的先驗Anchor Boxes，那麼網路就更容易學到准確的預測位置。

    YOLOv2使用K-means聚類方法類訓練Bounding Boxes，可以自動找到更好的寬高維度的值用於一開始的初始化。傳統的K-means聚類方法使用的是歐氏距離函數，意味著較大的Anchor Boxes會比較小的Anchor Boxes產生更多的錯誤，聚類結果可能會偏離。由於聚類目的是確定更精準的初始Anchor Box參數，即提高IOU值，這應與Box大小無關，因此YOLOv2採用IOU值為評判標准，即K-means 採用的距離函數（度量標准）為：

d(box,centroid) = 1 - IOU(box,centroid)

    如下圖，左邊是聚類的簇個數和IOU的關系，兩條曲線分別代表兩個不同的數據集。分析聚類結果並權衡模型復雜度與IOU值後，YOLOv2選擇K=5，即選擇了5種大小的Box 維度來進行定位預測。

    其中紫色和灰色也是分別表示兩個不同的數據集，可以看出其基本形狀是類似的。更重要的是，可以看出聚類的結果和手動設置的Anchor Box位置和大小差別顯著——結果中扁長的框較少，而瘦高的框更多（更符合行人的特徵）。

    YOLOv2採用的5種Anchor的Avg IOU是61，而採用9種Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是說本文僅選取5種box就能達到Faster RCNN的9中box的效果。選擇值為9的時候，AVG IOU更有顯著提高。說明K-means方法的生成的boxes更具有代表性。

    直接對Bounding Boxes求回歸會導致模型不穩定，其中心點可能會出現在圖像任何位置，有可能導致回歸過程震盪，甚至無法收斂，尤其是在最開始的幾次迭代的時候。大多數不穩定因素產生自預測Bounding Box的中心坐標（x,y）位置的時候。

    YOLOv2的網路在特徵圖（13*13）的每一個單元格中預測出5個Bounding Boxes（對應5個Anchor Boxes），每個Bounding Box預測出5個值（tx,ty,tw,th,t0），其中前4個是坐標偏移值，t0是置信度結果（類似YOLOv1中的邊界框置信度Confidence）。YOLOv2借鑒了如下的預測方式，即當Anchor Box的中心坐標和寬高分別是（xa,ya）和（wa,wh）時，Bounding Box坐標的預測偏移值（tx,ty,tw,th）與其坐標寬高（x,y,w,h）的關系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

    基於這種思想，YOLOv2在預測Bounding Box的位置參數時採用了如下強約束方法：

    上圖中，黑色虛線框是Anchor Box，藍色矩形框就是預測的Bounding Box結果，預測出的Bounding Box的坐標和寬高為（bx,by）和（bw,bh），計算方式如圖中所示，其中：對每個Bounding Box預測出5個值（tx,ty,tw,th,t0），Cell與圖像左上角的橫縱坐標距離為（cx,cy），σ定義為sigmoid激活函數（將函數值約束到［0,1］），該Cell對應的Anchor Box對應的寬高為（pw,ph）。

    簡而言之，（bx,by）就是（cx,cy）這個Cell附近的Anchor Box針對預測值（tx,ty）得到的Bounding Box的坐標預測結果，同時可以發現這種方式對於較遠距離的Bounding Box預測值（tx,ty）能夠得到很大的限制。

    YOLOv2通過添加一個轉移層，把高解析度的淺層特徵連接到低解析度的深層特徵（把特徵堆積在不同Channel中）而後進行融合和檢測。具體操作是先獲取前層的26*26的特徵圖，將其同最後輸出的13*13的特徵圖進行連接，而後輸入檢測器進行檢測（檢測器的FC層起到了全局特徵融合的作用），以此來提高對小目標的檢測能力。

    為了適應不同尺度下的檢測任務，YOLOv2在訓練網路時，其在檢測數據集上fine-tuning時候採用的輸入圖像的size是動態變化的。具體來講，每訓練10個Batch，網路就會隨機選擇另一種size的輸入圖像。因為YOLOv2用到了參數是32的下采樣，因此也採用32的倍數作為輸入的size，即採用{320,352,…,608}的輸入尺寸（網路會自動改變尺寸，並繼續訓練的過程）。

這一策略讓網路在不同的輸入尺寸上都能達到較好的預測效果，使同一網路能在不同解析度上進行檢測。輸入圖片較大時，檢測速度較慢，輸入圖片較小時，檢測速度較快，總體上提高了准確率，因此多尺度訓練算是在准確率和速度上達到一個平衡。

    上表反映的是在檢測時，不同大小的輸入圖片情況下的YOLOv2和其他目標檢測演算法的對比。可以看出通過多尺度訓練的檢測模型，在測試的時候，輸入圖像在尺寸變化范圍較大的情況下也能取得mAP和FPS的平衡。

    YOLOv1採用的訓練網路是GoogleNet，YOLOv2採用了新的分類網路Darknet-19作為基礎網路，它使用了較多的3*3卷積核，並把1*1的卷積核置於3*3的卷積核之間，用來壓縮特徵，同時在每一次池化操作後把通道（Channels）數翻倍（借鑒VGG網路）。

    YOLOv1採用的GooleNet包含24個卷積層和2個全連接層，而Darknet-19包含19個卷積層和5個最大池化層（Max Pooling Layers），後面添加Average Pooling層（代替v1中FC層），而Softmax分類器作為激活被用在網路最後一層，用來進行分類和歸一化。

    在ImageNet數據集上進行預訓練，主要分兩步（採用隨機梯度下降法）：

輸入圖像大小是224*224，初始學習率（Learning Rate）為0.1，訓練160個epoch，權值衰減（Weight Decay）為0.0005，動量（Momentum）為0.9，同時在訓練時採用標準的數據增強（Data Augmentation）方式如隨機裁剪、旋轉以及色度、亮度的調整。

fine-tuning：第1步結束後，改用448*448輸入（高解析度模型），學習率改為0.001，訓練10個epoch，其他參數不變。結果表明：fine-tuning後的top-1准確率為76.5%，top-5准確率為93.3%，若按照原來的訓練方式，Darknet-19的top-1准確率是72.9%，top-5准確率為91.2%。可以看出，兩步分別從網路結構和訓練方式方面入手提高了網路分類准確率。

    預訓練之後，開始基於檢測的數據集再進行fine-tuning。

    首先，先把最後一個卷積層去掉，然後添加3個3*3的卷積層，每個卷積層有1024個卷積核，並且後面都連接一個1*1的卷積層，卷積核個數（特徵維度）根據需要檢測的類數量決定。（比如對VOC數據，每個Cell需要預測5個Boungding Box，每個Bounding Box有4個坐標值、1個置信度值和20個條件類別概率值，所以每個單元格對應125個數據，此時卷積核個數應該取125。）

    然後，將最後一個3*3*512的卷積層和倒數第2個卷積層相連（提取細粒度特徵），最後在檢測數據集上fine-tuning預訓練模型160個epoch，學習率採用0.001，並且在第60和90個epoch的時候將學習率除以10，權值衰減、動量和數據增強方法與預訓練相同。

    YOLO9000通過結合分類和檢測數據集，使得訓練得到的模型可以檢測約9000類物體，利用帶標注的分類數據集量比較大的特點，解決了帶標注的檢測數據集量比較少的問題。具體方法是：一方面採用WordTree融合數據集，另一方面聯合訓練分類數據集和檢測數據集。

    分類數據集和檢測數據集存在較大差別：檢測數據集只有粗粒度的標記信息，如「貓」、「狗」，而分類數據集的標簽信息則更細粒度，更豐富。比如「狗」就包括「哈士奇」、「金毛狗」等等。所以如果想同時在檢測數據集與分類數據集上進行訓練，那麼就要用一種一致性的方法融合這些標簽信息。

    用於分類的方法，常用Softmax（比如v2），Softmax意味著分類的類別之間要互相獨立的，而ImageNet和COCO這兩種數據集之間的分類信息不相互獨立（ImageNet對應分類有9000種，而COCO僅提供80種目標檢測），所以使用一種多標簽模型來混合數據集，即假定一張圖片可以有多個標簽，並且不要求標簽之間獨立，而後進行Softmax分類。

    由於ImageNet的類別是從WordNet選取的，作者採用以下策略重建了一個樹形結構（稱為WordTree）：

遍歷ImageNet的標簽，然後在WordNet中尋找該標簽到根節點(所有的根節點為實體對象)的路徑；

如果路徑只有一條，將該路徑直接加入到WordTree結構中；

否則，從可選路徑中選擇一條最短路徑，加入到WordTree結構中。

WordTree的作用就在於將兩種數據集按照層級進行結合。

    如此，在WordTree的某個節點上就可以計算該節點的一些條件概率值，比如在terrier這個節點，可以得到如下條件概率值：

    進而，如果要預測此節點的概率（即圖片中目標是Norfolk terrier的概率），可以根據WordTree將該節點到根節點的條件概率依次相乘得到，如下式：

其中：

    YOLO9000在WordTree1k（用有1000類別的ImageNet1k創建）上訓練了Darknet-19模型。為了創建WordTree1k作者添加了很多中間節點（中間詞彙），把標簽由1000擴展到1369。

    訓練過程中GroundTruth標簽要順著向根節點的路徑傳播：為了計算條件概率，模型預測了一個包含1369個元素的向量，而且基於所有「同義詞集」計算Softmax，其中「同義詞集」是同一概念下的所屬詞。

    現在一張圖片是多標記的，標記之間不需要相互獨立。在訓練過程中，如果有一個圖片的標簽是「Norfolk terrier」，那麼這個圖片還會獲得「狗」以及「哺乳動物」等標簽。

    如上圖所示，之前的ImageNet分類是使用一個大Softmax進行分類，而現在WordTree只需要對同一概念下的同義詞進行Softmax分類。然後作者分別兩個數據集上用相同訓練方法訓練Darknet-19模型，最後在ImageNet數據集上的top-1准確率為72.9%，top-5准確率為91.2%；在WordTree數據集上的top-1准確率為71.9%，top-5准確率為90.4%。

    這種方法的好處是有「退而求其次」的餘地：在對未知或者新的物體進行分類時，性能損失更低，比如看到一個狗的照片，但不知道是哪種種類的狗，那麼就預測其為「狗」。

    以上是構造WordTree的原理，下圖是融合COCO數據集和ImageNet數據集以及生成它們的WordTree的示意圖（用顏色區分了COCO數據集和ImageNet數據集的標簽節點），混合後的數據集對應的WordTree有9418個類。另一方面，由於ImageNet數據集太大，YOLO9000為了平衡兩個數據集之間的數據量，通過過采樣（Oversampling）COCO數據集中的數據，使COCO數據集與ImageNet數據集之間的數據量比例達到1：4。

    對YOLO9000進行評估，發現其mAP比DPM高，而且YOLO有更多先進的特徵，YOLO9000是用部分監督的方式在不同訓練集上進行訓練，同時還能檢測9000個物體類別，並保證實時運行。雖然YOLO9000對動物的識別性能很好，但是對衣服或者裝備的識別性能不是很好（這跟數據集的數據組成有關）。

    YOLO9000的網路結構和YOLOv2類似，區別是每個單元格只採用3個Anchor Boxes。

    YOLO9000提出了一種在分類數據集和檢測數據集上聯合訓練的機制，即使用檢測數據集（COCO）的圖片去學習檢測相關的信息即查找對象（例如預測邊界框坐標、邊界框是否包含目標及目標屬於各個類別的概率），使用僅有類別標簽的分類數據集（ImageNet）中的圖片去擴展檢測到的對象的可識別種類。

    具體方法是：當網路遇到一個來自檢測數據集的圖片與標記信息，就把這些數據用完整的損失函數（v2和9000均沿用了v1網路的損失函數）反向傳播，而當網路遇到一個來自分類數據集的圖片和分類標記信息，只用代表分類誤差部分的損失函數反向傳播這個圖片。

    YOLO v2 在大尺寸圖片上能夠實現高精度，在小尺寸圖片上運行更快，可以說在速度和精度上達到了平衡，具體性能表現如下所示。

coco數據集

voc2012數據集

⑵ CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割

雷鋒網 AI 科技評論按：網路研究院、華中科技大學、悉尼科技大學聯合新作——關於無監督領域自適應語義分割的論文《 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》被 CCF A 類學術會議 CVPR2019 收錄為 Oral 論文。該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割演算法，旨在利用易獲取的虛擬場景標注數據來完成對標注成本高昂的現實場景數據的語義分割，大大減少了人工標注成本。本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。

論文地址： https://arxiv.org/abs/1809.09478

1.問題背景

基於深度學習的語義分割方法效果出眾，但需要大量的人工標注進行監督訓練。不同於圖像分類等任務，語義分割需要像素級別的人工標注，費時費力，無法大規模實施。藉助於計算機虛擬圖像技術，如3D游戲，用戶可以幾乎無成本地獲得無限量自動標注數據。然而虛擬圖像和現實圖像間存在嚴重的視覺差異（域偏移），如紋理、光照、視角差異等等，這些差異導致在虛擬圖像上訓練出的深度模型往往在真實圖像數據集上的分割精度很低。

2. 傳統方法

針對上述域偏移問題，一種廣泛採用的方法是在網路中加入一個域判別器Discriminator (D），利用對抗訓練的機制，減少源域Source (S）和目標域Target（T）之間不同分布的差異，以加強原始網路（G）在域間的泛化能力。方法具體包括兩方面：

（1）利用源域的有標簽數據進行有監督學習，提取領域知識：

其中Xs，Ys為源域數據及其對應標簽。

（2）通過對抗學習，降低域判別器（D）的精度，以對齊源域與目標域的特徵分布：

其中XT為目標域數據，無標簽。

3.我們針對傳統方法的改進

以上基於對抗學習的傳統域適應方法只能對齊全局特徵分布（Marginal Distribution），而忽略了不同域之間，相同語義特徵的語義一致性（Joint Distribution），在訓練過程中容易造成負遷移，如圖2（a）所示。舉例來說，目標域中的車輛這一類，可能與源域中的車輛在視覺上是接近的。因此，在沒有經過域適應演算法之前，目標域車輛也能夠被正確分割。然而，為了迎合傳統方法的全局對齊，目標域中的車輛特徵反而有可能會被映射到源域中的其他類別，如火車等，造成語義不一致。

針對這一問題，我們在今年CVPR的論文中，向對抗學習框架里加入了聯合訓練的思想，解決了傳統域適應方法中的語義不一致性和負遷移等鍵問題。具體做法見圖2（b），我們採用了兩個互斥分類器對目標域特徵進行分類。當兩個分類器給出的預測很一致時，我們認為該特徵已經能被很好的分類，語義一致性較高，所以應減少全局對齊策略對這些特徵產生的負面影響。反之，當兩個分類器給出的預測不一致，說明該目標域特徵還未被很好地分類，依然需要用對抗損失進行與源域特徵的對齊。所以應加大對齊力度，使其盡快和源域特徵對應。

4.網路結構

為了實現上述語義級對抗目標，我們提出了Category-Level Adversarial Network (CLAN)。遵循聯合訓練的思想，我們在生成網路中採用了互斥分類器的結構，以判斷目標域的隱層特徵是否已達到了局部語義對齊。在後續對抗訓練時，網路依據互斥分類器產生的兩個預測向量之差（Discrepancy）來對判別網路所反饋的對抗損失進行加權。網路結構如下圖3所示。

圖3中，橙色的線條表示源域流，藍色的線條表示目標域流，綠色的雙箭頭表示我們在訓練中強迫兩個分類器的參數正交，以達到互斥分類器的目的。源域流和傳統的方法並無很大不同，唯一的區別是我們集成了互斥分類器產生的預測作為源域的集成預測。該預測一方面被標簽監督，產生分割損失（Segmentation Loss），如式（3）所示：

另一方面，該預測進入判別器D，作為源域樣本。

綠色的雙箭頭處，我們使用餘弦距離作為損失，訓練兩個分類器產生不同的模型參數：

目標域流中，集成預測同樣進入判別器D。不同的是，我們維持兩個分類器預測的差值，作為局部對齊程度的依據 (local alignment score map）。該差值與D所反饋的損失相乘，生成語義級別的對抗損失：

該策略加大了語義不一致特徵的對齊力度，而減弱了語義一致的特徵受全局對齊的影響，從而加強了特徵間的語義對齊，防止了負遷移的產生。

最後，根據以上三個損失，我們可以得出最終的總體損失函數：

基於以上損失函數，演算法整體的優化目標為：

在訓練中，我們交替優化G和D，直至損失收斂。

5. 特徵空間分析

我們重點關注不常見類，如圖4（a）中黃框內的柱子，交通標志。這些類經過傳統方法的分布對齊，反而在分割結果中消失了。結合特徵的t-SNE圖，我們可以得出結論，有些類的特徵在沒有進行域遷移之前，就已經是對齊的。傳統的全局域適應方法反而會破壞這種語義一致性，造成負遷移。而我們提出的語義級別對抗降低了全局對齊對這些已對齊類的影響，很好的解決了這一問題。

6. 實驗結果

我們在兩個域適應語義分割任務，即GTA5 -> Cityscapes 和 SYNTHIA -> Cityscapes 上進行了實驗驗證。我們採用最常見的Insertion over Union作為分割精度的衡量指標，實驗結果如下。從表1和表2中可以看出，在不同網路結構（VGG16，ResNet101）中，我們的方法（CLAN）域適應效果都達到了 state-of-the-art的精度。特別的，在一些不常見類上（用藍色表示），傳統方法容易造成負遷移，而CLAN明顯要優於其他方法。

表 1. 由虛擬數據集GTA5 遷移至真實數據集 Cityscapes 的域適應分割精度對比。

表 2. 由虛擬數據集SYNTHIA 遷移至真實數據集 Cityscapes 的域適應分割精度對比。

第二個實驗中，我們了展示隱空間層面，源域和目標域間同語義特徵簇的中心距離。該距離越小，說明兩個域間的語義對齊越好。結果見圖 5。

最後，我們給出分割結果的可視化效果。我們的演算法大大提高了分割精度。

7. 總結

《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》引入了聯合訓練結合對抗學習的設計，在無監督域適應語義分割任務中取得了較好的實驗結果。該演算法能應用前景廣泛，比如能夠很好地應用到自動駕駛中，讓車輛在不同的駕駛環境中也能保持魯棒的街景識別率。

最後

CVPR 2019 Oral 論文精選匯總，值得一看的 CV 論文都在這里（持續更新中）

CVPR 2019 即將於 6 月在美國長灘召開。今年有超過 5165 篇的大會論文投稿，最終錄取 1299 篇，其中 Oral 論文近 300 篇。為了方便社區開發者和學術青年查找和閱讀高價值論文，AI 研習社從入選的 Oral 論文中，按應用方向挑選了部分精華論文，貼在本文，打開鏈接即可查看~

https://ai.yanxishe.com/page/postDetail/11408

⑶ 深度學習之卷積神經網路經典模型

LeNet-5模型在CNN的應用中，文字識別系統所用的LeNet-5模型是非常經典的模型。LeNet-5模型是1998年，Yann LeCun教授提出的，它是第一個成功大規模應用在手寫數字識別問題的卷積神經網路，在MNIST數據集中的正確率可以高達99.2%。

下面詳細介紹一下LeNet-5模型工作的原理。
LeNet-5模型一共有7層，每層包含眾多參數，也就是卷積神經網路中的參數。雖然層數只有7層，這在如今龐大的神經網路中可是說是非常少的了，但是包含了卷積層，池化層，全連接層，可謂麻雀雖小五臟俱全了。為了方便，我們把卷積層稱為C層，下采樣層叫做下采樣層。
首先，輸入層輸入原始圖像，原始圖像被處理成32×32個像素點的值。然後，後面的隱層計在卷積和子抽樣之間交替進行。C1層是卷積層，包含了六個特徵圖。每個映射也就是28x28個神經元。卷積核可以是5x5的十字形，這28×28個神經元共享卷積核權值參數，通過卷積運算，原始信號特徵增強，同時也降低了雜訊，當卷積核不同時，提取到圖像中的特徵不同；C2層是一個池化層，池化層的功能在上文已經介紹過了，它將局部像素值平均化來實現子抽樣。
池化層包含了六個特徵映射，每個映射的像素值為14x14，這樣的池化層非常重要，可以在一定程度上保證網路的特徵被提取，同時運算量也大大降低，減少了網路結構過擬合的風險。因為卷積層與池化層是交替出現的，所以隱藏層的第三層又是一個卷積層，第二個卷積層由16個特徵映射構成，每個特徵映射用於加權和計算的卷積核為10x10的。第四個隱藏層，也就是第二個池化層同樣包含16個特徵映射，每個特徵映射中所用的卷積核是5x5的。第五個隱藏層是用5x5的卷積核進行運算，包含了120個神經元，也是這個網路中卷積運算的最後一層。
之後的第六層便是全連接層，包含了84個特徵圖。全連接層中對輸入進行點積之後加入偏置，然後經過一個激活函數傳輸給輸出層的神經元。最後一層，也就是第七層，為了得到輸出向量，設置了十個神經元來進行分類，相當於輸出一個包含十個元素的一維數組，向量中的十個元素即0到9。
AlexNet模型
AlexNet簡介
2012年Imagenet圖像識別大賽中，Alext提出的alexnet網路模型一鳴驚人，引爆了神經網路的應用熱潮，並且贏得了2012屆圖像識別大賽的冠軍，這也使得卷積神經網路真正意義上成為圖像處理上的核心演算法。上文介紹的LeNet-5出現在上個世紀，雖然是經典，但是迫於種種復雜的現實場景限制，只能在一些領域應用。不過，隨著SVM等手工設計的特徵的飛速發展，LeNet-5並沒有形成很大的應用狀況。隨著ReLU與dropout的提出，以及GPU帶來算力突破和互聯網時代大數據的爆發，卷積神經網路帶來歷史的突破，AlexNet的提出讓深度學習走上人工智慧的最前端。
圖像預處理
AlexNet的訓練數據採用ImageNet的子集中的ILSVRC2010數據集，包含了1000類，共1.2百萬的訓練圖像，50000張驗證集，150000張測試集。在進行網路訓練之前我們要對數據集圖片進行預處理。首先我們要將不同解析度的圖片全部變成256x256規格的圖像，變換方法是將圖片的短邊縮放到 256像素值，然後截取長邊的中間位置的256個像素值，得到256x256大小的圖像。除了對圖片大小進行預處理，還需要對圖片減均值，一般圖像均是由RGB三原色構成，均值按RGB三分量分別求得，由此可以更加突出圖片的特徵，更方便後面的計算。
此外，對了保證訓練的效果，我們仍需對訓練數據進行更為嚴苛的處理。在256x256大小的圖像中，截取227x227大小的圖像，在此之後對圖片取鏡像，這樣就使得原始數據增加了（256-224）x（256-224）x2= 2048倍。最後對RGB空間做PCA，然後對主成分做（0,0.1）的高斯擾動，結果使錯誤率下降1%。對測試數據而言，抽取以圖像4個角落的大小為224224的圖像，中心的224224大小的圖像以及它們的鏡像翻轉圖像，這樣便可以獲得10張圖像，我們便可以利用softmax進行預測，對所有預測取平均作為最終的分類結果。
ReLU激活函數
之前我們提到常用的非線性的激活函數是sigmoid，它能夠把輸入的連續實值全部確定在0和1之間。但是這帶來一個問題，當一個負數的絕對值很大時，那麼輸出就是0；如果是絕對值非常大的正數，輸出就是1。這就會出現飽和的現象，飽和現象中神經元的梯度會變得特別小，這樣必然會使得網路的學習更加困難。此外，sigmoid的output的值並不是0為均值，因為這會導致上一層輸出的非0均值信號會直接輸入到後一層的神經元上。所以AlexNet模型提出了ReLU函數，公式：f(x)=max(0,x)f(x)=max(0,x)。

用ReLU代替了Sigmoid，發現使用 ReLU 得到的SGD的收斂速度會比 sigmoid快很多，這成了AlexNet模型的優勢之一。
Dropout
AlexNet模型提出了一個有效的模型組合方式，相比於單模型，只需要多花費一倍的時間，這種方式就做Dropout。在整個神經網路中，隨機選取一半的神經元將它們的輸出變成0。這種方式使得網路關閉了部分神經元，減少了過擬合現象。同時訓練的迭代次數也得以增加。當時一個GTX580 GPU只有3GB內存，這使得大規模的運算成為不可能。但是，隨著硬體水平的發展，當時的GPU已經可以實現並行計算了，並行計算之後兩塊GPU可以互相通信傳輸數據，這樣的方式充分利用了GPU資源，所以模型設計利用兩個GPU並行運算，大大提高了運算效率。
模型分析

AlexNet模型共有8層結構，其中前5層為卷積層，其中前兩個卷積層和第五個卷積層有池化層，其他卷積層沒有。後面3層為全連接層，神經元約有六十五萬個，所需要訓練的參數約六千萬個。
圖片預處理過後，進過第一個卷積層C1之後，原始的圖像也就變成了55x55的像素大小，此時一共有96個通道。模型分為上下兩塊是為了方便GPU運算，48作為通道數目更加適合GPU的並行運算。上圖的模型里把48層直接變成了一個面，這使得模型看上去更像一個立方體，大小為55x55x48。在後面的第二個卷積層C2中，卷積核的尺寸為5x5x48，由此再次進行卷積運算。在C1，C2卷積層的卷積運算之後，都會有一個池化層，使得提取特徵之後的特徵圖像素值大大減小，方便了運算，也使得特徵更加明顯。而第三層的卷積層C3又是更加特殊了。第三層卷積層做了通道的合並，將之前兩個通道的數據再次合並起來，這是一種串接操作。第三層後，由於串接，通道數變成256。全卷積的卷積核尺寸也就變成了13×13×25613×13×256。一個有4096個這樣尺寸的卷積核分別對輸入圖像做4096次的全卷積操作，最後的結果就是一個列向量，一共有4096個數。這也就是最後的輸出，但是AlexNet最終是要分1000個類，所以通過第八層，也就是全連接的第三層，由此得到1000個類輸出。
Alexnet網路中各個層發揮了不同的作用，ReLU，多個CPU是為了提高訓練速度，重疊pool池化是為了提高精度，且不容易產生過擬合，局部歸一化響應是為了提高精度，而數據增益與dropout是為了減少過擬合。
VGG net
在ILSVRC-2014中，牛津大學的視覺幾何組提出的VGGNet模型在定位任務第一名和分類任務第一名[[i]]。如今在計算機視覺領域，卷積神經網路的良好效果深得廣大開發者的喜歡，並且上文提到的AlexNet模型擁有更好的效果，所以廣大從業者學習者試圖將其改進以獲得更好地效果。而後來很多人經過驗證認為，AlexNet模型中所謂的局部歸一化響應浪費了計算資源，但是對性能卻沒有很大的提升。VGG的實質是AlexNet結構的增強版，它側重強調卷積神經網路設計中的深度。將卷積層的深度提升到了19層，並且在當年的ImageNet大賽中的定位問題中獲得了第一名的好成績。整個網路向人們證明了我們是可以用很小的卷積核取得很好地效果，前提是我們要把網路的層數加深，這也論證了我們要想提高整個神經網路的模型效果，一個較為有效的方法便是將它的深度加深，雖然計算量會大大提高，但是整個復雜度也上升了，更能解決復雜的問題。雖然VGG網路已經誕生好幾年了，但是很多其他網路上效果並不是很好地情況下，VGG有時候還能夠發揮它的優勢，讓人有意想不到的收獲。

與AlexNet網路非常類似，VGG共有五個卷積層，並且每個卷積層之後都有一個池化層。當時在ImageNet大賽中，作者分別嘗試了六種網路結構。這六種結構大致相同，只是層數不同，少則11層，多達19層。網路結構的輸入是大小為224*224的RGB圖像，最終將分類結果輸出。當然，在輸入網路時，圖片要進行預處理。
VGG網路相比AlexNet網路，在網路的深度以及寬度上做了一定的拓展，具體的卷積運算還是與AlexNet網路類似。我們主要說明一下VGG網路所做的改進。第一點，由於很多研究者發現歸一化層的效果並不是很好，而且佔用了大量的計算資源，所以在VGG網路中作者取消了歸一化層；第二點，VGG網路用了更小的3x3的卷積核，而兩個連續的3x3的卷積核相當於5x5的感受野，由此類推，三個3x3的連續的卷積核也就相當於7x7的感受野。這樣的變化使得參數量更小，節省了計算資源，將資源留給後面的更深層次的網路。第三點是VGG網路中的池化層特徵池化核改為了2x2，而在AlexNet網路中池化核為3x3。這三點改進無疑是使得整個參數運算量下降，這樣我們在有限的計算平台上能夠獲得更多的資源留給更深層的網路。由於層數較多，卷積核比較小，這樣使得整個網路的特徵提取效果很好。其實由於VGG的層數較多，所以計算量還是相當大的，卷積層比較多成了它最顯著的特點。另外，VGG網路的拓展性能比較突出，結構比較簡潔，所以它的遷移性能比較好，遷移到其他數據集的時候泛化性能好。到現在為止，VGG網路還經常被用來提出特徵。所以當現在很多較新的模型效果不好時，使用VGG可能會解決這些問題。
GoogleNet
谷歌於2014年Imagenet挑戰賽（ILSVRC14）憑借GoogleNet再次斬獲第一名。這個通過增加了神經網路的深度和寬度獲得了更好地效果，在此過程中保證了計算資源的不變。這個網路論證了加大深度，寬度以及訓練數據的增加是現有深度學習獲得更好效果的主要方式。但是增加尺寸可能會帶來過擬合的問題，因為深度與寬度的加深必然會帶來過量的參數。此外，增加網路尺寸也帶來了對計算資源侵佔過多的缺點。為了保證計算資源充分利用的前提下去提高整個模型的性能，作者使用了Inception模型，這個模型在下圖中有展示，可以看出這個有點像金字塔的模型在寬度上使用並聯的不同大小的卷積核，增加了卷積核的輸出寬度。因為使用了較大尺度的卷積核增加了參數。使用了1*1的卷積核就是為了使得參數的數量最少。

Inception模塊
上圖表格為網路分析圖，第一行為卷積層，輸入為224×224×3 ，卷積核為7x7，步長為2，padding為3，輸出的維度為112×112×64，這裡面的7x7卷積使用了 7×1 然後 1×7 的方式，這樣便有(7+7)×64×3=2,688個參數。第二行為池化層，卷積核為3×33×3，滑動步長為2，padding為 1 ，輸出維度：56×56×64，計算方式：1/2×(112+2×1?3+1)=56。第三行，第四行與第一行，第二行類似。第 5 行 Inception mole中分為4條支線，輸入均為上層產生的 28×28×192 結果：第 1 部分，1×1 卷積層，輸出大小為28×28×64；第 2 部分，先1×1卷積層，輸出大小為28×28×96，作為輸入進行3×3卷積層，輸出大小為28×28×128；第 3部分，先1×1卷積層，輸出大小為28×28×32，作為輸入進行3×3卷積層，輸出大小為28×28×32；而第3 部分3×3的池化層，輸出大小為輸出大小為28×28×32。第5行的Inception mole會對上面是個結果的輸出結果並聯，由此增加網路寬度。
ResNet
2015年ImageNet大賽中，MSRA何凱明團隊的ResialNetworks力壓群雄，在ImageNet的諸多領域的比賽中上均獲得了第一名的好成績，而且這篇關於ResNet的論文Deep Resial Learning for Image Recognition也獲得了CVPR2016的最佳論文，實至而名歸。
上文介紹了的VGG以及GoogleNet都是增加了卷積神經網路的深度來獲得更好效果，也讓人們明白了網路的深度與廣度決定了訓練的效果。但是，與此同時，寬度與深度加深的同時，效果實際會慢慢變差。也就是說模型的層次加深，錯誤率提高了。模型的深度加深，以一定的錯誤率來換取學習能力的增強。但是深層的神經網路模型犧牲了大量的計算資源，學習能力提高的同時不應當產生比淺層神經網路更高的錯誤率。這個現象的產生主要是因為隨著神經網路的層數增加，梯度消失的現象就越來越明顯。所以為了解決這個問題，作者提出了一個深度殘差網路的結構Resial：

上圖就是殘差網路的基本結構，可以看出其實是增加了一個恆等映射，將原本的變換函數H(x)轉換成了F(x)+x。示意圖中可以很明顯看出來整個網路的變化，這樣網路不再是簡單的堆疊結構，這樣的話便很好地解決了由於網路層數增加而帶來的梯度原來越不明顯的問題。所以這時候網路可以做得很深，到目前為止，網路的層數都可以上千層，而能夠保證很好地效果。並且，這樣的簡單疊加並沒有給網路增加額外的參數跟計算量，同時也提高了網路訓練的效果與效率。
在比賽中，為了證明自己觀點是正確的，作者控制變數地設計幾個實驗。首先作者構建了兩個plain網路，這兩個網路分別為18層跟34層，隨後作者又設計了兩個殘差網路，層數也是分別為18層和34層。然後對這四個模型進行控制變數的實驗觀察數據量的變化。下圖便是實驗結果。實驗中，在plain網路上觀測到明顯的退化現象。實驗結果也表明，在殘差網路上，34層的效果明顯要好於18層的效果，足以證明殘差網路隨著層數增加性能也是增加的。不僅如此，殘差網路的在更深層的結構上收斂性能也有明顯的提升，整個實驗大為成功。

除此之外，作者還做了關於shortcut方式的實驗，如果殘差網路模塊的輸入輸出維度不一致，我們如果要使維度統一，必須要對維數較少的進行増維。而增維的最好效果是用0來填充。不過實驗數據顯示三者差距很小，所以線性投影並不是特別需要。使用0來填充維度同時也保證了模型的復雜度控制在比較低的情況下。
隨著實驗的深入，作者又提出了更深的殘差模塊。這種模型減少了各個層的參數量，將資源留給更深層數的模型，在保證復雜度很低的情況下，模型也沒有出現梯度消失很明顯的情況，因此目前模型最高可達1202層，錯誤率仍然控製得很低。但是層數如此之多也帶來了過擬合的現象，不過諸多研究者仍在改進之中，畢竟此時的ResNet已經相對於其他模型在性能上遙遙領先了。
殘差網路的精髓便是shortcut。從一個角度來看，也可以解讀為多種路徑組合的一個網路。如下圖：

ResNet可以做到很深，但是從上圖中可以體會到，當網路很深，也就是層數很多時，數據傳輸的路徑其實相對比較固定。我們似乎也可以將其理解為一個多人投票系統，大多數梯度都分布在論文中所謂的effective path上。
DenseNet
在Resnet模型之後，有人試圖對ResNet模型進行改進，由此便誕生了ResNeXt模型。

這是對上面介紹的ResNet模型結合了GoogleNet中的inception模塊思想，相比於Resnet來說更加有效。隨後，誕生了DenseNet模型，它直接將所有的模塊連接起來，整個模型更加簡單粗暴。稠密相連成了它的主要特點。

我們將DenseNet與ResNet相比較:

從上圖中可以看出，相比於ResNet，DenseNet參數量明顯減少很多，效果也更加優越，只是DenseNet需要消耗更多的內存。
總結
上面介紹了卷積神經網路發展史上比較著名的一些模型，這些模型非常經典，也各有優勢。在算力不斷增強的現在，各種新的網路訓練的效率以及效果也在逐漸提高。從收斂速度上看，VGG>Inception>DenseNet>ResNet,從泛化能力來看，Inception>DenseNet=ResNet>VGG，從運算量看來，Inception<DenseNet< ResNet<VGG，從內存開銷來看，Inception<ResNet< DenseNet<VGG。在本次研究中，我們對各個模型均進行了分析，但從效果來看，ResNet效果是最好的，優於Inception，優於VGG，所以我們第四章實驗中主要採用谷歌的Inception模型，也就是GoogleNet。

⑷ 自研演算法再立功 OPPO CVPR 2021獲多項佳績

【PChome手機頻道資訊報道】 全球頂級的計算機視覺及人工智慧會議CVPR 2021落下帷幕，OPPO在六大賽道共十二項賽項中取得一項第一，七項第二，四項第三的優異成績，僅次於網路等國內第一梯隊的參賽選手。據了解，本次OPPO的參賽團隊來自OPPO研究院智能感知與交互研究部和OPPO美國研究所，先後在多目標行為分析、足球行為分析、長視頻理解、時空行為檢測、跨模態分析及人機交互識別六大賽道上取得優異的成績。

由OPPO智能感知首席科學家郭彥東與清華學者等共同發表的《View-Guided Point Cloud Completion》論文，被本次CVPR所收錄。該論文通過執行有效的跨模態和跨級別融合框架，為點雲補全任務提出了一套視圖引導的全新解決方案。

OPPO在多目標行為分析賽道中收獲頗豐，其所應用的AI演算法能准確判別、預測動物及人在復雜交互內容下的行為。目前，這項技術已經賦能OPPO智慧工廠，在這套演算法的輔助下，可以避免關鍵生產環節的錯漏錯放，令自身和產線更安全。

OPPO的自研演算法其實早就在OPPO手機中發揮了重要功能，在Reno6所主打的炫彩人像視頻拍攝功能中，就是運用了OPPO自研的AI演算法來實現視頻美顏、美妝功能的。OPPO的演算法可以基於多張2D圖片對人臉的3D模型進行精準構建，模型精度與現實差距能夠控制在1mm級別。運用這種演算法即便是在動態視頻拍攝上，也能夠對人臉的模型進行精確識別，方便後續的美顏演算法進行處理。

依託於這種自研演算法支持，OPPO Reno6系列已經實現了635個特徵點的視頻識別，從而可以為用戶展現出自然的美顏效果。也正是源於該演算法的使用，OPPO將人像視頻拍攝功能推向了一個新的賽道，讓視頻拍攝成為一種必備的功能支持。另外該演算法也能讓AR特效展現出更豐富、更自然的效果。

OPPO的AI能力已經發展到能夠識別人在時空環境中的行為狀態，比如在足球行為識別的功能上，就展現出非常優秀的識別表現，它可以通過比賽視頻來判定包括越位、紅牌等復雜賽場難題，讓賽場中的判罰准確，減少視頻回看的時間，加強比賽的連貫性。對於足球愛好者來說，也能通過演算法支持在比賽後實時整理精彩集錦。

在跨模態行為分析的演算法支持上，OPPO強大的AI演算法僅通過視覺信息便可准確識別一段視頻中人物在特定空間內發生的交談、屈膝、走動等十餘種動作。該技術未來有望廣泛應用在家居場景，為家中老人、小孩、寵物帶來更貼心的照料。

此外，OPPO還在時空行為定位演算法也有著頂級的表現，時空行為定位演算法不僅可以准確識別視頻中人們的行為，還可以同步定位其所處的時間段和空間范圍。這也意味著，OPPO的AI技術不僅能理解你在做什麼，還可以在時空中「找到」你。

OPPO的自研AI演算法有著OPPO對於市場和用戶的深刻理解在其中，其在CVPR 2021的競賽成績也表明了OPPO的技術實力。OPPO以往的諸多自研演算法已經在OPPO手機中正式商用，取得了用戶的高度認可。而現在所展示的諸多AI演算法，或許在不久過後就會應用到新款的OPPO手機之中。

導航:首頁 > 源碼編譯 > cvpr隨機演算法

cvpr隨機演算法

與cvpr隨機演算法相關的資料