A. svm演算法是什麼
SVM(Support Vector Machine)中文名為支持向量機,是常見的一種判別方法。
支持向量機(Support Vector Machine, SVM)是一類按監督學習(supervised learning)方式對數據進行二元分類的廣義線性分類器(generalized linear classifier),其決策邊界是對學習樣本求解的最大邊距超平面(maximum-margin hyperplane)。
數值求解特點:
SVM的求解可以使用二次凸優化問題的數值方法,例如內點法和序列最小優化演算法,在擁有充足學習樣本時也可使用隨機梯度下降。
在二次凸優化問題中,SMO的每步迭代都嚴格地優化了SVM的對偶問題,且迭代會在有限步後收斂於全局極大值。SMO演算法的迭代速度與所選取乘子對KKT條件的偏離程度有關,因此SMO通常採用啟發式方法選取拉格朗日乘子。
在每次迭代時,SGD首先判定約束條件,若該樣本不滿足約束條件,則SGD按學習速率最小化結構風險;若該樣本滿足約束條件,為SVM的支持向量,則SGD根據正則化系數平衡經驗風險和結構風險,即SGD的迭代保持了SVM的稀疏性。
B. svm演算法是什麼
SVM演算法中文翻譯為支持向量機,它的英文全稱是Support Vector Machine。
之所以叫作支持向量機,是因為該演算法最終訓練出來的模型,由一些支持向量決定。所謂的支持向量,也就是能夠決定最終模型的向量。SVM演算法最初是用來解決二分類問題的,而在這個基礎上進行擴展,也能夠處理多分類問題以及回歸問題。
SVM演算法的歷史
早在1963 年,著名的前蘇聯統計學家弗拉基米爾·瓦普尼克在讀博士期間,就和他的同事阿列克謝·切爾沃寧基斯共同提出了支持向量機的概念。
但由於當時的國際環境影響,他們用俄文發表的論文,並沒有受到國際學術界的關注。直到 20 世紀 90 年代,瓦普尼克隨著移民潮來到美國,而後又發表了SVM 理論。此後,SVM 演算法才受到應有的重視。如今,SVM 演算法被稱為最好的監督學習演算法之一。
C. python svm 怎麼訓練模型
支持向量機SVM(Support Vector Machine)是有監督的分類預測模型,本篇文章使用機器學習庫scikit-learn中的手寫數字數據集介紹使用Python對SVM模型進行訓練並對手寫數字進行識別的過程。
准備工作
手寫數字識別的原理是將數字的圖片分割為8X8的灰度值矩陣,將這64個灰度值作為每個數字的訓練集對模型進行訓練。手寫數字所對應的真實數字作為分類結果。在機器學習sklearn庫中已經包含了不同數字的8X8灰度值矩陣,因此我們首先導入sklearn庫自帶的datasets數據集。然後是交叉驗證庫,SVM分類演算法庫,繪制圖表庫等。
12345678910#導入自帶數據集from sklearn import datasets#導入交叉驗證庫from sklearn import cross_validation#導入SVM分類演算法庫from sklearn import svm#導入圖表庫import matplotlib.pyplot as plt#生成預測結果准確率的混淆矩陣from sklearn import metrics讀取並查看數字矩陣
從sklearn庫自帶的datasets數據集中讀取數字的8X8矩陣信息並賦值給digits。
12#讀取自帶數據集並賦值給digitsdigits = datasets.load_digits()查看其中的數字9可以發現,手寫的數字9以64個灰度值保存。從下面的8×8矩陣中很難看出這是數字9。
12#查看數據集中數字9的矩陣digits.data[9]以灰度值的方式輸出手寫數字9的圖像,可以看出個大概輪廓。這就是經過切割並以灰度保存的手寫數字9。它所對應的64個灰度值就是模型的訓練集,而真實的數字9是目標分類。我們的模型所要做的就是在已知64個灰度值與每個數字對應關系的情況下,通過對模型進行訓練來對新的手寫數字對應的真實數字進行分類。
1234#繪制圖表查看數據集中數字9的圖像plt.imshow(digits.images[9], cmap=plt.cm.gray_r, interpolation='nearest')plt.title('digits.target[9]')plt.show()
從混淆矩陣中可以看到,大部分的數字SVM的分類和預測都是正確的,但也有個別的數字分類錯誤,例如真實的數字2,SVM模型有一次錯誤的分類為1,還有一次錯誤分類為7。
D. 目標檢測演算法圖解:一文看懂RCNN系列演算法
姓名:王咫毅
學號:19021211150
【嵌牛導讀】CNN如此風靡,其衍生演算法也是層出不窮,各種衍生演算法也可以應用於各種應用場景,各類場合。本文則是了解每個衍生演算法的各個使用場景、原理及方法。
【嵌牛鼻子】RCNN 目標檢測
【嵌牛提問】RCNN系列演算法有何區別和聯系?
【嵌牛正文】
在生活中,經常會遇到這樣的一種情況,上班要出門的時候,突然找不到一件東西了,比如鑰匙、手機或者手錶等。這個時候一般在房間翻一遍各個角落來尋找不見的物品,最後突然一拍大腦,想到在某一個地方,在整個過程中有時候是很著急的,並且越著急越找不到,真是令人沮喪。但是,如果一個簡單的計算機演算法可以在幾毫秒內就找到你要找的物品,你的感受如何?是不是很驚奇!這就是對象檢測演算法(object detection)的力量。雖然上述舉的生活例子只是一個很簡單的例子,但對象檢測的應用范圍很廣,跨越多個不同的行業,從全天候監控到智能城市的實時車輛檢qian測等。簡而言之,物體檢測是強大的深度學習演算法中的一個分支。
在本文中,我們將深入探討可以用於對象檢測的各種演算法。首先從屬於RCNN系列演算法開始,即RCNN、 Fast RCNN和 Faster RCNN。在之後的文章中,將介紹更多高級演算法,如YOLO、SSD等。
1.解決對象檢測任務的簡單方法(使用深度學習)
下圖說明了對象檢測演算法是如何工作。圖像中的每個對象,從人到風箏都以一定的精度進行了定位和識別。
下面從最簡單的深度學習方法開始,一種廣泛用於檢測圖像中的方法——卷積神經網路(CNN)。如果讀者對CNN演算法有點生疏,建議 閱讀此文 。
這里僅簡要總結一下CNN的內部運作方式:
首先將圖像作為輸入傳遞到網路,然後通過各種卷積和池化層處理,最後以對象類別的形式獲得輸出。
對於每個輸入圖像,會得到一個相應的類別作為輸出。因此可以使用這種技術來檢測圖像中的各種對象。
1.首先,將圖像作為輸入;
2.然後,將圖像分成不同的區域;
3.然後,將每個區域視為單獨的圖像;
4.將所有這些區域傳遞給CNN並將它們分類為各種類別;
5.一旦將每個區域劃分為相應的類後,就可以組合所有這些區域來獲取具有檢測到的對象的原始圖像:
使用這種方法會面臨的問題在於,圖像中的對象可以具有不同的寬高比和空間位置。例如,在某些情況下,對象可能覆蓋了大部分圖像,而在其他情況下,對象可能只覆蓋圖像的一小部分,並且對象的形狀也可能不同。
基於此,需要劃分大量的區域,這會花費大量的計算時間。因此,為了解決這個問題並減少區域數量,可以使用基於區域的CNN,它使用提議方法選擇區域。
2.基於區域的卷積神經網路
2.1 RCNN的思想
RCNN演算法不是在大量區域上工作,而是在圖像中提出了一堆方框,並檢查這些方框中是否包含任何對象。RCNN 使用選擇性搜索從圖像中提取這些框。
下面介紹選擇性搜索以及它如何識別不同的區域。基本上四個區域形成一個對象:不同的比例、顏色、紋理和形狀。選擇性搜索在圖像中識別這些模式,並基於此提出各種區域。以下是選擇性搜索如何工作的簡要概述:
首先, 將圖像作為輸入:
然後,它生成初始子分段,以便獲得多個區域:
之後,該技術組合相似區域以形成更大的區域(基於顏色相似性、紋理相似性、尺寸相似性和形狀兼容性):
最後,這些區域產生最終的對象位置(感興趣的區域);
下面是RCNN檢測對象所遵循的步驟的簡要總結:
1.首先採用預先訓練的卷積神經網路;
2.重新訓練該模型模型——根據需要檢測的類別數量來訓練網路的最後一層(遷移學習);
3.第三步是獲取每個圖像的感興趣區域。然後,對這些區域調整尺寸,以便其可以匹配CNN輸入大小;
4.獲取區域後,使用SVM演算法對對象和背景進行分類。對於每個類,都訓練一個二分類SVM;
最後,訓練線性回歸模型,為圖像中每個識別出的對象生成更嚴格的邊界框;
[對上述步驟進行圖解分析]( http://www.robots.ox.ac.uk/~tvg/publications/talks/Fast-rcnn-slides.pdf ):
首先,將圖像作為輸入:
然後,使用一些提議方法獲得感興趣區域(ROI)(例如,選擇性搜索):
之後,對所有這些區域調整尺寸,並將每個區域傳遞給卷積神經網路:
然後,CNN為每個區域提取特徵,SVM用於將這些區域劃分為不同的類別:
最後,邊界框回歸(Bbox reg)用於預測每個已識別區域的邊界框:
以上就是RCNN檢測物體的全部流程。
2.2 RCNN的問題
從上節內容可以了解到RCNN是如何進行對象檢測的,但這種技術有其自身的局限性。以下原因使得訓練RCNN模型既昂貴又緩慢:
基於選擇性搜索演算法為每個圖像提取2,000個候選區域;
使用CNN為每個圖像區域提取特徵;
RCNN整個物體檢測過程用到三種模型:
CNN模型用於特徵提取;
線性svm分類器用於識別對象的的類別;
回歸模型用於收緊邊界框;
這些過程相結合使得RCNN非常慢,對每個新圖像進行預測需要大約40-50秒,這實際上使得模型在面對巨大的數據集時變得復雜且幾乎不可能應用。
好消息是存在另一種物體檢測技術,它解決了RCNN中大部分問題。
3.了解Fast RCNN
3.1Fast RCNN的思想
RCNN的提出者Ross Girshick提出了這樣的想法,即每個圖像只運行一次CNN,然後找到一種在2,000個區域內共享該計算的方法。在Fast RCNN中,將輸入圖像饋送到CNN,CNN生成卷積特徵映射。使用這些特徵圖提取候選區域。然後,使用RoI池化層將所有建議的區域重新整形為固定大小,以便將其饋送到全連接網路中。
下面將其分解為簡化概念的步驟:
1.首先將圖像作為輸入;
2.將圖像傳遞給卷積神經網路,生成感興趣的區域;
3.在所有的感興趣的區域上應用RoI池化層,並調整區域的尺寸。然後,每個區域被傳遞到全連接層的網路中;
4.softmax層用於全連接網以輸出類別。與softmax層一起,也並行使用線性回歸層,以輸出預測類的邊界框坐標。
因此,Fast RCNN演算法中沒有使用三個不同的模型,而使用單個模型從區域中提取特徵,將它們分成不同的類,並同時返回所標識類的邊界框。
對上述過程進行可視化講解:
將圖像作為輸入:
將圖像傳遞給卷積神經網路t,後者相應地返回感興趣的區域:
然後,在提取的感興趣區域上應用RoI池層,以確保所有區域具有相同的大小:
最後,這些區域被傳遞到一個全連接網路,對其進行分類,並同時使用softmax和線性回歸層返回邊界框:
上述過程說明了Fast RCNN是如何解決RCNN的兩個主要問題,即將每個圖像中的1個而不是2,000個區域傳遞給卷積神經網路,並使用一個模型來實現提取特徵、分類和生成邊界框。
3.2Fast RCNN的問題
Fast RCNN也存在一定的問題,它仍然使用選擇性搜索作為查找感興趣區域的提議方法,這是一個緩慢且耗時的過程,每個圖像檢測對象大約需要2秒鍾。
因此,又開發了另一種物體檢測演算法——Faster RCNN。
4.了解Faster RCNN
4.1. Faster RCNN的思想
Faster RCNN是Fast RCNN的修改版本,二者之間的主要區別在於,Fast RCNN使用選擇性搜索來生成感興趣區域,而Faster RCNN使用「區域提議網路」,即RPN。RPN將圖像特徵映射作為輸入,並生成一組提議對象,每個對象提議都以對象分數作為輸出。
以下步驟通常採用Faster RCNN方法:
1.將圖像作為輸入並將其傳遞給卷積神經網路,後者返回該圖像的特徵圖;
2.在這些特徵圖上應用RPN,返回提議對象及其分數;
3.在這些提議對象上應用RoI池層,以將所有提案降低到相同的大小;
4.最後,將提議傳遞到全連接層,該層在其頂部具有softmax層和線性回歸層,以對對象的邊界框進行分類和輸出;
這里簡要解釋一下RPN是如何運作的:
首先,Faster RCNN從CNN獲取特徵圖並將它們傳遞到區域提議網路。RPN在這些特徵圖上使用滑動窗口,每個窗口生成不同形狀和大小的k個方框( Anchor boxe):
方框是固定尺寸的邊界箱,具有不同的形狀和尺寸。對於每個方框,RPN預測兩件事:
預測錨是對象的概率;
用於邊界框回歸器調整錨點以更好地適合物體的形狀;
在有了不同形狀和大小的邊界框後,將其傳遞到RoI池層。對每個提案並對其進行裁剪,以便每個提案都包含一個對象。這就是RoI池層所做的事情,它為每個方框提取固定大小的特徵圖:
然後將這些特徵圖傳遞到全連接層,該層具有softmax和線性回歸層,最終對對象進行分類並預測已識別對象的邊界框。
4.2Faster RCNN的問題
上述討論過的所有對象檢測演算法都使用區域來識別對象,且網路不會一次查看完整圖像,而是按順序關注圖像的某些部分,這樣會帶來兩個復雜性的問題:
該演算法需要多次通過單個圖像來提取到所有對象;
由於不是端到端的演算法,不同的系統一個接一個地工作,整體系統的性能進一步取決於先前系統的表現效果。
鏈接: https://www.jianshu.com/p/51fc039ae7a4
E. 分類演算法 - SVM演算法
SVM的全稱是Support Vector Machine,即支持向量機,主要用於解決模式識別領域中的數據分類問題,屬於有監督學習演算法的一種。SVM要解決的問題可以用一個經典的二分類問題加以描述。如圖1所示,紅色和藍色的二維數據點顯然是可以被一條直線分開的,在模式識別領域稱為線性可分問題。然而將兩類數據點分開的直線顯然不止一條。圖2和3分別給出了A、B兩種不同的分類方案,其中黑色實線為分界線,術語稱為「決策面」。每個決策面對應了一個線性分類器。雖然在目前的數據上看,這兩個分類器的分類結果是一樣的,但如果考慮潛在的其他數據,則兩者的分類性能是有差別的。
之前在b站看到一個非常好的介紹!!十分推薦, 這是傳送門
按照我自己的理解,以二維數據為例,我們喂給模型已經分類好的數據,那麼假設有一線條可以將此部分數據正確劃分為2大部分,這樣可以形成2個等式,即橫線兩邊的數值歸類為1或者-1,一般情況下可以求出最大間隔即無數個解,因此需要一個限定條件求出最優的那條線條。限定方式為:無數個解形成一個解的范圍,距離邊緣相等的那條線條即是最優解。
有時候本來數據的確是可分的,也就是說可以用線性分類SVM的學習方法來求解,但是卻因為混入了異常點,導致不能線性可分,比如下圖,本來數據是可以按下面的實線來做超平面分離的,可以由於一個橙色和一個藍色的異常點導致我們沒法按照線性分類支持向量機方法來分類。
以上討論的都是在線性可分情況進行討論的,但是實際問題中給出的數據並不是都是線性可分的,比如有些數據可能是曲線的。
那麼這種非線性可分的數據是否就不能用SVM演算法來求解呢?答案是否定的。事實上,對於低維平面內不可分的數據,放在一個高維空間中去就有可能變得可分。以二維平面的數據為例,我們可以通過找到一個映射將二維平面的點放到三維平面之中。理論上任意的數據樣本都能夠找到一個合適的映射使得這些在低維空間不能劃分的樣本到高維空間中之後能夠線性可分。
當特徵變數非常多的時候,在高維空間中計算內積的運算量是非常龐大的。考慮到我們的目的並不是為找到這樣一個映射而是為了計算其在高維空間的內積,因此如果我們能夠找到計算高維空間下內積的公式,那麼就能夠避免這樣龐大的計算量,我們的問題也就解決了。實際上這就是我們要找的 核函數 ,即兩個向量在隱式映射後的空間中的內積。
(1)對於邊界清晰的分類問題效果好;
(2)對高維分類問題效果好;
(3)當維度高於樣本數的時候,SVM 較為有效;
(4)因為最終只使用訓練集中的支持向量,所以節約內存
(1)當數據量較大時,訓練時間會較長;
(2)當數據集的噪音過多時,表現不好;
(3)SVM 不直接提供結果的概率估計,它在計算時直接使用 5 倍交叉驗證。
(1)LR 與 SVM 都是分類演算法;
(2)LR 與 SVM 都是監督學習演算法;
(3)LR 與 SVM 都是判別模型;
(4)關於判別模型與生成模型的詳細概念與理解,筆者會在下篇博文給出,這里不詳述。
(5)如果不考慮核函數,LR 與 SVM 都是線性分類演算法,也就是說他們的分類決策面都是線性的
這里需要說明的是,LR 也是可以用核函數的,因在 LR 演算法里,每個樣本點都必須參與決策面的計算過程,也就是說,如果在 LR 里也運用核函數的原理,那麼每個樣本點都必須參與核計算,這帶來的計算復雜度是相當高的。所以在具體應用時,LR 很少運用核函數機制。
(1)損失函數不同;
(2)SVM 只考慮支持向量,而 LR 考慮全局(即遠離的點對邊界線的確定也起作用);
(3)在解決非線性問題時,SVM 採用核函數的機制,而 LR 通常不採用核函數的方法;
(4)SVM 的損失函數就自帶正則(損失函數中的12||w||2項),這就是為什麼 SVM 是結構風險最小化演算法的原因,而 LR 必須另外在損失函數上添加正則項;
(5)LR是參數模型,SVM是非參數模型,本質不同。
(6)在訓練集較小時,SVM 較適用,而 LR 需要較多的樣本。
(1)LR 與線性回歸都是廣義的線性回歸;
(2)線性回歸模型的優化目標函數是最小二乘,而 LR 則是似然函數;
(3)線性回歸在整個實數域范圍內進行預測,敏感度一致,而分類范圍,需要在[0,1]。邏輯回歸就是一種減小預測范圍,將預測值限定為[0,1]間的一種回歸模型,因而對於這類問題來說,邏輯回歸的魯棒性比線性回歸的要好。
(4)邏輯回歸的模型本質上是一個線性回歸模型,邏輯回歸都是以線性回歸為理論支持的。但線性回歸模型無法做到 sigmoid 的非線性形式,sigmoid 可以輕松處理 0/1 分類問題。
(5)線性回歸主要做預測,LR 主要做分類(如二分類);
F. SVM演算法原理
一、決策面方程
以二維空間為例,二維空間中任意一條直線方程可以寫為
我們將其向量化,可以得到
設用向量w代表矩陣a1和a2,用向量x代表矩陣x1和x2,標量γ代表b,則方程可化表示為
從方程可知,一個n維空間的超平面在二維空間上的表現,可以是一條直線,或者一個曲線(二維空間中只能看到這個n維超平面穿過而無法看到其模樣), 超平面方程即是我們的決策面方程
二、函數間隔和幾何間隔
在SVM監督學習中,我們規定標簽數據為+1和-1兩個值,這么做的目的, 可以計算出任意一個樣本點在超平面方程上的表現結果的符號,與標簽符號是否一致來判斷分類的正確性 ,為此我們可以引入函數間隔的概念
但是當我們成比例的縮放w和γ,函數間隔的值也將成比例的變化,可是超平面的位置並沒有發生任何變化,所以函數間隔並不是我們想要的分類間隔,為此,我們需要引入幾何間隔的概念
還是以二維空間出發,任意一點到直線的距離可以寫成
我們將其拓展到n維空間,直線方程即是我們的超平面方程,則n維空間中任何一點到超平面的距離可以寫成
為此,我們引入幾何間隔概念,其中||w||表示向量w的二范數
從幾何間隔可以看出,就算等比例縮放w和γ,由於除上了||w||使得幾何間隔的值不會改變,它只隨著超平面位置的變化而變化,因此, 我們要尋找的分類間隔是幾何間隔
三、不等式約束條件
SVM演算法的目的是找到一個將分類效果達到最合理化的超平面,這個超平面即是分類器 。而評估分類器的好壞的標准就是分類間隔的大小
我們定義分類間隔的距離為d,好的分類器應該讓所有樣本點到決策面的幾何間隔都大於等於d
化簡上式,不等式兩邊同時除以d可得
由於||w||和d都是標量,可定義
則上式可化簡為
在不等式兩邊同時乘以yi,即將兩個式子化簡為一個式子(這里體現了正是因為標簽數據為+1和-1,才方便將約束條件變成一個約束方程)
這個約束方程的意義 即是任何樣本點到超平面(分類器)的幾何間隔都大於等於分類間隔
四、SVM最優化模型的數學描述
評估分類器的優劣是分類間隔的大小,且對於任意樣本點都滿足約束方程
由約束方程可知,當樣本點落在支持向量邊界上有如下關系
則分類間隔d可以表示為支持向量點到超平面的幾何間隔
要讓任何樣本點都在d之外,即求分類間隔d的最大值,則目標函數可以寫成
為了方便在後續最優化處理中對目標函數的求導,我們將目標函數做等效變化
由目標函數是二次的,而約束條件是線性的,則 SVM的數學模型即是:不等式約束條件下的二次型函數優化 ,而求解這一類優化問題,接下來我們需要構造 拉格朗乘子函數
五、引入拉格朗函數
目標函數是求解在約束條件g(x)下的二次型函數f(x)的最小值,直觀上我們希望構造一個函數L(x),使得L(x)在f(x)的可行解區域內的求出的值和f(x)求出的值完全一樣,而在f(x)的可行解區域外,L(x)的值又接近無窮大,這么做的目的,使得我們可以用一個函數L(x)來等效表示原問題的g(x)和f(x)
拉格朗函數的目的,就是將約束條件融合到目標函數中,構造一個新函數來表示目標函數,將有約束的優化問題轉化為無約束的優化問題
下面,我們構造拉格朗函數來表示目標函數
其中αi是拉格朗日乘子,每一個約束條件對應一個拉格朗日乘子,其中αi大於等於0
則原優化問題可以轉化為
討論如下條件(1)(2):
(1) 當樣本點不滿足約束條件時,即說明在 可行解區域外
此時將αi置為正無窮大,那麼θ(w)顯然也是正無窮大
(2) 當樣本點滿足約束條件時,即說明在 可行解區域內
此時θ(w)的最小值就是原目標函數,於是綜上所述,引入拉格朗乘子函數後,可以得到新的目標函數
我們用p*表示優化目標函數後的最優解,且與最初的目標函數等價
觀察新的目標函數,如果直接求偏導數求解,那麼一上來將面對w和b兩個未知參數,而αi又是不等式約束,求解過程將非常復雜。換一個角度思考,如果將max和min的位置對調,變成如下新的目標函數
上式變化使用了 拉格朗日函數的對偶性,交換後的新問題即是原目標函數的對偶問題 ,我們用d*來表示對偶目標函數的最優解,可見d*的求導過程比p*相對容易,且d*<=p*,而當滿足下列條件時,d*= p*
因為目標函數本身已經是一個凸函數,而優化問題又是求解最小值,所以目標函數的最優化問題就是凸優化問題,則接下來就要重點討論KKT條件
六、KKT條件的描述
一個最優化模型能夠表示成下列標准形式
其中f(x)是需要最小化的函數,h(x)是等式約束,g(x)是不等式約束,m和n分別是等式約束和不等式約束的數量
KKT條件即是規定f(x)的 最優值 必須滿足以下(1)(2)(3)條件, 只有滿足KKT條件,目標函數的最優化問題依然可以用拉格朗日乘子法解決
很明顯,我們需要優化的目標函數屬於帶有不等式約束函數g(x),所以條件二顯然滿足,下面我們來分析條件一和條件三的理論
七、目標函數的等高線與約束條件的最優值分析(條件一)
對於KKT條件一的分析,我們假設目標函數是f(x1,x2)的二元函數,它的圖像在三維空間里是一個曲面,准確的來說是一個凸曲面
其中g(x1,x2)是約束方程,要求目標函數f(x1,x2)的最小值,即轉化為 求g(x1,x2)=c這條曲線上的一點,使得f(x1,x2)取得最小值,換個比喻,就是在山上(目標函數曲面)尋找一條山路(約束條件曲線)的最低點
我們畫出目標函數的等高線,來分析目標函數最優值和約束條件的關系
對於研究目標函數z=f(x1,x2),當z取不同的值,即將曲線z投影在(x1,x2)組成的空間中(這里指的是二維空間),也就是曲面的等高線,上圖中d1和d2即是兩條目標函數的等高線,可以看出,當約束函數g(x1,x2)與目標函數的等高線有共同的交點, 即證明這組值同時滿足在目標函數的可行域中,也符合約束條件的約束關系
如果等高線與g(x1,x2) 相交 ,則是一組目標函數的解,但是這個解一定不是最優解, 因為相交意味著肯定存在其它等高線在該條等高線的內部或者外部 ,可能會使得新的等高線與g(x1,x2)的交點更大或者更小,這就意味著只有當等高線與g(x1,x2) 相切 ,才可能得到最優解(切線可能多條)
所以最優解必須滿足: 目標函數的負梯度方向與約束函數的梯度方向一致
而上式恆成立的條件就是: 拉格朗日乘子α >= 0 ,且這個式子就是目標函數對各個參數求偏導數的結果,即KKT的第一個條件:目標函數對各個參數的導數為0
八、分類討論約束條件和拉格朗日乘子的組合(條件三)
對於KKT條件三,可以看出,因為所有的約束函數gi(x)<=0,所有的拉格朗日乘子αi>=0,要使得求和後結果為0,要麼某個約束函數gi(x)=0,要麼其對應的αi=0
從一個案例出發來分析KKT條件三的邏輯,假設目標函數和約束函數是
將不等式約束構造出拉格朗日函數,並分別對x1和x2求偏導數
而KKT的條件三要求最優解滿足 ∑α*g(x) = 0,在這個案例里α和g(x)只有一個,結合條件一,可以得到
根據之前的分析,最優值滿足條件三的話,要麼α=0,要麼g(x)=0
(i):如果α=0,則x1=1,x2=-2,代入g(x1,x2) =10-1-10*(-2)=29>0,發現這組解違背了約束函數g(x)<0,則舍棄這組解
(ii): 如果g(x1,x2)=0,則代入x1和x2的表達式到g(x)中,解出α=58/101>0,發現這組解不違背約束函數,則代入α解出x1=130/101,x2=88/101,則這組解有可能是最優解
綜上(i)(ii)討論,目標函數的最優值符合KKT條件三,也說明了 滿足強對偶條件的優化問題的最優值必須滿足KKT條件
九、求解對偶問題
上面分析了目標函數滿足凸優化和KKT條件,則問題轉化為求解原問題的對偶問題(即p*=d*)
根據對偶問題描述,先要求內側w和b關於L(w,b,α)的最小化值,即求L對w和b的偏導數
將w和b的偏導數帶入拉格朗函數化簡得
整理一下最終化簡結果為
從上述結果可以看出,樣本的x和y是已知的,此時的 L(w,b,α)函數只有一個變數,即αi
我們歸納一下現在的目標函數為
現在目標函數變成了如上形式,其中αi>=0,這里隱含著一個假設,即數據100%線性可分,但是現實生活中,數據往往是不會那麼規則的線性化,為此我們需要引入鬆弛變數
十、引入鬆弛變數
由於現實世界中的數據都是帶有噪音的,也就是數據可能出偏離其正常的位置很遠,而出現這種極端現象後往往會影響超平面的選擇,也許將無法構造出將數據徹底分開的超平面出來
所以對於處理這種情況, SVM需要允許(妥協)出某些噪音很大的數據點能夠偏離超平面,即允許其出現在超平面的錯誤的一側 ,為此我們引入鬆弛變數C,這樣我們的目標函數又變為
接下來為了研究討論αi的取值范圍,我們加上一個負號將目標函數等價轉化為
十一、討論拉格朗乘子的取值意義和其值域
回顧一下最初的約束條件為
設ui為該約束條件,可以歸納出αi關於約束函數的取值意義
αi只有滿足上述3種情況,才能求出最優解,所以 當αi與約束條件ui沖突的時候,需要更新這些αi ,這也就是滿足目標函數的第一個約束限制,即0<=αi<=C
而同時目標函數還受到第二個約束條件的限制,即
所以不能只更新一個αi因子,需要同時再次更新第二個αj因子,也就是 α因子總是成對的更新(αi對總是和αj配對),一增一減,此消彼長,才能保證加權和為0的約束 ,同時這也就是下面提及SMO演算法的思想和多元函數化簡為二元函數,在從二元函數化簡為一元函數的難點
根據這個約束和α因子需要成對更新,假設我們選取的兩個拉格朗乘子為α1和α2,則更新之前是old,更新之後是new,且更新前後需要滿足和為0的約束
兩個因子同時更新顯然非常困難,所以需要先求出第一個αj的解,再用αj的解去表示更新第二個αi的解 ,後文的SMO演算法會闡述這一點。因此需要先確定αj的取值范圍,假設L和H分別為它的下界和上界,結合目標函數的約束限制來綜合討論L和H的取值關系
(i):當y1和y2異號時,可以得到
移項可得a2 = a1 - A,此時α的取值范圍如下圖所示
所以此時α的上下界H和L為
(ii):當y1和y2同號時,可以得到
移項可得a2 = -a1 + A,此時α的取值范圍如下圖所示
所以此時α的上下界H和L為
綜上(i)(ii)的討論,通過y1和y2的異號或者同號,可以推導出α更新後的上下界分別為
這個公式顯得非常的重要,它將α因子限制在有效的矩形范圍內,在SMO演算法中,當我們更新完α後,由於α可能會被更新得很大或很小,因此需要經過裁剪來保證α的在約束條件內
12、SMO演算法的思想
回顧之前第九,第十,第十一步的分析,目標函數為
目標函數只包含n個變數α的 多元函數 ,且帶有兩個約束條件,我們的 目的是求出目標函數的最小值,即找到一組α的組合,使得目標函數取得最小值
由第十一步的分析,我們需要不斷更新這n個α因子,通過迭代來逼近函數達到最小值,但是如果一次性更新n個參數,將會有n!種組合,那麼時間復雜度將會非常高,為此我們首先想到 坐標上升(下降)法
來通過一個例子來說明坐標上升法的思路
可知案例中要求一個三元函數的最大值, 演算法的思想是每次迭代時只更新一個維度,通過多次迭代直到收斂來優化函數的最值 ,求出三個變數的偏導數推出其關系
通過迭代即就可以求出其最值
SMO演算法借鑒了坐標上升(下降)法的思想來優化α因子組合,但是由於目標函數的第二個約束條件有加權和為0的限制,導致每次迭代時候不能只更新一個因子αi,必須同時更新與之配對的另一個因子αj,此消彼長才能保證加權和為0(第十一步中已提及)
所以SMO演算法思想是將原始問題中,求解n個參數的二次規劃問題,分解成了多個子二次規劃問題來分別求解,每一個子問題只需要求解2個參數,即將多元函數推導為二元函數,再將二元函數推導為一元函數
13、多元函數推導為二元函數
目標函數是關於α的N元函數,通過SMO的演算法思想,假設每次迭代更新,選取一對α1和α2的組合,其餘的乘子不變, 首先需要將α1和α2從目標函數中分離出來 ,也就是將多元函數推導為二元函數
從N元函數中分離出α1和α2因子
由於上式推導結果過於復雜,我們定義2個表達式來表示上式常量部分,用來簡化上式
又由於單獨存下的常數項對以後的求導沒有貢獻,所以我們提出單獨的常數項定義為Constant
帶入vi和Constant表達式,則結果化簡為
至此,我們將 多元函數推導為含有α1和α2變數的二元函數 ,接下來將這個二元函數推導為一元函數
14、二元函數推導為一元函數
我們需要推導出α1和α2的關系,然後用α2來表示α1帶入二元函數,就可以推導出關於α2的一元函數了
由目標函數的第二個約束條件
同理根據SMO演算法思想,從約束條件中分離出α1和α2
將等式兩邊同時乘以y1,可推導出α1和α2的關系
同理,我們定義兩個表達式r和s來表示上式的常量部分,用來簡化上式關系
帶入r和s後,α1和α2的關系推導為
下面將α1帶入我們的二元函數中,可得
至此, 我們將二元函數推導為只含有一個變數α2的一元函數 ,接下來終於可以對目標函數求導了
15、求解一元函數的偏導數,推導出第一個拉格朗乘子的遞推關系
我們對一元函數求α2的偏導數為0
帶入s=y1*y2和y2*y2=1,整理上式可求出α2