『壹』 演算法入門
ROC曲線(受試者工作特徵曲線)的橫坐標為假陽性率(分錯的負樣本占所有負樣本比率),縱坐標為真陽性率(分對的正樣本占所有正樣本比率)。通過動態地調整分類模型的分類閾值,可以在ROC圖上繪制出每一個分類閾值對應的兩個坐標值,再連接所有點繪制出模型的ROC曲線。AUC指ROC曲線下面積的大小,該指標能夠量化地反映基於ROC曲線的模型性能,AUC的取值一般都在0.5~1之間,值越大,說明分類器越可能把真正的正樣本排在前面,分類性能越好。相比較P-R曲線,ROC曲線在正負樣本的分布發生變化時,形狀能夠基本保持不變,而P-R曲線一般會發生較劇烈的變化,這個特點可以使得ROC曲線能夠盡量降低不同測試集帶來的干擾,更加客觀地衡量模型本身的性能。在實際中,正負樣本數量往往不均衡,因此ROC曲線的適用場景更廣泛。
對於任意線性可分的兩組點,它們在SVM分類的超平面上的投影都是線性不可分的。由於SVM的分類超平面僅由支持向量決定,可以考慮只含有支持向量的場景:假設存在一個SVM超平面滿足投影線性可分,則樣本中分屬兩類的支持向量之間的中垂線所組成的超平面是相較於SVM超平面更優的解,這與SVM超平面為最優分類超平面的假設相違背。
SVM的KKT條件:
結合(3)和(4),當 時,必有 ,將這一結果與拉格朗日對偶優化問題的公式相比較: ,其中 。除了支持向量之外,其他系數均為0,因此SVM的分類結果僅依賴於支持向量,SVM的分類結果與僅使用支持向量的分類結果一致。
該問題也可以通過凸優化理論中的超平面分離定理解決。
高斯核SVM的預測公式為: ,固定 ,則有 。由於不存在兩個點在同一位置,則對於任意點 ,有 .
對於任意 ,取 ,有
所以,對於任意 ,預測結果 與真實標簽的距離小於1,所有樣本的類別都被正確預測,訓練誤差為0.
本題等價於找到使訓練誤差為0的參數,且是SVM模型的一個解。上述所找到的參數可以滿足 ,若想成為SVM的解,還需要滿足 。
仍然固定 ,則有 . 此時可以把每個 都選擇一個很大的值,同時取一個非常小的 ,使得核映射項 非常小,就可以滿足題意。
不一定能得到訓練誤差為0的模型,因為此時優化的目標改變了,當鬆弛變數模型目標函數參數C選取較小的值時,正則項將占據優化的較大比重,此時一個帶有訓練誤差但是參數較小的點將成為更優的結果。
如果把一個事件的幾率定義為該事件發生與該事件不發生的概率比值,根據邏輯回歸的公式 ,邏輯回歸可以看作是對於事件"y=1|x"的對數幾率的線性回歸,所以有回歸的名稱。但是邏輯回歸的因變數是離散的,處理的是分類問題;線性回歸中的因變數是連續的,處理的是回歸問題。邏輯回歸與線性回歸的相似處是:都使用了極大似然估計,線性回歸的最小二乘實際上是自變數和超參數確定、因變數服從正態分布的假設下使用極大似然估計的一個化簡,邏輯回歸中通過對似然函數的學習來得到最佳超參數;二者在求解超參數的過程中,都可以使用梯度下降法。
如果一個樣本只對應於一個標簽,可以假設每個樣本屬於不同標簽的概率服從於幾何分布,使用多項邏輯回歸(Softmax Regression)來進行分類:
當存在樣本可能屬於多個標簽的情況時,可以訓練k個二分類的邏輯回歸分類器,第i個分類器用於區分每個樣本是否可以歸為第i類。
ID3會傾向於選取取值較多的特徵,因為信息增益反應的是給定條件以後不確定性減少的程度,特徵取值越多就意味著確定性更高,也就是條件熵越小,信息增益越大,C4.5通過引入信息增益比,一定程度對取值比較多的特徵進行懲罰,避免ID3出現過擬合的特性,提升模型的泛化能力;ID3隻能處理離散變數,而C4.5和CART都可以處理連續變數;ID3和C4.5隻能用於分類任務,CART不僅可以分類也可以用於回歸;ID3和C4.5可以在每個結點上產生出多叉分支,且每個特徵在層級之間不會復用,而CART每個結點只會產生兩個分支,且每個特徵可以被重復使用;ID3和C4.5通過剪枝來權衡樹的准確性與泛化能力,而CART直接利用全部數據發現所有可能的樹結構進行對比。
對於給定的一組數據點 ,中心化後表示為 ,其中 ,目標是找到一個投影方向 (單位方向向量)使數據點在其上的投影方差盡可能大。投影之後的均值: 投影之後的方差(均值為0,直接平方): 其中, 是樣本的協方差矩陣,將其寫作 ,則有求解最大化問題: 引入拉格朗日乘子,並對 求導令其等於0,可以推出 ,此時 該值為協方差矩陣的最大特徵值
LDA的最大化目標: 其中 分別表示兩類投影後的方差: 則目標函數可以寫成: 定義類間散度矩陣 ,類內散度矩陣 ,最大化 即是對 求偏導且令其等於零: 可以得出 在簡化的二分類問題中,可以令 ,則有 這里LDA最大化的目標對應了矩陣 的特徵值,而投影方向就是這個特徵值對應的特徵向量。
PCA為無監督降維演算法,LDA為有監督降維演算法,兩種降維演算法的求解過程有很大的相似性,但是對應的原理卻有所區別:PCA選擇投影後數據方差最大的方向,由於演算法無監督,PCA假設方差越大信息量越多,用主成分來表示原始數據可以去除冗餘的維度,達到降維;LDA用到了類別標簽的信息,選擇投影後類內方差小、類間方差大的方向,使得原始數據在這些方向上投影後不同類別盡可能區分開。應用的原則是無監督任務使用PCA,有監督任務使用LDA。
優點:對於大數據集,K均值聚類演算法相對是可伸縮和高效的,它的計算復雜度是 接近於線性,其中 是數據對象的數目, 是聚類的簇數, 是迭代的輪數;盡管演算法經常以局部最優結束,但一般情況下達到局部最優已經可以滿足聚類的需求
缺點:需要人工預先確定初始K值,且該值和真實的數據分布未必吻合;受初值和離群點的影響,每次的結果不穩定;結果通常不是全局最優而是局部最優解,效果受到初始值影響;無法良好地解決數據簇分布差別比較大的情況(比如一類是另一類樣本數量的100倍);不太適用於離散分類;樣本點只能被劃分到單一的類中
SOM本質上是一個兩層的神經網路,包含模擬感知的輸入層和模擬大腦皮層的輸出層,輸出層中神經元的個數通常是聚類的個數。具有保序映射的特點,可以將任意維輸入模式在輸出層映射為一維或者二維圖形,並保持拓撲結構不變,使得輸出層神經元的空間位置對應於輸入空間的特定域或特徵。在SOM中,以獲勝神經元為中心,近鄰者相互激勵,遠鄰者相互抑制,這種交互作用的方式以曲線可視化則類似於「墨西哥帽」。
輸出層神經元數量:和樣本的類別數相關。若不清楚樣本的類別,則盡可能地設定較多的節點數,以便更好地映射樣本的拓撲結構,如果分類過細再酌情減少輸出節點。這樣可能會帶來少量從未更新過權重的「死節點」,但一般可通過重新初始化權重來解決
輸出層節點排列:排列形式應盡量直觀地反映出實際問題的物理意義。例如,對於一般的分類問題,一個輸出節點能代表一個模式類,使用一維線陣;對於顏色空間或者旅行路徑問題,二維平面則比較直觀
初始化權重:可以隨機初始化,但盡量使權值的初始位置與輸入樣本的大概分布區域充分重合,避免出現大量初始"死節點"。可以從訓練集中隨機抽取m個輸入樣本作為初始權重
拓撲領域:設計原則是使領域不斷縮小,這樣輸出平面上相鄰神經元對應的權向量之間既有區別又有相當的相似性,從而保證當獲勝節點對某一類模式產生最大響應時,其領域節點也能產生較大響應。領域的形狀可以是正方形、六邊形或者菱形。優勢領域的大小用領域的半徑表示,通常憑借經驗來選擇
學習率:學習率為遞減函數,訓練開始時,學習率可以選取較大的值,之後以較快的速度下降,有利於很快地捕捉到輸入向量的大致結構,然後學習率在較小的值上緩降為0,這樣可以精細地調整權值使之符合輸入空間的樣本分布結構。
如果數據基本隨機,那麼聚類的結果毫無意義。可以用霍普金斯統計量來判斷數據在空間上的隨機性:從樣本中隨機找 個點 ,對每一個 ,都在樣本空間中找到一個離它最近的點並計算它們之間的距離 ,從而得到距離向量 ;從樣本可能取值范圍內隨機生成 個點 ,使用同樣的原則得到距離向量 ,則霍普金斯統計量 可表示為: 。如果樣本接近隨機分布,則 的值接近於0.5,如果聚類趨勢明顯,隨機生成的樣本點距離應該遠大於實際樣本點距離,則 的值接近於1。