1. 所有差動保護裡面 制動電流有那些演算法
母線保護是保證電網安全穩定運行的重要系統設備,它的安全性、可靠性、靈敏性和快速性對保證整個區域電網的安全具有決定性的意義。迄今為止,在電網中廣泛應用過的母聯電流比相式差動保護、電流相位比較式差動保護、比率制動式差動保護,經各發、供電單位多年電網運行經驗總結,普遍認為就適應母線運行方式、故障類型、過渡電阻等方面而言,無疑是按分相電流差動原理構成的比率制動式母差保護效果最佳。
但是隨著電網微機保護技術的普及和微機型母差保護的不斷完善,以中阻抗比率差動保護為代表的傳統型母差保護的局限性逐漸體現出來。從電流迴路、出口選擇的抗飽和能力等多方面,傳統型的母差保護與微機母差保護相比已不可同日而語。尤其是隨著變電站自動化程度的提高,各種設備的信息需上傳到監控系統中進行遠方監控,使傳統型的母差保護無法滿足現代變電站運行維護的需要。
下面通過對微機母差保護在500 kV及以下系統應用的了解,依據多年現場安裝、調試各類保護設備的經驗,對微機母差保護與以中阻抗比率差動保護為代表的傳統型母差保護的原理和二次迴路進行對比分析。
1微機母差保護與比率制動母差保護的比較
1.1微機母差保護特點
a. 數字采樣,並用數學模型分析構成自適應阻抗加權抗TA飽和判據。
b. 允許TA變比不同,具備調整系數可以整定,可適應以後擴建時的任何變比情況。
c. 適應不同的母線運行方式。
d. TA迴路和跳閘出口迴路無觸點切換,增加動作的可靠性,避免因觸點接觸不可靠帶來的一系列問題。
e. 同一裝置內用軟體邏輯可實現母差保護、充電保護、死區保護、失靈保護等,結構緊湊,迴路簡單。
f. 可進行不同的配置,滿足主接線形式不同的需要。
g. 人機對話友善,後台介面通訊方式靈活,與監控系統通信具備完善的裝置狀態報文。
h. 支持電力行業標准IEC 608705103規約,兼容COMTRADE輸出的故障錄波數據格式。
1.2基本原理的比較
傳統比率制動式母差保護的原理是採用被保護母線各支路(含母聯)電流的矢量和作為動作量,以各分路電流的絕對值之和附以小於1的制動系數作為制動量。在區外故障時可靠不動,區內故障時則具有相當的靈敏度。演算法簡單但自適應能力差,二次負載大,易受迴路的復雜程度的影響。
但微機型母線差動保護由能夠反映單相故障和相間故障的分相式比率差動元件構成。雙母線接線差動迴路包括母線大差迴路和各段母線小差迴路。大差是除母聯開關和分段開關外所有支路電流所構成的差迴路,某段母線的小差指該段所連接的包括母聯和分段斷路器的所有支路電流構成的差動迴路。大差用於判別母線區內和區外故障,小差用於故障母線的選擇。
這兩種原理在使用中最大的不同是微機母差引入大差的概念作為故障判據,反映出系統中母線節點和電流狀態,用以判斷是否真正發生母線故障,較傳統比率制動式母差保護更可靠,可以最大限度地減少刀閘輔助接點位置不對應而造成的母差保護誤動作。
1.3對刀閘切換使用和監測的比較
傳統比率制動式母差保護用開關現場的刀閘輔助接點,控制切換繼電器的動作與返回,電流迴路和出口跳閘迴路都依賴於刀閘輔助接點和切換繼電器接點的可靠性,刀閘輔助接點和切換繼電器的位置監測是保護屏上的位置指示燈,至於繼電器接點好壞,在元件輕載的情況下無法知道。
微機保護裝置引入刀閘輔助觸點只是用於判別母線上各元件的連接位置,母線上各元件的電流迴路和出口跳閘迴路都是通過電流變換器輸入到裝置中變成數字量,各迴路的電流切換用軟體來實現,避免了因接點不可靠引起電流迴路開路的可能。
另外,微機母差保護裝置可以實時監視和自檢刀閘輔助觸點,如各支路元件TA中有電流而無刀閘位置;兩母線刀閘並列;刀閘位置錯位造成大差的差電流小於TA斷線定值但小差的差電流大於TA斷線定值時,均可以延時發出報警信號。微機母差保護裝置是通過電流校驗實現實時監視和自檢刀閘輔助觸點,並自動糾正刀閘輔助觸點的錯誤的。運行人員如果發現刀閘輔助觸點不可靠而影響母差保護運行時,可以通過保護屏上附加的刀閘模擬盤,用手動強制開關指定刀閘的現場狀態。
1.4對TA抗飽和能力的對比
母線保護經常承受穿越性故障的考驗,而且在嚴重故障情況下必定造成部分TA飽和,因此抗飽和能力對母線保護是一個重要的參數。
1.4.1傳統型母差保護
a. 對於外部故障,完全飽和TA的二次迴路可以只用它的全部直流迴路的電阻等值表示,即忽略電抗。某一支路TA飽和後,大部分不平衡電流被飽和TA的二次阻抗所旁路,差動繼電器可靠不動作。
b. 對於內部故障,TA至少過1/4周波才會出現飽和,差動繼電器可快速動作並保持。
1.4.2微機型母差保護
微機母差保護拋開了TA電抗的變化判據,使用數學模型判據來檢測TA的飽和,效果更可靠。並且在TA飽和時自動降低制動的門檻值,保證差動元件的正確動作。TA飽和的檢測元件有兩個:
a. 採用新型的自適應阻抗加權抗飽和方法,即利用電壓工頻變化量差動元件和工頻變化量阻抗元件(前者)與工頻變化量電壓元件(後者)相對動作時序進行比較,區內故障時,同時動作,區外故障時,前者滯後於後者。根據此動作的特點,組成了自適應的阻抗加權判據。由於此判據充分利用了區外故障發生TA飽和時差流不同於區內故障時差流的特點,具有極強的抗TA飽和能力,而且區內故障和一般轉換型故障(故障由母線區外轉至區內)時的動作速度很快。
b. 用諧波制動原理檢測TA飽和。這種原理利用了TA飽和時差流波形畸變和每周波存在線性傳變區等特點,根據差流中諧波分量的波形特徵檢測TA飽和。該元件抗飽和能力很強,而且在區外故障TA飽和後發生同名相轉換性故障的極端情況下仍能快速切除故障母線。
從原理上分析,微機型母差保護的先進性是顯而易見的。傳統型的母差判據受元件質量影響很大,在元件老化的情況下,存在誤動的可能。微機母差的軟體演算法判據具備完善的裝置自檢功能,大大降低了裝置誤動的可能。
1.5TA二次負擔方面的比較
比率制動母差保護和微機母差保護都是將TA二次直接用電纜引到控制室母差保護屏端子排上,二者在電纜的使用上沒有差別,但因為兩者的電纜末端所帶設備不同,微機母差是電流變換器,電流變換器二次帶的小電阻,經壓頻轉換變成數字信號;而傳統中阻抗的比率制動式母差保護,變流器二次接的是165~301 Ω的電阻,因此這兩種母差保護二次所帶的負載有很大的不同,對於微機母差保護而言,一次TA的母差保護線圈所帶負擔很小,這極大地改善了TA的工況。
2差動元件動作特性分析與對比
2.1比率差動元件工作原理的對比
常規比率差動元件與微機母差保護工作原理上沒有本質的不同,只是兩者的制動電流不同。前者由本母線上各元件(含母聯)的電流絕對值的和作為制動量,後者將母線上除母聯、分段電流以外的各元件電流絕對值的和作為制動量,差動元件動作量都是本母線上各元件電流矢量和絕對值。�
常規比率差動元件的動作判據為:
�
式中Id——母線上各支路二次電流的矢量;
Idset——差電流定值;
K、Kr——比率制動系數。
比較上述兩判據,當K=Kr/(1+Kr),亦即Kr=K/(1-K) 時,常規比率差動和微機母差的復式比率差動特性是一致的。
2.2區內故障的靈敏性
考慮區內故障,假設總故障電流為1,流出母線電流的百分比為Ext,即流入母線的電流為1+Ext。則Id=1,Ir=1+2Ext,分別帶入式(1)和式(3)中。對於常規比率差動元件,由Id≥KIr得:1≥K(1+2Ext),故:
�
綜上所述,母線發生區內故障時,即使有故障電流流出母線,汲出電流滿足式(4)和式(5)的條件,常規比率差動元件和微機母差的復式比率差動元件仍能可靠動作。
2.3區外故障的穩定性
假設穿越故障電流為I,故障支路的TA誤差達到δ,則Id=δ,Ir=2±δ。
對於常規比率差動元件:
由Id<KIr,得δ<K(2±δ),故:
�
綜上所述,母線發生區外故障時,常規比率差動和復式比率差動分別允許故障支路TA有式(6)和 式(7)的誤差。正誤差取前半部分,負誤差取後半部分。值得注意的是,在比率制動系數一定的情況下,區外故障允許故障支路TA的正偏差比負偏差大,因為該正偏差使得制動量增大,負偏差使得制動量減小。在實際系統中,母線發生區外故障,故障支路TA飽和時,電流會發生負偏差,因此,正偏差無實際意義。
據式(4)至式(7)可得出制動系數與允許汲出電流和TA誤差關系,詳見表1。
從表1可以看出,常規比率差動元件K=0.6時,對應復式比率差動元件是Kr=1.5,區內故障允許有33%的汲出電流,區外故障允許故障支路TA有75%的負偏差,可見微機母差保護區外故障的穩定性較好。
2. RLS演算法的原理
「遞歸最小二次方演算法」——RLS演算法,其又稱最小二乘法。
在我們研究兩個變數(x, y)之間的相互關系時,通常可以得到一系列成對的數據
(x1, y1、x2, y2... xm , ym);
將這些數據描繪在x -y直角坐標系中
若發現這些點在一條直線附近,
可以令這條直線方程如(式1-1)。
Y計= a0 + a1 X (式1-1)
其中:a0、a1 是任意實數
為建立這直線方程就要確定a0和a1,應用《最小二乘法原理》,
將實測值Yi與利用(式1-1)計算值(Y計=a0+a1X)的離差
(Yi-Y計)的平方和〔∑(Yi - Y計)2〕最小為「優化判據」。
令: φ = ∑(Yi - Y計)2 (式1-2)
把(式1-1)代入(式1-2)中得: φ = ∑(Yi - a0 - a1 Xi)2 (式1-3)
當∑(Yi-Y計)平方最小時,可用函數
φ 對a0、a1求偏導數,令這兩個偏導數等於零。
亦即:
m a0 + (∑Xi ) a1 = ∑Yi
(∑Xi ) a0 + (∑Xi2 ) a1 = ∑(Xi, Yi)
得到的兩個關於a0、a1為未知數的兩個方程組,解這兩個方程組得出:
a0 = (∑Yi) / m - a1(∑Xi) / m
a1 = [∑Xi Yi - (∑Xi ∑Yi)/ m] / [∑Xi2 - (∑Xi)2 / m)]
這時把a0、a1代入(式1-1)中, 此時的(式1-1)
就是我們回歸的元線性方程即:數學模型。
3. 一文搞懂PID控制演算法
PID演算法是工業應用中最廣泛演算法之一,在閉環系統的控制中,可自動對控制系統進行准確且迅速的校正。PID演算法已經有100多年歷史,在四軸飛行器,平衡小車、汽車定速巡航、溫度控制器等場景均有應用。
之前做過循跡車項目,簡單循跡搖擺幅度較大,效果如下所示:
PID演算法優化後,循跡穩定性能較大提升,效果如下所示:
PID演算法:就是「比例(proportional)、積分(integral)、微分(derivative)」,是一種常見的「保持穩定」控制演算法。
常規的模擬PID控制系統原理框圖如下所示:
因此可以得出e(t)和u(t)的關系:
其中:
Kp:比例增益,是調適參數;
Ki:積分增益,也是調適參數;
Kd:微分增益,也是調適參數;
e:誤差=設定值(SP)- 回授值(PV);
t:目前時間。
數學公式可能比較枯燥,通過以下例子,了解PID演算法的應用。
例如,使用控制器使一鍋水的溫度保持在50℃,小於50℃就讓它加熱,大於50度就斷電不就行了?
沒錯,在要求不高的情況下,確實可以這么干,如果換一種說法,你就知道問題出在哪裡了。
如果控制對象是一輛汽車呢?要是希望汽車的車速保持在50km/h不動,這種方法就存在問題了。
設想一下,假如汽車的定速巡航電腦在某一時間測到車速是45km/h,它立刻命令發動機:加速!
結果,發動機那邊突然來了個100%全油門,嗡的一下汽車急加速到了60km/h,這時電腦又發出命令:剎車!結果乘客吐......
所以,在大多數場合中,用「開關量」來控制一個物理量就顯得比較簡單粗暴了,有時候是無法保持穩定的,因為單片機、感測器不是無限快的,採集、控制需要時間。
而且,控制對象具有慣性,比如將熱水控制器拔掉,它的「余熱」即熱慣性可能還會使水溫繼續升高一小會。
此時就需要使用PID控制演算法了。
接著咱再來詳細了解PID控制演算法的三個最基本的參數:Kp比例增益、Ki積分增益、Kd微分增益。
1、Kp比例增益
Kp比例控制考慮當前誤差,誤差值和一個正值的常數Kp(表示比例)相乘。需要控制的量,比如水溫,有它現在的 當前值 ,也有我們期望的 目標值 。
當兩者差距不大時,就讓加熱器「輕輕地」加熱一下。
要是因為某些原因,溫度降低了很多,就讓加熱器「稍稍用力」加熱一下。
要是當前溫度比目標溫度低得多,就讓加熱器「開足馬力」加熱,盡快讓水溫到達目標附近。
這就是P的作用,跟開關控制方法相比,是不是「溫文爾雅」了很多。
實際寫程序時,就讓偏差(目標減去當前)與調節裝置的「調節力度」,建立一個一次函數的關系,就可以實現最基本的「比例」控制了~
Kp越大,調節作用越激進,Kp調小會讓調節作用更保守。
若你正在製作一個平衡車,有了P的作用,你會發現,平衡車在平衡角度附近來回「狂抖」,比較難穩住。
2、Kd微分增益
Kd微分控制考慮將來誤差,計算誤差的一階導,並和一個正值的常數Kd相乘。
有了P的作用,不難發現,只有P好像不能讓平衡車站起來,水溫也控製得晃晃悠悠,好像整個系統不是特別穩定,總是在「抖動」。
設想有一個彈簧:現在在平衡位置上,拉它一下,然後鬆手,這時它會震盪起來,因為阻力很小,它可能會震盪很長時間,才會重新停在平衡位置。
請想像一下:要是把上圖所示的系統浸沒在水裡,同樣拉它一下 :這種情況下,重新停在平衡位置的時間就短得多。
此時需要一個控製作用,讓被控制的物理量的「變化速度」趨於0,即類似於「阻尼」的作用。
因為,當比較接近目標時,P的控製作用就比較小了,越接近目標,P的作用越溫柔,有很多內在的或者外部的因素,使控制量發生小范圍的擺動。
D的作用就是讓物理量的速度趨於0,只要什麼時候,這個量具有了速度,D就向相反的方向用力,盡力剎住這個變化。
Kd參數越大,向速度相反方向剎車的力道就越強,如果是平衡小車,加上P和D兩種控製作用,如果參數調節合適,它應該可以站起來了。
3、Ki積分增益
Ki積分控制考慮過去誤差,將誤差值過去一段時間和(誤差和)乘以一個正值的常數Ki。
還是以熱水為例,假如有個人把加熱裝置帶到了非常冷的地方,開始燒水了,需要燒到50℃。
在P的作用下,水溫慢慢升高,直到升高到45℃時,他發現了一個不好的事情:天氣太冷,水散熱的速度,和P控制的加熱的速度相等了。
這可怎麼辦?
P兄這樣想:我和目標已經很近了,只需要輕輕加熱就可以了。
D兄這樣想:加熱和散熱相等,溫度沒有波動,我好像不用調整什麼。
於是,水溫永遠地停留在45℃,永遠到不了50℃。
根據常識,我們知道,應該進一步增加加熱的功率,可是增加多少該如何計算呢?
前輩科學家們想到的方法是真的巧妙,設置一個積分量,只要偏差存在,就不斷地對偏差進行積分(累加),並反應在調節力度上。
這樣一來,即使45℃和50℃相差不是太大,但是隨著時間的推移,只要沒達到目標溫度,這個積分量就不斷增加,系統就會慢慢意識到:還沒有到達目標溫度,該增加功率啦!
到了目標溫度後,假設溫度沒有波動,積分值就不會再變動,這時,加熱功率仍然等於散熱功率,但是,溫度是穩穩的50℃。
Ki的值越大,積分時乘的系數就越大,積分效果越明顯,所以,I的作用就是,減小靜態情況下的誤差,讓受控物理量盡可能接近目標值。
I在使用時還有個問題:需要設定積分限制,防止在剛開始加熱時,就把積分量積得太大,難以控制。
PID演算法的參數調試是指通過調整控制參數(比例增益、積分增益/時間、微分增益/時間) 讓系統達到最佳的控制效果 。
調試中穩定性(不會有發散性的震盪)是首要條件,此外,不同系統有不同的行為,不同的應用其需求也不同,而且這些需求還可能會互相沖突。
PID演算法只有三個參數,在原理上容易說明,但PID演算法參數調試是一個困難的工作,因為要符合一些特別的判據,而且PID控制有其限制存在。
1、穩定性
若PID演算法控制器的參數未挑選妥當,其控制器輸出可能是不穩定的,也就是其輸出發散,過程中可能有震盪,也可能沒有震盪,且其輸出只受飽和或是機械損壞等原因所限制。不穩定一般是因為過大增益造成,特別是針對延遲時間很長的系統。
2、最佳性能
PID控制器的最佳性能可能和針對過程變化或是設定值變化有關,也會隨應用而不同。
兩個基本的需求是調整能力(regulation,干擾拒絕,使系統維持在設定值)及命令追隨 (設定值變化下,控制器輸出追隨設定值的反應速度)。有關命令追隨的一些判據包括有上升時間及整定時間。有些應用可能因為安全考量,不允許輸出超過設定值,也有些應用要求在到達設定值過程中的能量可以最小化。
3、各調試方法對比
4、調整PID參數對系統的影響
4. 數據挖掘十大演算法-
整理里一晚上的數據挖掘演算法,其中主要引自wiki和一些論壇。發布到上作為知識共享,但是發現Latex的公式轉碼到網頁的時候出現了丟失,暫時沒找到解決方法,有空再回來填坑了。
——編者按
一、 C4.5
C4.5演算法是由Ross Quinlan開發的用於產生決策樹的演算法[1],該演算法是對Ross Quinlan之前開發的ID3演算法的一個擴展。C4.5演算法主要應用於統計分類中,主要是通過分析數據的信息熵建立和修剪決策樹。
1.1 決策樹的建立規則
在樹的每個節點處,C4.5選擇最有效地方式對樣本集進行分裂,分裂規則是分析所有屬性的歸一化的信息增益率,選擇其中增益率最高的屬性作為分裂依據,然後在各個分裂出的子集上進行遞歸操作。
依據屬性A對數據集D進行分類的信息熵可以定義如下:
劃分前後的信息增益可以表示為:
那麼,歸一化的信息增益率可以表示為:
1.2 決策樹的修剪方法
C4.5採用的剪枝方法是悲觀剪枝法(Pessimistic Error Pruning,PEP),根據樣本集計運算元樹與葉子的經驗錯誤率,在滿足替換標准時,使用葉子節點替換子樹。
不妨用K表示訓練數據集D中分類到某一個葉子節點的樣本數,其中其中錯誤分類的個數為J,由於用估計該節點的樣本錯誤率存在一定的樣本誤差,因此用表示修正後的樣本錯誤率。那麼,對於決策樹的一個子樹S而言,設其葉子數目為L(S),則子樹S的錯誤分類數為:
設數據集的樣本總數為Num,則標准錯誤可以表示為:
那麼,用表示新葉子的錯誤分類數,則選擇使用新葉子節點替換子樹S的判據可以表示為:
二、KNN
最近鄰域演算法(k-nearest neighbor classification, KNN)[2]是一種用於分類和回歸的非參數統計方法。KNN演算法採用向量空間模型來分類,主要思路是相同類別的案例彼此之間的相似度高,從而可以藉由計算未知樣本與已知類別案例之間的相似度,來實現分類目標。KNN是一種基於局部近似和的實例的學習方法,是目前最簡單的機器學習演算法之一。
在分類問題中,KNN的輸出是一個分類族群,它的對象的分類是由其鄰居的「多數表決」確定的,k個最近鄰居(k為正整數,通常較小)中最常見的分類決定了賦予該對象的類別。若k = 1,則該對象的類別直接由最近的一個節點賦予。在回歸問題中,KNN的輸出是其周圍k個鄰居的平均值。無論是分類還是回歸,衡量鄰居的權重都非常重要,目標是要使較近鄰居的權重比較遠鄰居的權重大,例如,一種常見的加權方案是給每個鄰居權重賦值為1/d,其中d是到鄰居的距離。這也就自然地導致了KNN演算法對於數據的局部結構過於敏感。
三、Naive Bayes
在機器學習的眾多分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)[3]。樸素貝葉斯模型發源於古典數學理論,有著堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,演算法也比較簡單。
在假設各個屬性相互獨立的條件下,NBC模型的分類公式可以簡單地表示為:
但是實際上問題模型的屬性之間往往是非獨立的,這給NBC模型的分類准確度帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型;而在屬性相關性較小時,NBC模型的性能最為良好。
四、CART
CART演算法(Classification And Regression Tree)[4]是一種二分遞歸的決策樹,把當前樣本劃分為兩個子樣本,使得生成的每個非葉子結點都有兩個分支,因此CART演算法生成的決策樹是結構簡潔的二叉樹。由於CART演算法構成的是一個二叉樹,它在每一步的決策時只能是「是」或者「否」,即使一個feature有多個取值,也是把數據分為兩部分。在CART演算法中主要分為兩個步驟:將樣本遞歸劃分進行建樹過程;用驗證數據進行剪枝。
五、K-means
k-平均演算法(k-means clustering)[5]是源於信號處理中的一種向量量化方法,現在則更多地作為一種聚類分析方法流行於數據挖掘領域。k-means的聚類目標是:把n個點(可以是樣本的一次觀察或一個實例)劃分到k個聚類中,使得每個點都屬於離他最近的均值(此即聚類中心)對應的聚類。
5.1 k-means的初始化方法
通常使用的初始化方法有Forgy和隨機劃分(Random Partition)方法。Forgy方法隨機地從數據集中選擇k個觀測作為初始的均值點;而隨機劃分方法則隨機地為每一觀測指定聚類,然後執行「更新」步驟,即計算隨機分配的各聚類的圖心,作為初始的均值點。Forgy方法易於使得初始均值點散開,隨機劃分方法則把均值點都放到靠近數據集中心的地方;隨機劃分方法一般更適用於k-調和均值和模糊k-均值演算法。對於期望-最大化(EM)演算法和標准k-means演算法,Forgy方法作為初始化方法的表現會更好一些。
5.2 k-means的標准演算法
k-means的標准演算法主要包括分配(Assignment)和更新(Update),在初始化得出k個均值點後,演算法將會在這兩個步驟中交替執行。
分配(Assignment):將每個觀測分配到聚類中,使得組內平方和達到最小。
更新(Update):對於上一步得到的每一個聚類,以聚類中觀測值的圖心,作為新的均值點。
六、Apriori
Apriori演算法[6]是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法,其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。Apriori採用自底向上的處理方法,每次只擴展一個對象加入候選集,並且使用數據集對候選集進行檢驗,當不再產生匹配條件的擴展對象時,演算法終止。
Apriori的缺點在於生成候選集的過程中,演算法總是嘗試掃描整個數據集並盡可能多地添加擴展對象,導致計算效率較低;其本質上採用的是寬度優先的遍歷方式,理論上需要遍歷次才可以確定任意的最大子集S。
七、SVM
支持向量機(Support Vector Machine, SVM)[7]是在分類與回歸分析中分析數據的監督式學習模型與相關的學習演算法。給定一組訓練實例,每個訓練實例被標記為屬於兩個類別中的一個或另一個,SVM訓練演算法創建一個將新的實例分配給兩個類別之一的模型,使其成為非概率二元線性分類器。SVM模型是將實例表示為空間中的點,這樣映射就使得單獨類別的實例被盡可能寬的明顯的間隔分開。然後,將新的實例映射到同一空間,並基於它們落在間隔的哪一側來預測所屬類別。
除了進行線性分類之外,SVM還可以使用所謂的核技巧有效地進行非線性分類,將其輸入隱式映射到高維特徵空間中,即支持向量機在高維或無限維空間中構造超平面或超平面集合,用於分類、回歸或其他任務。直觀來說,分類邊界距離最近的訓練數據點越遠越好,因為這樣可以縮小分類器的泛化誤差。
八、EM
最大期望演算法(Expectation–Maximization Algorithm, EM)[7]是從概率模型中尋找參數最大似然估計的一種演算法。其中概率模型依賴於無法觀測的隱性變數。最大期望演算法經常用在機器學習和計算機視覺的數據聚類(Data Clustering)領域。最大期望演算法經過兩個步驟交替進行計算,第一步是計算期望(E),利用對隱藏變數的現有估計值,計算其最大似然估計值;第二步是最大化(M),最大化在E步上求得的最大似然值來計算參數的值。M步上找到的參數估計值被用於下一個E步計算中,這個過程不斷交替進行。
九、PageRank
PageRank演算法設計初衷是根據網站的外部鏈接和內部鏈接的數量和質量對網站的價值進行衡量。PageRank將每個到網頁的鏈接作為對該頁面的一次投票,被鏈接的越多,就意味著被其他網站投票越多。
演算法假設上網者將會不斷點網頁上的鏈接,當遇到了一個沒有任何鏈接出頁面的網頁,這時候上網者會隨機轉到另外的網頁開始瀏覽。設置在任意時刻,用戶到達某頁面後並繼續向後瀏覽的概率,該數值是根據上網者使用瀏覽器書簽的平均頻率估算而得。PageRank值可以表示為:
其中,是被研究的頁面集合,N表示頁面總數,是鏈接入頁面的集合,是從頁面鏈接處的集合。
PageRank演算法的主要缺點是的主要缺點是舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多外鏈,除非它是某個站點的子站點。
十、AdaBoost
AdaBoost方法[10]是一種迭代演算法,在每一輪中加入一個新的弱分類器,直到達到某個預定的足夠小的錯誤率。每一個訓練樣本都被賦予一個權重,表明它被某個分類器選入訓練集的概率。如果某個樣本點已經被准確地分類,那麼在構造下一個訓練集中,它被選中的概率就被降低;相反,如果某個樣本點沒有被准確地分類,那麼它的權重就得到提高。通過這樣的方式,AdaBoost方法能「聚焦於」那些較難分的樣本上。在具體實現上,最初令每個樣本的權重都相等,對於第k次迭代操作,我們就根據這些權重來選取樣本點,進而訓練分類器Ck。然後就根據這個分類器,來提高被它分錯的的樣本的權重,並降低被正確分類的樣本權重。然後,權重更新過的樣本集被用於訓練下一個分類器Ck[,並且如此迭代地進行下去。
AdaBoost方法的自適應在於:前一個分類器分錯的樣本會被用來訓練下一個分類器。AdaBoost方法對於雜訊數據和異常數據很敏感。但在一些問題中,AdaBoost方法相對於大多數其它學習演算法而言,不會很容易出現過擬合現象。AdaBoost方法中使用的分類器可能很弱(比如出現很大錯誤率),但只要它的分類效果比隨機好一點(比如兩類問題分類錯誤率略小於0.5),就能夠改善最終得到的模型。而錯誤率高於隨機分類器的弱分類器也是有用的,因為在最終得到的多個分類器的線性組合中,可以給它們賦予負系數,同樣也能提升分類效果。
引用
[1] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
[2] Altman, N. S. An introction to kernel and nearest-neighbor nonparametric regression. The American Statistician. 1992, 46 (3): 175–185. doi:10.1080/00031305.1992.10475879
[3] Webb, G. I.; Boughton, J.; Wang, Z. Not So Naive Bayes: Aggregating One-Dependence Estimators. Machine Learning (Springer). 2005, 58 (1): 5–24. doi:10.1007/s10994-005-4258-6
[4] decisiontrees.net Interactive Tutorial
[5] Hamerly, G. and Elkan, C. Alternatives to the k-means algorithm that find better clusterings (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM). 2002
[6] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487-499, Santiago, Chile, September 1994.
[7] Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning. 1995, 20 (3): 273–297. doi:10.1007/BF00994018
[8] Arthur Dempster, Nan Laird, and Donald Rubin. "Maximum likelihood from incomplete data via the EM algorithm". Journal of the Royal Statistical Society, Series B, 39 (1):1–38, 1977
[9] Susan Moskwa. PageRank Distribution Removed From WMT. [October 16, 2009]
[10] Freund, Yoav; Schapire, Robert E. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting. 1995. CiteSeerX: 10.1.1.56.9855