樹頻集演算法優勢_決策樹CART演算法優點和缺點

① 決策樹法優點

決策樹法優點：決策樹列出了決策問題的全部可行方案和可能出現的各種自然狀態，以及各可行方法在各種不同狀態下的期望值。能直觀地顯示整個決策問題在時間和決策順序上不同階段的決策過程。在應用於復雜的多階段決策時，階段明顯，層次清楚，便於決策機構集體研究，可以周密地思考各種因素，有利於作出正確的決策。決策樹法缺點：使用范圍有限，無法適用於一些不能用數量表示的決策；對各種方案的出現概率的確定有時主觀性較大，可能導致決策失誤；決策樹優缺點優點:(1)速度快: 計算量相對較小, 且容易轉化成分類規則. 只要沿著樹根向下一直走到葉, 沿途的分裂條件就能夠唯一確定一條分類的謂詞.(2)准確性高: 挖掘出來的分類規則准確性高, 便於理解, 決策樹可以清晰的顯示哪些欄位比較重要, 即可以生成可以理解的規則.(3)可以處理連續和種類欄位(4)不需要任何領域知識和參數假設(5)適合高維數據缺點:(1)對於各類別樣本數量不一致的數據, 信息增益偏向於那些更多數值的特徵(2)容易過擬合(3)忽略屬性之間的相關性

② 牡丹江師范

金融數學（Financial Mathematics），又稱數理金融學、數學金融學、分析金融學，是利用數學工具研究金融，進行數學建模、理論分析、數值計算等定量分析，以求找到金融學內在規律並用以指導實踐。金融數學也可以理解為現代數學與計算技術在金融領域的應用，因此，金融數學是一門新興的交*學科，發展很快，是目前十分活躍的前言學科之一。
金融數學是一門新興學科，是「金融高技術」的重要組成部分。研究金融數學有著重要的意義。金融數學總的研究目標是利用我國數學界某些方面的優勢，圍繞金融市場的均衡與有價證券定價的數學理論進行深入剖析，建立適合我國國情的數學模型，編寫一定的計算機軟體，對理論研究結果進行模擬計算，對實際數據進行計量經濟分析研究，為實際金融部門提供較深入的技術分析咨詢。
金融數學主要的研究內容和擬重點解決的問題包括：
(1)有價證券和證券組合的定價理論
發展有價證券（尤其是期貨、期權等衍生工具）的定價理論。所用的數學方法主要是提出合適的隨機微分方程或隨機差分方程模型，形成相應的倒向方程。建立相應的非線性Feynman一Kac公式，由此導出非常一般的推廣的Black一Scho1es定價公式。所得到的倒向方程將是高維非線性帶約束的奇異方程。
研究具有不同期限和收益率的證券組合的定價問題。需要建立定價與優化相結合的數學模型，在數學工具的研究方面，可能需要隨機規劃、模糊規劃和優化演算法研究。
在市場是不完全的條件下，引進與偏好有關的定價理論。
(2）不完全市場經濟均衡理論（GEI）
擬在以下幾個方面進行研究：
1．無窮維空間、無窮水平空間、及無限狀態
2.隨機經濟、無套利均衡、經濟結構參數變異、非線資產結構
3．資產證券的創新（Innovation）與設計（Design）
4．具有摩擦（Friction）的經濟
5．企業行為與生產、破產與壞債
6.證券市場博奕。
（3）GEI 平板衡演算法、蒙特卡羅法在經濟平衡點計算中的應用， GEI的理論在金融財政經濟宏觀經濟調控中的應用，不完全市場條件下，持續發展理論框架下研究自然資源資產定價與自然資源的持續利用。
目前國內開設金融數學本科專業的高等院校中，實力較強的有北京大學、復旦大學、浙江大學、山東大學、南開大學。
後來從事計算機工作很出色。金融數學將後來在銀行、保險、股票、期貨領域從事研究分析，或做這些領域的軟體開發，具有很好的專業背景，而這些領域將來都很重要。
國內金融數學人才鳳毛麟角
諾貝爾經濟學獎已經至少3次授予以數學為工具分析金融問題的經濟學家。北京大學金融數學系王鐸教授說，但遺憾的是，我國相關人才的培養，才剛剛起步。現在，既懂金融又懂數學的復合型人才相當稀缺。
金融數學這門新興的交叉學科已經成為國際金融界的一枝奇葩。剛剛公布的2003年諾貝爾經濟學獎，就是表彰美國經濟學家羅伯特·恩格爾和英國經濟學家克萊夫·格蘭傑分別用「隨著時間變化易變性」和「共同趨勢」兩種新方法分析經濟時間數列給經濟學研究和經濟發展帶來巨大影響。
王鐸介紹，金融數學的發展曾兩次引發了「華爾街革命」。上個世紀50年代初期，馬科威茨提出證券投資組合理論，第一次明確地用數學工具給出了在一定風險水平下按不同比例投資多種證券收益可能最大的投資方法，引發了第一次「華爾街革命」。1973年，布萊克和斯克爾斯用數學方法給出了期權定價公式，推動了期權交易的發展，期權交易很快成為世界金融市場的主要內容，成為第二次「華爾街革命」。
今天，金融數學家已經是華爾街最搶手的人才之一。最簡單的例子是，保險公司中地位和收入最高的，可能就是總精算師。美國花旗銀行副主席保爾·柯斯林著名的論斷是，「一個從事銀行業務而不懂數學的人，無非只能做些無關緊要的小事」。
在美國，芝加哥大學、加州伯克利大學、斯坦福大學、卡內基·梅隆大學和紐約大學等著名學府，都已經設立了金融數學相關的學位或專業證書教育。
專家認為，金融數學可能帶來的發展應該凸現在亞洲，尤其是在金融市場正在開發和具有巨大潛力的中國。香港中文大學、科技大學、城市理工大學等學校都已推出有關的訓練課程和培養計劃，並得到銀行金融業界的熱烈響應。但中國內地對該項人才的培養卻有些艱辛。
王鐸介紹，國家自然科學基金委員會在一項「九五」重大項目中，列入金融工程研究內容，可以說全面啟動了國內的金融數學研究。可這比馬科威茨開始金融數學的研究應用已經晚了近半個世紀。
在金融衍生產品已成為國際金融市場重要角色的背景下，我國的金融衍生產品才剛剛起步，金融衍生產品市場幾乎是空白。「加入 W TO後，國際金融家們肯定將把這一系列業務帶入中國。如果沒有相應的產品和人才，如何競爭？」王鐸憂慮地說。
他認為，近幾年，接連發生的墨西哥金融危機、百年老店巴林銀行倒閉等事件都在警告我們，如果不掌握金融數學、金融工程和金融管理等現代化金融技術，缺乏人才，就可能在國際金融競爭中蒙受重大損失。我們現在最缺的，就是掌握現代金融衍生工具、能對金融風險做定量分析的既懂金融又懂數學的高級復合型人才。
據悉，目前國內不少高校都陸續開展了與金融數學相關的教學，但畢業的學生遠遠滿足不了整個市場的需求。
王鐸認為，培養這類人才還有一些難以逾越的障礙———金融數學最終要運用於實踐，可目前國內金融衍生產品市場還沒有成氣候，學生很難有實踐的機會，教和學都還是紙上談兵。另外，高校培養的人大多都是本科生，只有少量的研究生，這個領域的高端人才在國內還是鳳毛麟角。國家應該更多地關注金融和數學相結合的復合型人才的培養。
王鐸回憶，1997年，北京大學建立了國內首個金融數學系時，他曾想與一些金融界人士共商辦學。但相當一部分人對此顯然並不感興趣：「什麼金融衍生產品，什麼金融數學，那都是國家應該操心的事。」
盡管當初開設金融數學系時有人認為太超前，但王鐸堅持，教育應該走在產業發展的前頭，才能為市場儲備人才。如果今天還不重視相關領域的人才培養，就可能導致我們在國際競爭中的不利。
記者發現即使今天，在這個問題上，仍然一方面是高校教師對於人才稀缺的擔憂，一方面卻是一些名氣很大的專家對金融數學人才培養的冷漠。
采訪中，記者多次試圖聯系幾位國內金融數學界或金融理論界專家，可屢屢遭到拒絕。原因很簡單，他們認為，談人才培養這樣的話題太小兒科，有的甚至說，「我不了解，也根本不關注什麼人才培養」。還有的說，「我現在有很多課題要做，是我的課題重要，還是討論人才培養重要」、「我沒有時間，也沒義務向公眾解釋什麼諾貝爾經濟學獎，老百姓要不要曉得金融數學和我沒有關系」。
[編輯本段]金融中的數據挖掘
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事： "尿布與啤酒"的故事。
在一家超市裡，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠准確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化，如引入隨機采樣、並行的思想等，以提高演算法挖掘規則的效率；對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets)，第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequent k-itemset)，一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(Minimum Confidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了「大部份購買尿布的交易，會同時購買啤酒」的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關系；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=「女」=>職業=「秘書」，是布爾型關聯規則；性別=「女」=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony列印機，是一個細節數據上的單層關聯規則；台式機=>Sony列印機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關系；多維關聯規則是處理各個屬性之間的某些關系。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=「女」=>職業=「秘書」，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關演算法
1.Apriori演算法：使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。
該演算法的基本思想是：首先找出所有的頻集，這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則，這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則，產生只包含集合的項的所有規則，其中每一條規則的右部只有一項，這里採用的是中規則的定義。一旦這些規則被生成，那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集，使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫，是Apriori演算法的兩大缺點。
2.基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮一個分塊並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存，每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的，可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後，處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸；而另一方面，每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法
針對Apriori演算法的固有缺陷，J. Han等提出了不產生候選挖掘頻繁項集的方法：FP-樹頻集演算法。採用分而治之的策略，在經過第一遍掃描之後，把資料庫中的頻集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息，隨後再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關，然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候，也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3．1關聯規則發掘技術在國內外的應用
就目前而言，關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，「數據海量，信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3．2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的應用領域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系，時態關系，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的范圍，改善經典關聯規則挖掘演算法效率和規則興趣性。

③ 決策樹基本概念及演算法優缺點

分類決策樹模型是一種描述對實例進行分類的樹形結構. 決策樹由結點和有向邊組成. 結點有兩種類型: 內部結點和葉節點. 內部節點表示一個特徵或屬性, 葉節點表示一個類.
決策樹(Decision Tree),又稱為判定樹, 是一種以樹結構(包括二叉樹和多叉樹)形式表達的預測分析模型.

分類樹--對離散變數做決策樹

回歸樹--對連續變數做決策樹

優點:
(1)速度快: 計算量相對較小, 且容易轉化成分類規則. 只要沿著樹根向下一直走到葉, 沿途的分裂條件就能夠唯一確定一條分類的謂詞.
(2)准確性高: 挖掘出來的分類規則准確性高, 便於理解, 決策樹可以清晰的顯示哪些欄位比較重要, 即可以生成可以理解的規則.
(3)可以處理連續和種類欄位
(4)不需要任何領域知識和參數假設
(5)適合高維數據
缺點:
(1)對於各類別樣本數量不一致的數據, 信息增益偏向於那些更多數值的特徵
(2)容易過擬合
(3)忽略屬性之間的相關性

若一事假有k種結果, 對應概率為 , 則此事件發生後所得到的信息量I為:

給定包含關於某個目標概念的正反樣例的樣例集S, 那麼S相對這個布爾型分類的熵為:

其中代表正樣例, 代表反樣例

假設隨機變數(X,Y), 其聯合分布概率為P(X=xi,Y=yi)=Pij, i=1,2,...,n;j=1,2,..,m
則條件熵H(Y|X)表示在已知隨機變數X的條件下隨機變數Y的不確定性, 其定義為X在給定條件下Y的條件概率分布的熵對X的數學期望

在Hunt演算法中, 通過遞歸的方式建立決策樹.

使用信息增益, 選擇 最高信息增益 的屬性作為當前節點的測試屬性

ID3( Examples,Target_attribute,Attributes )

Examples 即訓練樣例集. Target_attribute 是這棵樹要預測的目標屬性. Attributes 是除目標屬性外供學習到的決策樹測試的屬性列表. 返回能正確分類給定 Examples 的決策樹.

class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

限制決策樹層數為4的DecisionTreeClassifier實例

This plot compares the decision surfaces learned by a dcision tree classifier(first column), by a random forest classifier(second column), by an extra-trees classifier(third column) and by an AdaBoost classifier(fouth column).

Output:

A comparison of a several classifiers in scikit-learn on synthetic datasets.
The point of this examples is to illustrate the nature of decision boundaries of different classifiers.

Particularly in high-dimensional spaces, data can more easily be separated linearly and the simplicity of classifiers such as naive Bayes and linear SVMs might lead to better generalization than is achieved by other classifiers.

This example fits an AdaBoost decisin stump on a non-linearly separable classification dataset composed of two "Gaussian quantiles" clusters and plots the decision boundary and decision scores.

Output:

④ 決策樹CART演算法優點和缺點

CART的全稱是分類和回歸樹，既可以做分類演算法，也可以做回歸。
決策樹的優缺點：
優點：

1.可以生成可以理解的規則。
2.計算量相對來說不是很大。
3.可以處理連續和種類欄位。
4.決策樹可以清晰的顯示哪些欄位比較重要
缺點：

1. 對連續性的欄位比較難預測。
2.對有時間順序的數據，需要很多預處理的工作。
3.當類別太多時，錯誤可能就會增加的比較快。
4.一般的演算法分類的時候，只是根據一個欄位來分類。

⑤ 機器學習中常見的演算法的優缺點之決策樹

決策樹在機器學習中是一個十分優秀的演算法，在很多技術中都需要用到決策樹這一演算法，由此可見，決策樹是一個經典的演算法，在這篇文章中我們給大家介紹決策樹演算法的優缺點，希望這篇文章能夠更好的幫助大家理解決策樹演算法。
其實決策樹倍受大家歡迎的原因就是其中的一個優勢，那就是易於解釋。同時決策樹可以毫無壓力地處理特徵間的交互關系並且是非參數化的，因此你不必擔心異常值或者數據是否線性可分。但是決策樹的有一個缺點就是不支持在線學習，於是在新樣本到來後，決策樹需要全部重建。另一個缺點就是容易出現過擬合，但這也就是諸如隨機森林RF之類的集成方法的切入點。另外，隨機森林經常是很多分類問題的贏家，決策樹訓練快速並且可調，同時大家無須擔心要像支持向量機那樣調一大堆參數，所以在以前都一直很受歡迎。
那麼決策樹自身的優點都有什麼呢，總結下來就是有六點，第一就是決策樹易於理解和解釋，可以可視化分析，容易提取出規則。第二就是可以同時處理標稱型和數值型數據。第三就是比較適合處理有缺失屬性的樣本。第四就是能夠處理不相關的特徵。第五就是測試數據集時，運行速度比較快。第六就是在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。
那麼決策樹的缺點是什麼呢？總結下來有三點，第一就是決策樹容易發生過擬合，但是隨機森林可以很大程度上減少過擬合。第二就是決策樹容易忽略數據集中屬性的相互關聯。第三就是對於那些各類別樣本數量不一致的數據，在決策樹中，進行屬性劃分時，不同的判定準則會帶來不同的屬性選擇傾向；信息增益准則對可取數目較多的屬性有所偏好，而增益率准則CART則對可取數目較少的屬性有所偏好，但CART進行屬性劃分時候不再簡單地直接利用增益率盡心劃分，而是採用一種啟發式規則。
通過上述的內容相信大家已經知道了決策樹的優點和缺點了吧，大家在學習或者使用決策樹演算法的時候可以更好的幫助大家理解決策樹的具體情況，只有了解了這些演算法，我們才能夠更好的使用決策樹演算法。

⑥ 數據挖掘的十大經典演算法，總算是講清楚了，想提升自己的趕快收藏

一個優秀的數據分析師，除了要掌握基本的統計學、數據分析思維、數據分析工具之外，還需要掌握基本的數據挖掘思想，幫助我們挖掘出有價值的數據，這也是數據分析專家和一般數據分析師的差距所在。

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 評選出了數據挖掘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不僅僅是選中的十大演算法，其實參加評選的18種演算法，實際上隨便拿出一種來都可以稱得上是經典演算法，它們在數據挖掘領域都產生了極為深遠的影響。今天主要分享其中10種經典演算法，內容較干，建議收藏備用學習。

1. C4.5

C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進：

1) 用信息增益率來選擇屬性，克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足；

2) 在樹構造過程中進行剪枝；

3) 能夠完成對連續屬性的離散化處理；

4) 能夠對不完整數據進行處理。

C4.5演算法有如下優點：產生的分類規則易於理解，准確率較高。其缺點是：在構造樹的過程中，需要對數據集進行多次的順序掃描和排序，因而導致演算法的低效（相對的CART演算法只需要掃描兩次數據集，以下僅為決策樹優缺點）。

2. The k-means algorithm 即K-Means演算法

k-means algorithm演算法是一個聚類演算法，把n的對象根據他們的屬性分為k個分割，k < n。它與處理混合正態分布的最大期望演算法很相似，因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自於空間向量，並且目標是使各個群組內部的均方誤差總和最小。

3. Support vector machines

支持向量機，英文為Support Vector Machine，簡稱SV機（論文中一般簡稱SVM）。它是一種監督式學習的方法，它廣泛的應用於統計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里，在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。

4. The Apriori algorithm

Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。

5. 最大期望(EM)演算法

在統計計算中，最大期望（EM，Expectation–Maximization）演算法是在概率（probabilistic）模型中尋找參數最大似然估計的演算法，其中概率模型依賴於無法觀測的隱藏變數（Latent Variabl）。最大期望經常用在機器學習和計算機視覺的數據集聚（Data Clustering）領域。

6. PageRank

PageRank是Google演算法的重要內容。2001年9月被授予美國專利，專利人是Google創始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指網頁，而是指佩奇，即這個等級方法是以佩奇來命名的。

PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背後的概念是，每個到頁面的鏈接都是對該頁面的一次投票，被鏈接的越多，就意味著被其他網站投票越多。這個就是所謂的「鏈接流行度」——衡量多少人願意將他們的網站和你的網站掛鉤。PageRank這個概念引自學術中一篇論文的被引述的頻度——即被別人引述的次數越多，一般判斷這篇論文的權威性就越高。

7. AdaBoost

Adaboost是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器 (強分類器)。其演算法本身是通過改變數據分布來實現的，它根據每次訓練集之中每個樣本的分類是否正確，以及上次的總體分類的准確率，來確定每個樣本的權值。將修改過權值的新數據集送給下層分類器進行訓練，最後將每次訓練得到的分類器最後融合起來，作為最後的決策分類器。

8. kNN: k-nearest neighbor classification

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

9. Naive Bayes

在眾多的分類模型中，應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBC）。樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率。

同時，NBC模型所需估計的參數很少，對缺失數據不太敏感，演算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此，這是因為NBC模型假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時，NBC模型的性能最為良好。

10. CART: 分類與回歸樹

CART, Classification and Regression Trees。在分類樹下面有兩個關鍵的思想。第一個是關於遞歸地劃分自變數空間的想法（二元切分法）；第二個想法是用驗證數據進行剪枝（預剪枝、後剪枝）。在回歸樹的基礎上的模型樹構建難度可能增加了，但同時其分類效果也有提升。

參考書籍：《機器學習實戰》

導航:首頁 > 源碼編譯 > 樹頻集演算法優勢

樹頻集演算法優勢

與樹頻集演算法優勢相關的資料