1. 構造一個實體訓練集(表格型),形成決策樹
摘要 決策樹是AI產品經理在工作中經常會用到的一個機器演算法,為了更清晰地了解決策樹演算法,本文從三個方面全面介紹了決策樹的概念,流程和應用,希望對你有幫助。
2. 如何用決策樹演算法對數據作分類分析,並解釋得到的分類模型
是典型的以邏輯模型的方式輸出的分類結果的數據挖掘...,並對決策樹並行化進行了認真分析,給出了決策樹...邢曉宇.決策樹分類演算法的並行化研究及
3. 機器學習有哪些分類器
機器學習中的分類器有:
1.決策樹分類器
提供一個屬性集合,決策樹通過在屬性集的基礎上作出一系列的決策,將數據分類。這個過程類似於通過一個植物的特徵來辨認植物。可以應用這樣的分類器來判定某人的信用程度,比如,一個決策樹可能會斷定「一個有家、擁有一輛價值在1.5 萬到2.3 萬美元之間的轎車、有兩個孩子的人」擁有良好的信用。決策樹生成器從一個「訓練集」中生成決策樹。SGI 公司的數據挖掘工具MineSet 所提供的可視化工具使用樹圖來顯示決策樹分類器的結構,在圖中,每一個決策用樹的一個節點來表示。圖形化的表示方法可以幫助用戶理解分類演算法,提供對數據的有價值的觀察視角。生成的分類器可用於對數據的分類。
2. 選擇樹分類器
選擇樹分類器使用與決策樹分類器相似的技術對數據進行分類。與決策樹不同的是,選擇樹中包含特殊的選擇節點,選擇節點有多個分支。比如,在一棵用於區分汽車產地的選擇樹中的一個選擇節點可以選擇馬力、汽缸數目或汽車重量等作為信息屬性。在決策樹中,一個節點一次最多可以選取一個屬性作為考慮對象。在選擇樹中進行分類時,可以綜合考慮多種情況。選擇樹通常比決策樹更准確,但是也大得多。選擇樹生成器使用與決策樹生成器生成決策樹同樣的演算法從訓練集中生成選擇樹。MineSet 的可視化工具使用選擇樹圖來顯示選擇樹。樹圖可以幫助用戶理解分類器,發現哪個屬性在決定標簽屬性值時更重要。同樣可以用於對數據進行分類。
3. 證據分類器
證據分類器通過檢查在給定一個屬性的基礎上某個特定的結果發生的可能性來對數據進行分類。比如,它可能作出判斷,一個擁有一輛價值在1.5 萬到2.3 萬美元之間的轎車的人有70 %的可能是信用良好的,而有30 %的可能是信用很差。分類器在一個簡單的概率模型的基礎上,使用最大的概率值來對數據進行分類預測。與決策樹分類器類似,生成器從訓練集中生成證據分類器。MineSet 的可視化工具使用證據圖來顯示分類器,證據圖由一系列描述不同的概率值的餅圖組成。證據圖可以幫助用戶理解分類演算法,提供對數據的深入洞察,幫助用戶回答像「如果... 怎麼樣" 一類的問題。同樣可以用於對數據進行分類。
(3)演算法用樹的結構來構建分類模型擴展閱讀:
影響一個分類器錯誤率的因素:
(1)、訓練集的記錄數量。生成器要利用訓練集進行學習,因而訓練集越大,分類器也就越可靠。然而,訓練集越大,生成器構造分類器的時間也就越長。錯誤率改善情況隨訓練集規模的增大而降低。
(2)、屬性的數目。更多的屬性數目對於生成器而言意味著要計算更多的組合,使得生成器難度增大,需要的時間也更長。有時隨機的關系會將生成器引入歧途,結果可能構造出不夠准確的分類器(這在技術上被稱為過分擬合)。因此,如果我們通過常識可以確認某個屬性與目標無關,則將它從訓練集中移走。
(3)、屬性中的信息。有時生成器不能從屬性中獲取足夠的信息來正確、低錯誤率地預測標簽(如試圖根據某人眼睛的顏色來決定他的收入)。加入其他的屬性(如職業、每周工作小時數和年齡),可以降低錯誤率。
(4)、待預測記錄的分布。如果待預測記錄來自不同於訓練集中記錄的分布,那麼錯誤率有可能很高。比如如果你從包含家用轎車數據的訓練集中構造出分類器,那麼試圖用它來對包含許多運動用車輛的記錄進行分類可能沒多大用途,因為數據屬性值的分布可能是有很大差別的。
4. (29) 用樹形結構來表示實體之間聯系的模型稱為______。
用樹形結構來表示實體之間聯系的模型稱為層次模型。
層次模型是指用一顆「有向樹」的數據結構來表示表示各類實體以及實體間的聯系,樹中每一個節點代表一個記錄類型,樹狀結構表示實體型之間的聯系。層次模型是最早用於商品資料庫管理系統的數據模型。
在一個層次模型中的限制條件是:
(1)有且僅有一個節點,無父節點,它為樹的根;(有且僅有一個結點沒有雙親,該節點就是根結點。)
(2)其他節點有且僅有一個父節點。(根以外的其他結點有且僅有一個雙親結點 )這就使得層次資料庫系統只能直接處理一對多的實體關系。
(3)任何一個給定的記錄值只有按照其路徑查看時,才能顯出它的全部意義,沒有一個子女記錄值能夠脫離雙親記錄值而獨立存在。
(4)演算法用樹的結構來構建分類模型擴展閱讀:
優缺點
優點
層次模型的特點主要有:
(1)層次模型的數據結構比較簡單,只需要幾條命令就能操縱資料庫,比較容易使用。
(2)結構清晰,結點間聯系簡單,只要知道每個結點的雙親結點,就可以知道整個模型結構。現實世界中許多實體間聯系本來就是呈現出一種很自然的層次關系,如表示行政層次,家族關系很關系。
(3)層次數據模型提供了良好的完整性支持。
(4)層次資料庫查詢效率高。因為層次模型中記錄之間的聯系用有向邊表示,這種聯系在DBMS中常常用指針來實現。因此這種聯系也就是記錄之間的存取路徑。當要存取某個結點的記錄指,DBMS就沿著這一條路徑很快找到該記錄值,所以層次資料庫的性能優於關系資料庫, 不低於網狀資料庫。
缺點
層次模型的缺點主要有:
(1)現實世界中很多聯系是非層次性的,如多對多聯系、一個結點具有多個雙親等。層次模型表示這類聯系的方法很不靈活,不能直接表示兩個以上的實體型間的的復雜的聯系和實體型間的多對多聯系。
只能通過引入冗餘數據或建非自然的數據組織如創建虛擬節點的方法來解決,易產生不一致性。
(2)對數據的插入和刪除的操作限制太多。
(3)查詢子女結點必須通過雙親結點,因為層次模型對任一結點的所有子樹都規定了先後次序,這一限制隱含了對資料庫存取路徑的控制。樹中父子結點之間只存在一種聯系,因此,對樹中的任一結點,只有一條自根結點到達它的路徑。
(4)樹結點中任何記錄的屬性只能是不可再分的簡單數據類型。
(5)由於結構嚴密,層次命令趨於程序化。
5. 機器學習故事匯-決策樹演算法
機器學習故事匯-決策樹演算法
【咱們的目標】系列演算法講解旨在用最簡單易懂的故事情節幫助大家掌握晦澀無趣的機器學習,適合對數學很頭疼的同學們,小板凳走起!
決策樹模型是機器學習中最經典的演算法之一啦,用途之廣泛我就不多吹啦,其實很多機器學習演算法都是以樹模型為基礎的,比如隨機森林,Xgboost等一聽起來就是很牛逼的演算法(其實用起來也很牛逼)。
首先我們來看一下在上面的例子中我想根據人的年齡和性別(兩個特徵)對5個人(樣本數據)進行決策,看看他們喜不喜歡玩電腦游戲。首先根據年齡(根節點)進行了一次分支決策,又對左節點根據性別進行了一次分支決策,這樣所有的樣本都落到了最終的葉子節點,可以把每一個葉子節點當成我們最終的決策結果(比如Y代表喜歡玩游戲,N代表不喜歡玩游戲)。這樣我們就通過決策樹完成了非常簡單的分類任務!
再來看一下樹的組成,主要結構有根節點(數據來了之後首先進行判斷的特徵),非葉子節點(中間的一系列過程),葉子節點(最終的結果),這些都是我們要建立的模塊!
在決策中樹中,我們剛才的喜歡玩電腦游戲的任務看起來很簡單嘛,從上往下去走不就OK了嗎!但是難點在於我們該如何構造這棵決策樹(節點的選擇以及切分),這個看起來就有些難了,因為當我們手裡的數據特徵比較多的時候就該猶豫了,到底拿誰當成是根節點呢?
這個就是我們最主要的問題啦,節點究竟該怎麼選呢?不同的位置又有什麼影響?怎麼對特徵進行切分呢?一些到這,我突然想起來一個段子,咱們來樂呵樂呵!
武林外傳中這個段子夠我笑一年的,其實咱們在推導機器學習演算法的時候,也需要這么去想想,只有每一步都是有意義的我們才會選擇去使用它。回歸正題,我們選擇的根節點其實意味著它的重要程度是最大的,相當於大當家了,因為它會對數據進行第一次切分,我們需要把最重要的用在最關鍵的位置,在決策樹演算法中,為了使得演算法能夠高效的進行,那麼一開始就應當使用最有價值的特徵。
接下來咱們就得嘮嘮如何選擇大當家了,我們提出了一個概念叫做熵(不是我提出的。。。穿山甲說的),這里並不打算說的那麼復雜,一句話解釋一下,熵代表你經過一次分支之後分類的效果的好壞,如果一次分支決策後都屬於一個類別(理想情況下,也是我們的目標)這時候我們認為效果很好嘛,那熵值就很低。如果分支決策後效果很差,什麼類別都有,那麼熵值就會很高,公式已經給出,log函數推薦大家自己畫一下,然後看看概率[0,1]上的時候log函數值的大小(你會豁然開朗的)。
不確定性什麼時候最大呢?模稜兩可的的時候(就是你猶豫不決的時候)這個時候熵是最大的,因為什麼類別出現的可能性都有。那麼我們該怎麼選大當家呢?(根節點的特徵)當然是希望經過大當家決策後,熵值能夠下降(意味著類別更純凈了,不那麼混亂了)。在這里我們提出了一個詞叫做信息增益(就當是我提出的吧。。。),信息增益表示經過一次決策後整個分類後的數據的熵值下降的大小,我們希望下降越多越好,理想情況下最純凈的熵是等於零的。
一個栗子:准備一天一個哥們打球的時候,包括了4個特徵(都是環境因素)以及他最終有木有去打球的數據。
第一個問題:大當家該怎麼選?也就是我們的根節點用哪個特徵呢?
一共有4個特徵,看起來好像用誰都可以呀,這個時候就該比試比試了,看看誰的能力強(使得熵值能夠下降的最多)
在歷史數據中,首先我們可以算出來當前的熵值,計算公式同上等於0.940,大當家的競選我們逐一來分析,先看outlook這個特徵,上圖給出了基於天氣的劃分之後的熵值,計算方式依舊同上,比如outlook=sunny時,yes有2個,no有三個這個時候熵就直接將2/5和3/5帶入公式就好啦。最終算出來了3種情況下的熵值。
再繼續來看!outlook取不同情況的概率也是不一樣的,這個是可以計算出來的相當於先驗概率了,直接可以統計出來的,這個也需要考慮進來的。然後outlook競選大當家的分值就出來啦(就是信息增益)等於0.247。同樣的方法其餘3個特徵的信息增益照樣都可以計算出來,誰的信息增益多我們就認為誰是我們的大當家,這樣就完成了根節點的選擇,接下來二當家以此類推就可以了!
我們剛才給大家講解的是經典的ID3演算法,基於熵值來構造決策樹,現在已經有很多改進,比如信息增益率和CART樹。簡單來說一下信息增益率吧,我們再來考慮另外一個因素,如果把數據的樣本編號當成一個特徵,那麼這個特徵必然會使得所有數據完全分的開,因為一個樣本只對應於一個ID,這樣的熵值都是等於零的,所以為了解決這類特徵引入了信息增益率,不光要考慮信息增益還要考慮特徵自身的熵值。說白了就是用 信息增益/自身的熵值 來當做信息增益率。
我們剛才討論的例子中使用的是離散型的數據,那連續值的數據咋辦呢?通常我們都用二分法來逐一遍歷來找到最合適的切分點!
下面再來嘮一嘮決策樹中的剪枝任務,為啥要剪枝呢?樹不是好好的嗎,剪個毛線啊!這個就是機器學習中老生常談的一個問題了,過擬合的風險,說白了就是如果一個樹足夠龐大,那麼所有葉子節點可能只是一個數據點(無限制的切分下去),這樣會使得我們的模型泛化能力很差,在測試集上沒辦法表現出應有的水平,所以我們要限制決策樹的大小,不能讓枝葉太龐大了。
最常用的剪枝策略有兩種:
(1)預剪枝:邊建立決策樹邊開始剪枝的操作
(2)後剪枝:建立完之後根據一定的策略來修建
這些就是我們的決策樹演算法啦,其實還蠻好的理解的,從上到下基於一種選擇標准(熵,GINI系數)來找到最合適的當家的就可以啦!
6. 數據結構與演算法中,樹一般會應用在哪些方面為什麼
數據結構的演算法,並沒有多少種演算法,關於樹,其實都是對DOM, AST 等應用,對人腦分層分類認知的建模,。樹的一個大類是自平衡二叉搜索樹 (self-balanced BST), 變種特別多:RB 樹是每個節點是紅色或者黑色, 顏色隔代遺傳AVL 樹是每個節點包含平衡因子, 等於左高-右高Splay 樹是每個節點帶個父節點的指針
總的來說,只要有序列的地方就可以應用樹,因為樹結構即是一種序列索引結構。序列的核心介面就是三個cha:插、查、X。
7. 決策樹的演算法
C4.5演算法繼承了ID3演算法的優點,並在以下幾方面對ID3演算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
C4.5演算法有如下優點:產生的分類規則易於理解,准確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致演算法的低效。此外,C4.5隻適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時程序無法運行。
具體演算法步驟如下;
1創建節點N
2如果訓練集為空,在返回節點N標記為Failure
3如果訓練集中的所有記錄都屬於同一個類別,則以該類別標記節點N
4如果候選屬性為空,則返回N作為葉節點,標記為訓練集中最普通的類;
5for each 候選屬性 attribute_list
6if 候選屬性是連續的then
7對該屬性進行離散化
8選擇候選屬性attribute_list中具有最高信息增益率的屬性D
9標記節點N為屬性D
10for each 屬性D的一致值d
11由節點N長出一個條件為D=d的分支
12設s是訓練集中D=d的訓練樣本的集合
13if s為空
14加上一個樹葉,標記為訓練集中最普通的類
15else加上一個有C4.5(R - {D},C,s)返回的點 背景:
分類與回歸樹(CART——Classification And Regression Tree)) 是一種非常有趣並且十分有效的非參數分類和回歸方法。它通過構建二叉樹達到預測目的。
分類與回歸樹CART 模型最早由Breiman 等人提出,已經在統計領域和數據挖掘技術中普遍使用。它採用與傳統統計學完全不同的方式構建預測准則,它是以二叉樹的形式給出,易於理解、使用和解釋。由CART 模型構建的預測樹在很多情況下比常用的統計方法構建的代數學預測准則更加准確,且數據越復雜、變數越多,演算法的優越性就越顯著。模型的關鍵是預測准則的構建,准確的。
定義:
分類和回歸首先利用已知的多變數數據構建預測准則, 進而根據其它變數值對一個變數進行預測。在分類中, 人們往往先對某一客體進行各種測量, 然後利用一定的分類准則確定該客體歸屬那一類。例如, 給定某一化石的鑒定特徵, 預測該化石屬那一科、那一屬, 甚至那一種。另外一個例子是, 已知某一地區的地質和物化探信息, 預測該區是否有礦。回歸則與分類不同, 它被用來預測客體的某一數值, 而不是客體的歸類。例如, 給定某一地區的礦產資源特徵, 預測該區的資源量。
8. 常見決策樹分類演算法都有哪些
在機器學習中,有一個體系叫做決策樹,決策樹能夠解決很多問題。在決策樹中,也有很多需要我們去學習的演算法,要知道,在決策樹中,每一個演算法都是實用的演算法,所以了解決策樹中的演算法對我們是有很大的幫助的。在這篇文章中我們就給大家介紹一下關於決策樹分類的演算法,希望能夠幫助大家更好地去理解決策樹。
1.C4.5演算法
C4.5演算法就是基於ID3演算法的改進,這種演算法主要包括的內容就是使用信息增益率替換了信息增益下降度作為屬性選擇的標准;在決策樹構造的同時進行剪枝操作;避免了樹的過度擬合情況;可以對不完整屬性和連續型數據進行處理;使用k交叉驗證降低了計算復雜度;針對數據構成形式,提升了演算法的普適性等內容,這種演算法是一個十分使用的演算法。
2.CLS演算法
CLS演算法就是最原始的決策樹分類演算法,基本流程是,從一棵空數出發,不斷的從決策表選取屬性加入數的生長過程中,直到決策樹可以滿足分類要求為止。CLS演算法存在的主要問題是在新增屬性選取時有很大的隨機性。
3.ID3演算法
ID3演算法就是對CLS演算法的最大改進是摒棄了屬性選擇的隨機性,利用信息熵的下降速度作為屬性選擇的度量。ID3是一種基於信息熵的決策樹分類學習演算法,以信息增益和信息熵,作為對象分類的衡量標准。ID3演算法結構簡單、學習能力強、分類速度快適合大規模數據分類。但同時由於信息增益的不穩定性,容易傾向於眾數屬性導致過度擬合,演算法抗干擾能力差。
3.1.ID3演算法的優缺點
ID3演算法的優點就是方法簡單、計算量小、理論清晰、學習能力較強、比較適用於處理規模較大的學習問題。缺點就是傾向於選擇那些屬性取值比較多的屬性,在實際的應用中往往取值比較多的屬性對分類沒有太大價值、不能對連續屬性進行處理、對雜訊數據比較敏感、需計算每一個屬性的信息增益值、計算代價較高。
3.2.ID3演算法的核心思想
根據樣本子集屬性取值的信息增益值的大小來選擇決策屬性,並根據該屬性的不同取值生成決策樹的分支,再對子集進行遞歸調用該方法,當所有子集的數據都只包含於同一個類別時結束。最後,根據生成的決策樹模型,對新的、未知類別的數據對象進行分類。
在這篇文章中我們給大家介紹了決策樹分類演算法的具體內容,包括有很多種演算法。從中我們不難發現決策樹的演算法都是經過不不斷的改造趨於成熟的。所以說,機器學習的發展在某種程度上就是由於這些演算法的進步而來的。