每天五分鍾玩轉機器學習演算法_干貨 | 基礎機器學習演算法

㈠機器學習的方法之回歸演算法

我們都知道，機器學習是一個十分實用的技術，而這一實用的技術中涉及到了很多的演算法。所以說，我們要了解機器學習的話就要對這些演算法掌握通透。在這篇文章中我們就給大家詳細介紹一下機器學習中的回歸演算法，希望這篇文章能夠幫助到大家。
一般來說，回歸演算法是機器學習中第一個要學習的演算法。具體的原因，第一就是回歸演算法比較簡單，可以讓人直接從統計學過渡到機器學習中。第二就是回歸演算法是後面若干強大演算法的基石，如果不理解回歸演算法，無法學習其他的演算法。而回歸演算法有兩個重要的子類：即線性回歸和邏輯回歸。
那麼什麼是線性回歸呢？其實線性回歸就是我們常見的直線函數。如何擬合出一條直線最佳匹配我所有的數據？這就需要最小二乘法來求解。那麼最小二乘法的思想是什麼呢？假設我們擬合出的直線代表數據的真實值，而觀測到的數據代表擁有誤差的值。為了盡可能減小誤差的影響，需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優問題轉化為求函數極值問題。
那麼什麼是邏輯回歸呢？邏輯回歸是一種與線性回歸非常類似的演算法，但是，從本質上講，線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數值問題，也就是最後預測出的結果是數字。而邏輯回歸屬於分類演算法，也就是說，邏輯回歸預測結果是離散的分類。而邏輯回歸演算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸，不過那樣的模型在處理數據量較大的時候效率會很低)，這意味著當兩類之間的界線不是線性時，邏輯回歸的表達能力就不足。下面的兩個演算法是機器學習界最強大且重要的演算法，都可以擬合出非線性的分類線。這就是有關邏輯回歸的相關事項。
在這篇文章中我們簡單給大家介紹了機器學習中的回歸演算法的相關知識，通過這篇文章我們不難發現回歸演算法是一個比較簡答的演算法，回歸演算法是線性回歸和邏輯回歸組成的演算法，而線性回歸和邏輯回歸都有自己實現功能的用處。這一點是需要大家理解的並掌握的，最後祝願大家能夠早日學會回歸演算法。

㈡機器學習第五篇：詳解決策樹-CART演算法

01|前言：CART演算法，全稱"Classification And Regression Trees"，是決策樹生成的一種演算法，既適用於分類問題也適用於回歸問題。它的構建過程包括特徵選擇、樹生成和剪枝。CART演算法的核心在於通過構建決策樹來實現數據分類或預測。

02|CART的生成：

決策樹的生成是一個遞歸構建二叉決策樹的過程。對於回歸樹，使用平方差最小化准則；對於分類樹，則使用基尼指數最小化准則進行特徵選擇。

回歸樹針對連續型目標變數，通過尋找能使預測誤差最小化的分界點來分割訓練集，逐步構建決策樹。

分類樹利用基尼指數選擇最優特徵進行二值切分，基尼指數定義了樣本集合的不確定性，數值越大表示不確定性越高。

03|CART剪枝：

剪枝是為了防止過擬合，通過減少決策樹的復雜度來優化模型。剪枝的關鍵在於減少樹的復雜度，比如子樹的葉節點數量或降低訓練誤差。

在剪枝過程中，通過計算剪枝前後損失函數的變化來決定是否剪枝。具體步驟包括從決策樹根節點開始，對每個內部節點計算損失函數變化量，選擇損失函數減少幅度最大的節點進行剪枝。

通過不斷剪枝並測試不同剪枝閾值下的決策樹性能，選擇使得驗證數據集上性能最優（如平方誤差或基尼指數最小）的決策樹作為最終模型。

㈢干貨 | 基礎機器學習演算法

本篇內容主要是面向機器學習初學者,介紹常見的機器學習演算法，當然,歡迎同行交流。

哲學要回答的基本問題是從哪裡來、我是誰、到哪裡去，尋找答案的過程或許可以借鑒機器學習的套路：組織數據->挖掘知識->預測未來。組織數據即為設計特徵，生成滿足特定格式要求的樣本，挖掘知識即建模，而預測未來就是對模型的應用。

特徵設計依賴於對業務場景的理解，可分為連續特徵、離散特徵和組合高階特徵。本篇重點是機器學習演算法的介紹，可以分為監督學習和無監督學習兩大類。

無監督學習演算法很多，最近幾年業界比較關注主題模型，LSA->PLSA->LDA 為主題模型三個發展階段的典型演算法，它們主要是建模假設條件上存在差異。LSA假設文檔只有一個主題，PLSA 假設各個主題的概率分布不變（theta 都是固定的），LDA 假設每個文檔和詞的主題概率是可變的。

LDA 演算法本質可以藉助上帝擲骰子幫助理解，詳細內容可參加 Rickjin 寫的《 LDA 數據八卦》文章，淺顯易懂，順便也科普了很多數學知識，非常推薦。

監督學習可分為分類和回歸，感知器是最簡單的線性分類器，現在實際應用比較少，但它是神經網路、深度學習的基本單元。

線性函數擬合數據並基於閾值分類時，很容易受雜訊樣本的干擾，影響分類的准確性。邏輯回歸（Logistic Regression）利用 sigmoid 函數將模型輸出約束在 0 到 1 之間，能夠有效弱化雜訊數據的負面影響，被廣泛應用於互聯網廣告點擊率預估。

邏輯回歸模型參數可以通過最大似然求解，首先定義目標函數 L ( theta )，然後 log 處理將目標函數的乘法邏輯轉化為求和邏輯（最大化似然概率 -> 最小化損失函數），最後採用梯度下降求解。

相比於線性分類去，決策樹等非線性分類器具有更強的分類能力，ID3 和 C4.5 是典型的決策樹演算法，建模流程基本相似，兩者主要在增益函數（目標函數）的定義不同。

線性回歸和線性分類在表達形式上是類似的，本質區別是分類的目標函數是離散值，而回歸的目標函數是連續值。目標函數的不同導致回歸通常基於最小二乘定義目標函數，當然，在觀測誤差滿足高斯分布的假設情況下，最小二乘和最大似然可以等價。

當梯度下降求解模型參數時，可以採用 Batch 模式或者 Stochastic 模式，通常而言，Batch 模式准確性更高，Stochastic 模式復雜度更低。

上文已經提到，感知器雖然是最簡單的線性分類器，但是可以視為深度學習的基本單元，模型參數可以由自動編碼（ Auto Encoder ）等方法求解。

深度學習的優勢之一可以理解為特徵抽象，從底層特徵學習獲得高階特徵，描述更為復雜的信息結構。例如，從像素層特徵學習抽象出描述紋理結構的邊緣輪廓特徵，更進一步學習獲得表徵物體局部的更高階特徵。

俗話說三個臭皮匠賽過諸葛亮，無論是線性分類還是深度學習，都是單個模型演算法單打獨斗，有沒有一種集百家之長的方法，將模型處理數據的精度更進一步提升呢？當然，Model Ensembe l就是解決這個問題。Bagging 為方法之一，對於給定數據處理任務，採用不同模型/參數/特徵訓練多組模型參數，最後採用投票或者加權平均的方式輸出最終結果。

Boosting為Model Ensemble 的另外一種方法，其思想為模型每次迭代時通過調整錯誤樣本的損失權重提升對數據樣本整體的處理精度，典型演算法包括 AdaBoost 、GBDT 等。

不同的數據任務場景，可以選擇不同的 Model Ensemble 方法，對於深度學習，可以對隱層節點採用 DropOut 的方法實現類似的效果。

介紹了這么多機器學習基礎演算法，說一說評價模型優劣的基本准則。欠擬合和過擬合是經常出現的兩種情況，簡單的判定方法是比較訓練誤差和測試誤差的關系，當欠擬合時，可以設計更多特徵來提升模型訓練精度，當過擬合時，可以優化特徵量降低模型復雜度來提升模型測試精度。

特徵量是模型復雜度的直觀反映，模型訓練之前設定輸入的特徵量是一種方法，另外一種比較常用的方法是在模型訓練過程中，將特徵參數的正則約束項引入目標函數/損失函數，基於訓練過程篩選優質特徵。

模型調優是一個細致活，最終還是需要能夠對實際場景給出可靠的預測結果，解決實際問題。期待學以致用！作者曉惑本文轉自阿里技術，轉載需授權

導航:首頁 > 源碼編譯 > 每天五分鍾玩轉機器學習演算法

每天五分鍾玩轉機器學習演算法

與每天五分鍾玩轉機器學習演算法相關的資料