演算法學習論壇_干貨 | 基礎機器學習演算法

1. 深度學習 python怎麼入門知乎

自學深度學習是一個漫長而艱巨的過程。您需要有很強的線性代數和微積分背景，良好的Python編程技能，並扎實掌握數據科學、機器學習和數據工程。即便如此，在你開始將深度學習應用於現實世界的問題，並有可能找到一份深度學習工程師的工作之前，你可能需要一年多的學習和實踐。然而，知道從哪裡開始，對軟化學習曲線有很大幫助。如果我必須重新學習Python的深度學習，我會從Andrew Trask寫的Grokking deep learning開始。大多數關於深度學習的書籍都要求具備機器學習概念和演算法的基本知識。除了基本的數學和編程技能之外，Trask的書不需要任何先決條件就能教你深度學習的基礎知識。這本書不會讓你成為一個深度學習的向導(它也沒有做這樣的聲明)，但它會讓你走上一條道路，讓你更容易從更高級的書和課程中學習。用Python構建人工神經元
大多數深度學習書籍都是基於一些流行的Python庫，如TensorFlow、PyTorch或Keras。相比之下，《運用深度學習》（Grokking Deep Learning）通過從零開始、一行一行地構建內容來教你進行深度學習。

《運用深度學習》
你首先要開發一個人工神經元，這是深度學習的最基本元素。查斯克將帶領您了解線性變換的基本知識，這是由人工神經元完成的主要計算。然後用普通的Python代碼實現人工神經元，無需使用任何特殊的庫。
這不是進行深度學習的最有效方式，因為Python有許多庫，它們利用計算機的圖形卡和CPU的並行處理能力來加速計算。但是用普通的Python編寫一切對於學習深度學習的來龍去是非常好的。
在Grokking深度學習中，你的第一個人工神經元只接受一個輸入，將其乘以一個隨機權重，然後做出預測。然後測量預測誤差，並應用梯度下降法在正確的方向上調整神經元的權重。有了單個神經元、單個輸入和單個輸出，理解和實現這個概念變得非常容易。您將逐漸增加模型的復雜性，使用多個輸入維度、預測多個輸出、應用批處理學習、調整學習速率等等。
您將通過逐步添加和修改前面章節中編寫的Python代碼來實現每個新概念，逐步創建用於進行預測、計算錯誤、應用糾正等的函數列表。當您從標量計算轉移到向量計算時，您將從普通的Python操作轉移到Numpy，這是一個特別擅長並行計算的庫，在機器學習和深度學習社區中非常流行。
Python的深度神經網路
有了這些人造神經元的基本構造塊，你就可以開始創建深層神經網路，這基本上就是你將幾層人造神經元疊放在一起時得到的結果。
當您創建深度神經網路時，您將了解激活函數，並應用它們打破堆疊層的線性並創建分類輸出。同樣，您將在Numpy函數的幫助下自己實現所有功能。您還將學習計算梯度和傳播錯誤通過層傳播校正跨不同的神經元。

隨著您越來越熟悉深度學習的基礎知識，您將學習並實現更高級的概念。這本書的特點是一些流行的正規化技術，如早期停止和退出。您還將獲得自己版本的卷積神經網路(CNN)和循環神經網路(RNN)。
在本書結束時，您將把所有內容打包到一個完整的Python深度學習庫中，創建自己的層次結構類、激活函數和神經網路體系結構(在這一部分，您將需要面向對象的編程技能)。如果您已經使用過Keras和PyTorch等其他Python庫，那麼您會發現最終的體系結構非常熟悉。如果您沒有，您將在將來更容易地適應這些庫。
在整本書中，查斯克提醒你熟能生巧;他鼓勵你用心編寫自己的神經網路，而不是復制粘貼任何東西。
代碼庫有點麻煩
並不是所有關於Grokking深度學習的東西都是完美的。在之前的一篇文章中，我說過定義一本好書的主要內容之一就是代碼庫。在這方面，查斯克本可以做得更好。
在GitHub的Grokking深度學習庫中，每一章都有豐富的jupiter Notebook文件。jupiter Notebook是一個學習Python機器學習和深度學習的優秀工具。然而，jupiter的優勢在於將代碼分解為幾個可以獨立執行和測試的小單元。Grokking深度學習的一些筆記本是由非常大的單元格組成的，其中包含大量未注釋的代碼。

這在後面的章節中會變得尤其困難，因為代碼會變得更長更復雜，在筆記本中尋找自己的方法會變得非常乏味。作為一個原則問題，教育材料的代碼應該被分解成小單元格，並在關鍵區域包含注釋。
此外，Trask在Python 2.7中編寫了這些代碼。雖然他已經確保了代碼在Python 3中也能順暢地工作，但它包含了已經被Python開發人員棄用的舊編碼技術(例如使用「for i in range(len(array))」範式在數組上迭代)。
更廣闊的人工智慧圖景
Trask已經完成了一項偉大的工作，它匯集了一本書，既可以為初學者，也可以為有經驗的Python深度學習開發人員填補他們的知識空白。
但正如泰溫·蘭尼斯特(Tywin Lannister)所說(每個工程師都會同意)，「每個任務都有一個工具，每個工具都有一個任務。」深度學習並不是一根可以解決所有人工智慧問題的魔杖。事實上，對於許多問題，更簡單的機器學習演算法，如線性回歸和決策樹，將表現得和深度學習一樣好，而對於其他問題，基於規則的技術，如正則表達式和幾個if-else子句，將優於兩者。

關鍵是，你需要一整套工具和技術來解決AI問題。希望Grokking深度學習能夠幫助你開始獲取這些工具。
你要去哪裡?我當然建議選擇一本關於Python深度學習的深度書籍，比如PyTorch的深度學習或Python的深度學習。你還應該加深你對其他機器學習演算法和技術的了解。我最喜歡的兩本書是《動手機器學習》和《Python機器學習》。
你也可以通過瀏覽機器學習和深度學習論壇，如r/MachineLearning和r/deeplearning subreddits，人工智慧和深度學習Facebook組，或通過在Twitter上關注人工智慧研究人員來獲取大量知識。
AI的世界是巨大的，並且在快速擴張，還有很多東西需要學習。如果這是你關於深度學習的第一本書，那麼這是一個神奇旅程的開始。

2. 演算法難學么

真正的演算法學習起來，存在一定的難度的，堅持很重要，畢竟裡面的東西的學習，需要耐心去看不能只是三分鍾的熱度基本學不會，畢竟演算法的學習需要注意力高度集中，不停的燒腦學習。不適合學習一段時間就輕易放棄的人，所以沒點毅力根本就學不好演算法，更加談不上學習編程了。
以上資料僅供參考。

3. 數據挖掘十大演算法-

整理里一晚上的數據挖掘演算法，其中主要引自wiki和一些論壇。發布到上作為知識共享，但是發現Latex的公式轉碼到網頁的時候出現了丟失，暫時沒找到解決方法，有空再回來填坑了。

——編者按

一、 C4.5

C4.5演算法是由Ross Quinlan開發的用於產生決策樹的演算法[1]，該演算法是對Ross Quinlan之前開發的ID3演算法的一個擴展。C4.5演算法主要應用於統計分類中，主要是通過分析數據的信息熵建立和修剪決策樹。

1.1 決策樹的建立規則

在樹的每個節點處，C4.5選擇最有效地方式對樣本集進行分裂，分裂規則是分析所有屬性的歸一化的信息增益率，選擇其中增益率最高的屬性作為分裂依據，然後在各個分裂出的子集上進行遞歸操作。

依據屬性A對數據集D進行分類的信息熵可以定義如下：

劃分前後的信息增益可以表示為：

那麼，歸一化的信息增益率可以表示為：

1.2 決策樹的修剪方法

C4.5採用的剪枝方法是悲觀剪枝法(Pessimistic Error Pruning，PEP)，根據樣本集計運算元樹與葉子的經驗錯誤率，在滿足替換標准時，使用葉子節點替換子樹。

不妨用K表示訓練數據集D中分類到某一個葉子節點的樣本數，其中其中錯誤分類的個數為J，由於用估計該節點的樣本錯誤率存在一定的樣本誤差，因此用表示修正後的樣本錯誤率。那麼，對於決策樹的一個子樹S而言，設其葉子數目為L(S)，則子樹S的錯誤分類數為：

設數據集的樣本總數為Num，則標准錯誤可以表示為：

那麼，用表示新葉子的錯誤分類數，則選擇使用新葉子節點替換子樹S的判據可以表示為：

二、KNN

最近鄰域演算法(k-nearest neighbor classification, KNN)[2]是一種用於分類和回歸的非參數統計方法。KNN演算法採用向量空間模型來分類，主要思路是相同類別的案例彼此之間的相似度高，從而可以藉由計算未知樣本與已知類別案例之間的相似度，來實現分類目標。KNN是一種基於局部近似和的實例的學習方法，是目前最簡單的機器學習演算法之一。

在分類問題中，KNN的輸出是一個分類族群，它的對象的分類是由其鄰居的「多數表決」確定的，k個最近鄰居（k為正整數，通常較小）中最常見的分類決定了賦予該對象的類別。若k = 1，則該對象的類別直接由最近的一個節點賦予。在回歸問題中，KNN的輸出是其周圍k個鄰居的平均值。無論是分類還是回歸，衡量鄰居的權重都非常重要，目標是要使較近鄰居的權重比較遠鄰居的權重大，例如，一種常見的加權方案是給每個鄰居權重賦值為1/d，其中d是到鄰居的距離。這也就自然地導致了KNN演算法對於數據的局部結構過於敏感。

三、Naive Bayes

在機器學習的眾多分類模型中，應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model，NBC)[3]。樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率。同時，NBC模型所需估計的參數很少，對缺失數據不太敏感，演算法也比較簡單。

在假設各個屬性相互獨立的條件下，NBC模型的分類公式可以簡單地表示為：

但是實際上問題模型的屬性之間往往是非獨立的，這給NBC模型的分類准確度帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型；而在屬性相關性較小時，NBC模型的性能最為良好。

四、CART

CART演算法(Classification And Regression Tree)[4]是一種二分遞歸的決策樹，把當前樣本劃分為兩個子樣本，使得生成的每個非葉子結點都有兩個分支，因此CART演算法生成的決策樹是結構簡潔的二叉樹。由於CART演算法構成的是一個二叉樹，它在每一步的決策時只能是「是」或者「否」，即使一個feature有多個取值，也是把數據分為兩部分。在CART演算法中主要分為兩個步驟：將樣本遞歸劃分進行建樹過程；用驗證數據進行剪枝。

五、K-means

k-平均演算法(k-means clustering)[5]是源於信號處理中的一種向量量化方法，現在則更多地作為一種聚類分析方法流行於數據挖掘領域。k-means的聚類目標是：把n個點（可以是樣本的一次觀察或一個實例）劃分到k個聚類中，使得每個點都屬於離他最近的均值（此即聚類中心）對應的聚類。

5.1 k-means的初始化方法

通常使用的初始化方法有Forgy和隨機劃分(Random Partition)方法。Forgy方法隨機地從數據集中選擇k個觀測作為初始的均值點；而隨機劃分方法則隨機地為每一觀測指定聚類，然後執行「更新」步驟,即計算隨機分配的各聚類的圖心，作為初始的均值點。Forgy方法易於使得初始均值點散開，隨機劃分方法則把均值點都放到靠近數據集中心的地方；隨機劃分方法一般更適用於k-調和均值和模糊k-均值演算法。對於期望-最大化(EM)演算法和標准k-means演算法，Forgy方法作為初始化方法的表現會更好一些。

5.2 k-means的標准演算法

k-means的標准演算法主要包括分配(Assignment)和更新(Update)，在初始化得出k個均值點後，演算法將會在這兩個步驟中交替執行。

分配(Assignment)：將每個觀測分配到聚類中，使得組內平方和達到最小。

更新(Update)：對於上一步得到的每一個聚類，以聚類中觀測值的圖心，作為新的均值點。

六、Apriori

Apriori演算法[6]是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法，其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。Apriori採用自底向上的處理方法，每次只擴展一個對象加入候選集，並且使用數據集對候選集進行檢驗，當不再產生匹配條件的擴展對象時，演算法終止。

Apriori的缺點在於生成候選集的過程中，演算法總是嘗試掃描整個數據集並盡可能多地添加擴展對象，導致計算效率較低；其本質上採用的是寬度優先的遍歷方式，理論上需要遍歷次才可以確定任意的最大子集S。

七、SVM

支持向量機(Support Vector Machine, SVM)[7]是在分類與回歸分析中分析數據的監督式學習模型與相關的學習演算法。給定一組訓練實例，每個訓練實例被標記為屬於兩個類別中的一個或另一個，SVM訓練演算法創建一個將新的實例分配給兩個類別之一的模型，使其成為非概率二元線性分類器。SVM模型是將實例表示為空間中的點，這樣映射就使得單獨類別的實例被盡可能寬的明顯的間隔分開。然後，將新的實例映射到同一空間，並基於它們落在間隔的哪一側來預測所屬類別。

除了進行線性分類之外，SVM還可以使用所謂的核技巧有效地進行非線性分類，將其輸入隱式映射到高維特徵空間中，即支持向量機在高維或無限維空間中構造超平面或超平面集合，用於分類、回歸或其他任務。直觀來說，分類邊界距離最近的訓練數據點越遠越好，因為這樣可以縮小分類器的泛化誤差。

八、EM

最大期望演算法(Expectation–Maximization Algorithm, EM)[7]是從概率模型中尋找參數最大似然估計的一種演算法。其中概率模型依賴於無法觀測的隱性變數。最大期望演算法經常用在機器學習和計算機視覺的數據聚類（Data Clustering）領域。最大期望演算法經過兩個步驟交替進行計算，第一步是計算期望(E)，利用對隱藏變數的現有估計值，計算其最大似然估計值；第二步是最大化(M)，最大化在E步上求得的最大似然值來計算參數的值。M步上找到的參數估計值被用於下一個E步計算中，這個過程不斷交替進行。

九、PageRank

PageRank演算法設計初衷是根據網站的外部鏈接和內部鏈接的數量和質量對網站的價值進行衡量。PageRank將每個到網頁的鏈接作為對該頁面的一次投票，被鏈接的越多，就意味著被其他網站投票越多。

演算法假設上網者將會不斷點網頁上的鏈接，當遇到了一個沒有任何鏈接出頁面的網頁，這時候上網者會隨機轉到另外的網頁開始瀏覽。設置在任意時刻，用戶到達某頁面後並繼續向後瀏覽的概率，該數值是根據上網者使用瀏覽器書簽的平均頻率估算而得。PageRank值可以表示為：

其中，是被研究的頁面集合，N表示頁面總數，是鏈接入頁面的集合，是從頁面鏈接處的集合。

PageRank演算法的主要缺點是的主要缺點是舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多外鏈，除非它是某個站點的子站點。

十、AdaBoost

AdaBoost方法[10]是一種迭代演算法，在每一輪中加入一個新的弱分類器，直到達到某個預定的足夠小的錯誤率。每一個訓練樣本都被賦予一個權重，表明它被某個分類器選入訓練集的概率。如果某個樣本點已經被准確地分類，那麼在構造下一個訓練集中，它被選中的概率就被降低；相反，如果某個樣本點沒有被准確地分類，那麼它的權重就得到提高。通過這樣的方式，AdaBoost方法能「聚焦於」那些較難分的樣本上。在具體實現上，最初令每個樣本的權重都相等，對於第k次迭代操作，我們就根據這些權重來選取樣本點，進而訓練分類器Ck。然後就根據這個分類器，來提高被它分錯的的樣本的權重，並降低被正確分類的樣本權重。然後，權重更新過的樣本集被用於訓練下一個分類器Ck[，並且如此迭代地進行下去。

AdaBoost方法的自適應在於：前一個分類器分錯的樣本會被用來訓練下一個分類器。AdaBoost方法對於雜訊數據和異常數據很敏感。但在一些問題中，AdaBoost方法相對於大多數其它學習演算法而言，不會很容易出現過擬合現象。AdaBoost方法中使用的分類器可能很弱（比如出現很大錯誤率），但只要它的分類效果比隨機好一點（比如兩類問題分類錯誤率略小於0.5），就能夠改善最終得到的模型。而錯誤率高於隨機分類器的弱分類器也是有用的，因為在最終得到的多個分類器的線性組合中，可以給它們賦予負系數，同樣也能提升分類效果。

引用

[1] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

[2] Altman, N. S. An introction to kernel and nearest-neighbor nonparametric regression. The American Statistician. 1992, 46 (3): 175–185. doi:10.1080/00031305.1992.10475879

[3] Webb, G. I.; Boughton, J.; Wang, Z. Not So Naive Bayes: Aggregating One-Dependence Estimators. Machine Learning (Springer). 2005, 58 (1): 5–24. doi:10.1007/s10994-005-4258-6

[4] decisiontrees.net Interactive Tutorial

[5] Hamerly, G. and Elkan, C. Alternatives to the k-means algorithm that find better clusterings (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM). 2002

[6] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487-499, Santiago, Chile, September 1994.

[7] Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning. 1995, 20 (3): 273–297. doi:10.1007/BF00994018

[8] Arthur Dempster, Nan Laird, and Donald Rubin. "Maximum likelihood from incomplete data via the EM algorithm". Journal of the Royal Statistical Society, Series B, 39 (1):1–38, 1977

[9] Susan Moskwa. PageRank Distribution Removed From WMT. [October 16, 2009]

[10] Freund, Yoav; Schapire, Robert E. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting. 1995. CiteSeerX: 10.1.1.56.9855

4. 方法不對，看再多書你都學不會演算法

在計算機科學中，演算法通常是指一個解決問題的小程序。演算法是程序的基本組成部分，如果你想讓你的程序能夠解決一切問題，你必須懂演算法，這就是為什麼演算法在計算機編程中如此重要的原因。

如果你是一名初學者，你就必須從基礎開始，從理解演算法背後的基本概念開始，然後自己一個個地實現它們，在本文中，將和大家分享幾種最適合初學的演算法學習方法，不要再只會死讀演算法書啦，這樣你永遠都學不好演算法

1、閱讀書籍

毋庸置疑，書籍是學習一切知識的最好資源，它不僅能讓你詳細和准確地了解演算法，還能幫助你按照自己的節奏學習，拿一本關於演算法的好書，試著理解演算法背後的理論概念。之後再去程序中實現演算法。如果你失敗了，別擔心，書就在那裡，再看一遍演算法，再試著重新理解它，然後在程序里重新實現它。

關於演算法的書籍，之前也推薦過很多了，其實演算法相關的書籍有很多，經典的就那幾本，把它們都啃透了，技術自然更上一層樓，諸如：

2、在線課程

網上有很多很好的課程，比如你可以學習Coursera提供的演算法課程。你也可以上Udemy的課程。他們提供了許多來自著名導師的演算法課程

此外麻省理工學院(MIT)、哈佛大學(Harvard)和斯坦福大學(Stanford University)的課程也可以看看，他們的許多課程都是提供自學的。

3、視頻教程

視頻教程是理解和實現特定演算法的很好的資源。你可以在一些視頻網站上（如Youtube）搜索視頻教程，幾乎每種演算法都有大量的教程。你可以先看一段視頻來理解這個演算法，然後再實現它。

4、解決問題

用演算法解決問題是理解和學習演算法的最好方法。如果你用演算法來解決實際問題，你會對演算法有一個深刻的理解，當你用不同的演算法解決不同問題時，你就可以很好的掌握它們，你可以在網上找到許多演算法問題。首先，瀏覽一遍問題描述，並嘗試找出解決問題所需的演算法。嘗試使用不同的演算法來解決相同的問題。例如，你可以同時使用BFS和DFS遍歷一個圖。

你還可以去UVA、A2oJ、SPOJ和Timus這樣的在線測評網站刷題

5、編程競賽

深入了解演算法的另一個好方法是參加各種在線競賽。它要求你在有限的時間內理解問題並實現演算法，這意味著你必須在短時間內設計出一個演算法解決方案，這將極大地幫助您在實際問題中使用演算法。

codeforce、Hackerrank和Topcoder它們是最流行的競賽編程平台，你可以在上面參加各種競賽。

6、可視化演算法

如果你是那種喜歡用可視化學習的人，那麼你可以通過可視化來學習演算法。有許多在線演算法可視化工具可以幫助你從基礎上理解演算法。

比如你可以通過Algorithm-Visualizer或VisuAlgo這樣的可視化工具。

7、博客站點

可以在internet上閱讀關於各種演算法的博客文章。有很多關於演算法的個人博客，多閱讀你可能會發現它們也很有用。

8、在線論壇上提問

如果你在實現演算法方面遇到了任何問題，你應該在各種在線論壇上具體詢問這個問題，通常會有很多大神願意幫助你解決這個問題。這樣的在線論壇諸如topcode -forum、Quora等。

9、制定學習計劃

熟能生巧，要掌握演算法的藝術，你必須制定一個學習計劃，例如，你可以在一天或一周內解決一個或幾個演算法。簡而言之，無論你做什麼，你都必須要有計劃，盡量有規律。

10、實踐！實踐！實踐！

實踐是檢驗真理的唯一標准，你實踐的越多，就越能理解和學到一些東西，沒經過實踐的方法去學習演算法你是學不會了，就算失敗了也沒關系，堅持再試一次，沒准就成功了

5. 有哪些學習演算法的網站推薦

演算法這個詞聽起來就各種高大上，對於想學習和了解演算法的同學來說，可能不太容易入手，這一次就為大家推薦一些可以學習演算法的網站。

演算法（Algorithm）是指解題方案的准確而完整的描述，是一系列解決問題的清晰指令，演算法代表著用系統的方法描述解決問題的策略機制。

馬克威演算法交易平台也十分值得推薦，專為從事演算法相關者學習的網站，現在免費即可在線學習，下載，體驗等，平台還包含全球知名開源演算法、分析工具、行業模型等。

其實這一類型的網站，還是很多的，大家還是要看自己想要學習演算法的哪一方面，哪種難度，哪種學習方式，再從中選擇適合自己的。

6. 干貨 | 基礎機器學習演算法

本篇內容主要是面向機器學習初學者,介紹常見的機器學習演算法，當然,歡迎同行交流。

哲學要回答的基本問題是從哪裡來、我是誰、到哪裡去，尋找答案的過程或許可以借鑒機器學習的套路：組織數據->挖掘知識->預測未來。組織數據即為設計特徵，生成滿足特定格式要求的樣本，挖掘知識即建模，而預測未來就是對模型的應用。

特徵設計依賴於對業務場景的理解，可分為連續特徵、離散特徵和組合高階特徵。本篇重點是機器學習演算法的介紹，可以分為監督學習和無監督學習兩大類。

無監督學習演算法很多，最近幾年業界比較關注主題模型，LSA->PLSA->LDA 為主題模型三個發展階段的典型演算法，它們主要是建模假設條件上存在差異。LSA假設文檔只有一個主題，PLSA 假設各個主題的概率分布不變（theta 都是固定的），LDA 假設每個文檔和詞的主題概率是可變的。

LDA 演算法本質可以藉助上帝擲骰子幫助理解，詳細內容可參加 Rickjin 寫的《 LDA 數據八卦》文章，淺顯易懂，順便也科普了很多數學知識，非常推薦。

監督學習可分為分類和回歸，感知器是最簡單的線性分類器，現在實際應用比較少，但它是神經網路、深度學習的基本單元。

線性函數擬合數據並基於閾值分類時，很容易受雜訊樣本的干擾，影響分類的准確性。邏輯回歸（Logistic Regression）利用 sigmoid 函數將模型輸出約束在 0 到 1 之間，能夠有效弱化雜訊數據的負面影響，被廣泛應用於互聯網廣告點擊率預估。

邏輯回歸模型參數可以通過最大似然求解，首先定義目標函數 L ( theta )，然後 log 處理將目標函數的乘法邏輯轉化為求和邏輯（最大化似然概率 -> 最小化損失函數），最後採用梯度下降求解。

相比於線性分類去，決策樹等非線性分類器具有更強的分類能力，ID3 和 C4.5 是典型的決策樹演算法，建模流程基本相似，兩者主要在增益函數（目標函數）的定義不同。

線性回歸和線性分類在表達形式上是類似的，本質區別是分類的目標函數是離散值，而回歸的目標函數是連續值。目標函數的不同導致回歸通常基於最小二乘定義目標函數，當然，在觀測誤差滿足高斯分布的假設情況下，最小二乘和最大似然可以等價。

當梯度下降求解模型參數時，可以採用 Batch 模式或者 Stochastic 模式，通常而言，Batch 模式准確性更高，Stochastic 模式復雜度更低。

上文已經提到，感知器雖然是最簡單的線性分類器，但是可以視為深度學習的基本單元，模型參數可以由自動編碼（ Auto Encoder ）等方法求解。

深度學習的優勢之一可以理解為特徵抽象，從底層特徵學習獲得高階特徵，描述更為復雜的信息結構。例如，從像素層特徵學習抽象出描述紋理結構的邊緣輪廓特徵，更進一步學習獲得表徵物體局部的更高階特徵。

俗話說三個臭皮匠賽過諸葛亮，無論是線性分類還是深度學習，都是單個模型演算法單打獨斗，有沒有一種集百家之長的方法，將模型處理數據的精度更進一步提升呢？當然，Model Ensembe l就是解決這個問題。Bagging 為方法之一，對於給定數據處理任務，採用不同模型/參數/特徵訓練多組模型參數，最後採用投票或者加權平均的方式輸出最終結果。

Boosting為Model Ensemble 的另外一種方法，其思想為模型每次迭代時通過調整錯誤樣本的損失權重提升對數據樣本整體的處理精度，典型演算法包括 AdaBoost 、GBDT 等。

不同的數據任務場景，可以選擇不同的 Model Ensemble 方法，對於深度學習，可以對隱層節點採用 DropOut 的方法實現類似的效果。

介紹了這么多機器學習基礎演算法，說一說評價模型優劣的基本准則。欠擬合和過擬合是經常出現的兩種情況，簡單的判定方法是比較訓練誤差和測試誤差的關系，當欠擬合時，可以設計更多特徵來提升模型訓練精度，當過擬合時，可以優化特徵量降低模型復雜度來提升模型測試精度。

特徵量是模型復雜度的直觀反映，模型訓練之前設定輸入的特徵量是一種方法，另外一種比較常用的方法是在模型訓練過程中，將特徵參數的正則約束項引入目標函數/損失函數，基於訓練過程篩選優質特徵。

模型調優是一個細致活，最終還是需要能夠對實際場景給出可靠的預測結果，解決實際問題。期待學以致用！作者曉惑本文轉自阿里技術，轉載需授權

7. 在哪裡可以學習演算法求推薦呀

演算法的空間復雜度是指演算法需要消耗的內存空間。其計算和表示方法與時間復雜度類似，一般都用復雜度的漸近性來表示。同時間復雜度相比，空間復雜度的分析要簡單得多。去慕課網吧

導航:首頁 > 源碼編譯 > 演算法學習論壇

演算法學習論壇

與演算法學習論壇相關的資料