演算法在游戲數據分析實踐中的應用_數據挖掘有哪些典型的應用和演算法

① 數據挖掘有哪些典型的應用和演算法

C4.5

C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進：

1) 用信息增益率來選擇屬性，克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足；
2) 在樹構造過程中進行剪枝；
3) 能夠完成對連續屬性的離散化處理；
4) 能夠對不完整數據進行處理。

C4.5演算法有如下優點：產生的分類規則易於理解，准確率較高。其缺點是：在構造樹的過程中，需要對數據集進行多次的順序掃描和排序，因而導致演算法的低效。

2. The k-means algorithm 即K-Means演算法

k-means algorithm演算法是一個聚類演算法，把n的對象根據他們的屬性分為k個分割，k < n。它與處理混合正態分布的最大期望演算法很相似，因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自於空間向量，並且目標是使各個群組內部的均方誤差總和最小。

3. Support vector machines

支持向量機，英文為Support Vector Machine，簡稱SV機（論文中一般簡稱SVM）。它是一種監督式學習的方法，它廣泛的應用於統計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里，在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。

4. The Apriori algorithm

Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里，所有支持度大於最小支持度的項集稱為頻繁項集，簡稱頻集。

5. 最大期望(EM)演算法

在統計計算中，最大期望（EM，Expectation–Maximization）演算法是在概率（probabilistic）模型中尋找參數最大似然估計的演算法，其中概率模型依賴於無法觀測的隱藏變數（Latent Variabl）。最大期望經常用在機器學習和計算機視覺的數據集聚（Data Clustering）領域。

6. PageRank

PageRank是Google演算法的重要內容。2001年9月被授予美國專利，專利人是Google創始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指網頁，而是指佩奇，即這個等級方法是以佩奇來命名的。

PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背後的概念是，每個到頁面的鏈接都是對該頁面的一次投票，被鏈接的越多，就意味著被其他網站投票越多。這個就是所謂的「鏈接流行度」——衡量多少人願意將他們的網站和你的網站掛鉤。PageRank這個概念引自學術中一篇論文的被引述的頻度——即被別人引述的次數越多，一般判斷這篇論文的權威性就越高。

7. AdaBoost

Adaboost是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器 (強分類器)。其演算法本身是通過改變數據分布來實現的，它根據每次訓練集之中每個樣本的分類是否正確，以及上次的總體分類的准確率，來確定每個樣本的權值。將修改過權值的新數據集送給下層分類器進行訓練，最後將每次訓練得到的分類器最後融合起來，作為最後的決策分類器。

8. kNN: k-nearest neighbor classification

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

9. Naive Bayes

在眾多的分類模型中，應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBC）。樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率。同時，NBC模型所需估計的參數很少，對缺失數據不太敏感，演算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此，這是因為NBC模型假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時，NBC模型的性能最為良好。

10. CART: 分類與回歸樹

CART, Classification and Regression Trees。在分類樹下面有兩個關鍵的思想。第一個是關於遞歸地劃分自變數空間的想法；第二個想法是用驗證數據進行剪枝。

② 數據結構和演算法在實際的軟體開發中都有哪些

應用太多了。

基本上來說C#是基於面向對象語言，你所定義的所有類/結構體都算是數據結構，而且在.net類庫中已經定義中諸多可用的類型以供使用。實際開發中根本就離不開結構與演算法。

題主之所以有這樣的問題，基本上認識到了很多程序員易犯的一個毛病——理論知識與實際應用中的脫節問題，不少程序員都說自己寫程序用不上理論知識，或者是理論無用。我一直認為理論才是真正編程的指導，別說你所學的理論知識了，有時我們必須遵守一些軟體活動上的標准/規范/規定。比如ISO29500標准有多少程序員讀過或聽說過？他實事就是關於openxml的一個國際標准，我們要想達到通用的程序，這些標准還是讀一讀的好。

扯回你的問題，什麼是數據結構，什麼是演算法？如果你真的狹義理由數據結構，或者只是從課本上例子來說，數據結構被定義成一個只有屬性成員的類或結構體才算是數據結構嗎？事實上並不是，那麼是不是只有鏈表/棧/隊列才算是數據結構呢？可以說這是某些人狹義理解數據結構時的一種常規定勢思維，但事實上來說，類或結構是數據結構的基本，否則你鏈表存在的實體到底是什麼東西？所以數據結構包含著基本結構與狹義上的順序表/鏈表/棧/隊等存在實體的集體。為什麼我說數據結構在實際運用中廣泛體現呢？就數據結構而言，課本上只是為了講明白結構而已，弱化了其中實體的真正含義，而且不語言的具體實現亦不盡相同，所以他們所講的數據結構是基本理論的。

我來個例子：鏈表（C#語言）

publicclassMember
{
publicstringName{get;set;}
publicstringResponsibility{get;set;}
publicstringPosotion{get;set;}
}

publicclassMemberNode
{
publicMemberMember{get;set;}
publicMemberNext{get;set;}
}

//Node其他就是鏈表中的一個結點結構，這個結點結構除了指明當前的Member之下還指向下Next的下一個結構結構，它最終可以形成一個鏈表。這就是定義的一個鏈表。

從以上例子上你可以看出這是一個類似於課本的標準定義，但事實上在C#語法中存在泛型的特點，那麼這類似的結構我們不須要一個個地定義了！所以在不同的語言中為了方便編程者，我們甚至可以把這樣的結構進行簡單化，從而達到一種最簡單的使用方式。以C#為例，我們可以使用Node<T>來表示鏈表/List<T>表示順序表/Stack<T>表旅亮絕示棧/Queue<T>表示隊列，在這種情況下，我們只需要定義我們的泛型即可，結構鏈之類的本身使用泛型已經在類庫中實現了——雖然你不用定義，但不代表不使用或者不用理解這其中的知識。而在課本講理論的時候，他不可能附帶泛型來講的，所以很多人認為自己去定義數據結構才行，那才是「真正」的數據結構，其實不然。以鏈表為例，我們需要一個節點除了其實體意義之外，還存在指向下一結點的指針（其實是地址引用）才算是數據結構。根據課本，他們必須這么定義（C#）：

publicclassMemberNode
{
publicstringName{get;set;}
publicstringResponsibility{get;set;}
publicstringPosition{get;set;}

publicMemberNodeNext{get;set;}
}
//死讀書的只會承認這種才是真正的數據結構吧（鏈表節點）

事實上，鏈表講的只是一種形式，能最終形成的一種組織數據結構的形式。這個代碼會導致我們出現一種極大的誤解——每個類型的結構都需要重新定義一次。如果有多個類型結構的話，我們會出現多個不同的定義，這會導致將來類的定義越來越多，對於維護上來說是比較麻煩的。由於設計模式/面向切片等各種開發方式的介入，我們會使用相對比較簡單的形式。所以才會有我定義兩個類的進步，而後可以出現泛型的更進一步。

你可以這樣理解，這種課本上的結構，會導致我們造成每種拆姿結構基本上都需要重新定義一次，我最開始給出的例子鍵昌可以使用繼承的方式，實現某個基類的數據結構（下面的似乎也行，但在使用中可能會出現部分問題），而Node<T>則從根本上解決了這個問題，可以支撐多種類型。

所以此時在理解數據結構時，比如Node<T>，他不旦要求理解鏈表的節點，還要理解T泛型，那麼在數據結構上來說，它指的不再是單一的節點結構，還在包括一個基礎的類型。

換句話來說，你在C#等語言中已經不需要再做類似的定義了，只需要定義其基本結構類型即可。但課本上在講知識的時候，它不可能只針對面向對象或支持泛型的語言來講，若不支持泛型時，我們必須使用課本上或我最開始寫的例子中的形式，若不支持繼承的面向過程語言，那麼課本上的知識就是硬性的規定，你必須以這種形式來說，而引用則使用指針引用的方式（面向對象的引用其實是一種引用型引用，也就是址引用或稱地址引用，與指針類似）。

相信講到這里你能明白，數據結構在不同的語言中只是變了個形而已，並不是必須是存在指針的才是，也不是只說表面上的那點東西。早期教程都是以fortain語言為主的，而且課本的目的是講清道理，而不是一種規定。死讀書的人以為用不到數據結構，其實他們一直在使用。

再來說一下演算法，演算法是什麼？是解決問題的一種模式，比如解二元一次方程等等，所以演算法的定義其實已經告訴你，順序代碼他也算是一種演算法，不能說只有背包問題，八皇後問題，回溯問題才算是演算法——你能明白嗎？其實你正常寫的就是一種演算法，這種演算法簡單，就是順序執行下來就可以了，他也是一種演算法的，就算解二元一次方程組有固定的模式（演算法），但不代表加減法就不是演算法了！所以演算法也是常用的東西，那麼你學習的演算法其實算是開辟思路的一種而已。演算法自身的概念已經決定，基本上程序都是由結構與演算法構成。我也來舉個例子，怎麼判斷某個鏈表是否為循環鏈表？是你的回溯演算法，貪心演算法還是背包演算法？它們只是在解決一些典型問題的一種通用方式而已，很顯然，我的問題不是這種典型問題，但不代表他不典型，我們正常的演算法是設計兩個變數等於頭元素，然後開始進入循環，一個變數每次向下推一，即找到他下一個節點，而另一個變數每次找到其孫節點，就算當於兩個變數一個每次向下推進一次，而另一個每點推進兩次（如果可能），如果不是循環鏈表，則進兩次的那個會在鏈表總長度的一半時，遇到空引用，否則會在某一時間兩指針引用同一對象（不是對象相等，而是引用相同的對象），什麼意思呢，好象兩個人在圓型跑道上跑步，一個每秒1米，另一個每秒2米，同時同地同向出發，最歸跑得快的那個會追上跑得慢的那個！當然這種情況下你也可以給他起個名字，叫「追及演算法」？如果只有你學的那幾個典型演算法是演算法的話，這個算不算演算法？

現在我們的問題是，如果語言層面上已經實現了這些東西，那麼這些理論我們是否可以不用理解就可以了？答案是可以——如果你只是一個不思進取的程序員或允許bug亂飛的沒有責任心的編程人員的話，可以不用理解——畢竟有些人只是「混」飯吃而已！

理解了不會去應用，這就是典型的理論聯系不到實際，他們也不知道自己的代碼將如何控制。我舉一個例子，由於性能等各方面的要求，我們要使用多線程對某些數據進行處理。怎麼處理？不好人會使用多線程——他們定義一個臨界資源，然後讓多個線程在讀取數據表(DataSet)時進行阻塞，然後每個線程去處理那些超時長的問題，處理完的時個再按這種方式讀取數據——這樣有問題嗎？沒有，這也算是演算法的一種！反正如果編程代碼有功底的話沒有任何問題的，這種代碼算不算優雅呢——很多人認為代碼的優雅就是代碼編寫過程的形式或是良好的編程習慣！這里邊其實用不到數據結構與演算法的。

好吧，我承認，但如果我們換一句思路來看看，如果我用一個線程負責讀取數據，並不停地放入到一個隊列中，而多個線程從隊列中不停地讀取處理這些放入的數據，這樣如何？我的意思是說，並沒有直接在DataSet中處理，而是選擇使用隊列的方式。

我們看一個問題，這個隊列Queue<T>，一個線程用來插入數據，多個線程用來讀取數據，而且要保證不能重復，那麼我們可以使用隊列的安全版本（CorrentQueue<T>,在.net中如果非線程安全的情況下，多線程使用實應該找到其對應的安全版本或者控制線程安全)。

插入線程如果發現隊列中的長度（容量）較大時，可以暫緩插入。這樣可以保證隊列的長度基本固定，佔用內存得到控制（不是DataSet批量讀來一大堆），由於使用安全隊列，所以各線程不用考慮線程之間的安全問題，每個線程從隊中獲得數據並刪除，可以保證數據只被處理一次。當然還可以考慮優雅的通知機制，插入線程在插入數據時通知處理線程啟動，如果插入速度過快，發現插入數量達指定的長度（比如30個），停止插入，插入線程阻塞；處理處理再次處理時可通知插入線程再進行插入。

這也算是一種演算法吧？它可以讓插入線程與處理線程同時工作，而使用DataSet那種常規的結果時，只能是等待處理完或加入多個控制條件進行控制，既然這么控制的話，何不直接使用隊列的方式？CorrentQueue<T>中的T也完全可以是一條記錄DataRow嘛！

如果你認為第一種是你經常使用方式，那麼演算法對於你來說學與不學無所謂的，你必須使用自己的編程/調試功底以保證你的代碼盡量很少出錯或不出錯。而如果你認為第二種方案優雅一些的話，那麼你會認為你學習的演算法與結構還是有用的，理論與實踐結合了。

我之所以舉這么一個例子，其實告訴你的無非是幾點非常重要的信息：

你有選擇演算法的自由（只不過是代碼質量、後期維護的問題）
如果你知道的較多的演算法與結構，你會有更多的選擇。
演算法或結構在實際使用中，所謂的典型問題並不是使用場景和書上描述一模一樣（試想一下，我第二種考慮的例子中，是不是跟書上比他不典型？其實也是非常典型的）
分析問題時，應該拿要點，而不是整體去套。（如果整體去套用的話，你肯定會想不到使用哪種結構或演算法）
不管是數據結構/演算法/設計模式都要求是靈活運用，而不是場景對比使用，也不是生搬硬套。

試想一下，你的背包問題，怎麼可能公司也讓你分拆包裝？你的八皇後問題公司恰好讓你下棋？你的貪心演算法公司恰好讓你找零錢？你的回溯演算法公司恰好讓你走迷宮？學不能致用的原因就是太死板——這幾個舉個例子的場景你再遇到或理能遇到的機率是非常小的，所以如果覺得學了沒用，那就真沒用了——只不過不是演算法沒用，而是人沒人！

講個小故事：從前一個家人的板凳壞了，要找一個合適的兩股叉的樹杈重新製做一個板凳腿，讓孩子到樹園里找了半天，孩子回來說「我都沒見過有向下叉的樹杈！他老爹氣得要死——怎麼會可能有向下長的樹杈呢！這孩子是不是笨——你就不會把地刨了找一個向下分叉的樹根！

演算法也是一樣，迷宮找路可以使用回溯演算法，但不是所有的回溯演算法都用於迷宮找路——它還可以用來設計迷宮！嘿嘿嘿！

導航:首頁 > 源碼編譯 > 演算法在游戲數據分析實踐中的應用

演算法在游戲數據分析實踐中的應用

與演算法在游戲數據分析實踐中的應用相關的資料