算法在游戏数据分析实践中的应用_数据挖掘有哪些典型的应用和算法

① 数据挖掘有哪些典型的应用和算法

C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2) 在树构造过程中进行剪枝；
3) 能够完成对连续属性的离散化处理；
4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

2. The k-means algorithm 即K-Means算法

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

3. Support vector machines

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

4. The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

5. 最大期望(EM)算法

在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。

6. PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

7. AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

8. kNN: k-nearest neighbor classification

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

9. Naive Bayes

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。

10. CART: 分类与回归树

CART, Classification and Regression Trees。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

② 数据结构和算法在实际的软件开发中都有哪些

应用太多了。

基本上来说C#是基于面向对象语言，你所定义的所有类/结构体都算是数据结构，而且在.net类库中已经定义中诸多可用的类型以供使用。实际开发中根本就离不开结构与算法。

题主之所以有这样的问题，基本上认识到了很多程序员易犯的一个毛病——理论知识与实际应用中的脱节问题，不少程序员都说自己写程序用不上理论知识，或者是理论无用。我一直认为理论才是真正编程的指导，别说你所学的理论知识了，有时我们必须遵守一些软件活动上的标准/规范/规定。比如ISO29500标准有多少程序员读过或听说过？他实事就是关于openxml的一个国际标准，我们要想达到通用的程序，这些标准还是读一读的好。

扯回你的问题，什么是数据结构，什么是算法？如果你真的狭义理由数据结构，或者只是从课本上例子来说，数据结构被定义成一个只有属性成员的类或结构体才算是数据结构吗？事实上并不是，那么是不是只有链表/栈/队列才算是数据结构呢？可以说这是某些人狭义理解数据结构时的一种常规定势思维，但事实上来说，类或结构是数据结构的基本，否则你链表存在的实体到底是什么东西？所以数据结构包含着基本结构与狭义上的顺序表/链表/栈/队等存在实体的集体。为什么我说数据结构在实际运用中广泛体现呢？就数据结构而言，课本上只是为了讲明白结构而已，弱化了其中实体的真正含义，而且不语言的具体实现亦不尽相同，所以他们所讲的数据结构是基本理论的。

我来个例子：链表（C#语言）

publicclassMember
{
publicstringName{get;set;}
publicstringResponsibility{get;set;}
publicstringPosotion{get;set;}
}

publicclassMemberNode
{
publicMemberMember{get;set;}
publicMemberNext{get;set;}
}

//Node其他就是链表中的一个结点结构，这个结点结构除了指明当前的Member之下还指向下Next的下一个结构结构，它最终可以形成一个链表。这就是定义的一个链表。

从以上例子上你可以看出这是一个类似于课本的标准定义，但事实上在C#语法中存在泛型的特点，那么这类似的结构我们不须要一个个地定义了！所以在不同的语言中为了方便编程者，我们甚至可以把这样的结构进行简单化，从而达到一种最简单的使用方式。以C#为例，我们可以使用Node<T>来表示链表/List<T>表示顺序表/Stack<T>表旅亮绝示栈/Queue<T>表示队列，在这种情况下，我们只需要定义我们的泛型即可，结构链之类的本身使用泛型已经在类库中实现了——虽然你不用定义，但不代表不使用或者不用理解这其中的知识。而在课本讲理论的时候，他不可能附带泛型来讲的，所以很多人认为自己去定义数据结构才行，那才是“真正”的数据结构，其实不然。以链表为例，我们需要一个节点除了其实体意义之外，还存在指向下一结点的指针（其实是地址引用）才算是数据结构。根据课本，他们必须这么定义（C#）：

publicclassMemberNode
{
publicstringName{get;set;}
publicstringResponsibility{get;set;}
publicstringPosition{get;set;}

publicMemberNodeNext{get;set;}
}
//死读书的只会承认这种才是真正的数据结构吧（链表节点）

事实上，链表讲的只是一种形式，能最终形成的一种组织数据结构的形式。这个代码会导致我们出现一种极大的误解——每个类型的结构都需要重新定义一次。如果有多个类型结构的话，我们会出现多个不同的定义，这会导致将来类的定义越来越多，对于维护上来说是比较麻烦的。由于设计模式/面向切片等各种开发方式的介入，我们会使用相对比较简单的形式。所以才会有我定义两个类的进步，而后可以出现泛型的更进一步。

你可以这样理解，这种课本上的结构，会导致我们造成每种拆姿结构基本上都需要重新定义一次，我最开始给出的例子键昌可以使用继承的方式，实现某个基类的数据结构（下面的似乎也行，但在使用中可能会出现部分问题），而Node<T>则从根本上解决了这个问题，可以支撑多种类型。

所以此时在理解数据结构时，比如Node<T>，他不旦要求理解链表的节点，还要理解T泛型，那么在数据结构上来说，它指的不再是单一的节点结构，还在包括一个基础的类型。

换句话来说，你在C#等语言中已经不需要再做类似的定义了，只需要定义其基本结构类型即可。但课本上在讲知识的时候，它不可能只针对面向对象或支持泛型的语言来讲，若不支持泛型时，我们必须使用课本上或我最开始写的例子中的形式，若不支持继承的面向过程语言，那么课本上的知识就是硬性的规定，你必须以这种形式来说，而引用则使用指针引用的方式（面向对象的引用其实是一种引用型引用，也就是址引用或称地址引用，与指针类似）。

相信讲到这里你能明白，数据结构在不同的语言中只是变了个形而已，并不是必须是存在指针的才是，也不是只说表面上的那点东西。早期教程都是以fortain语言为主的，而且课本的目的是讲清道理，而不是一种规定。死读书的人以为用不到数据结构，其实他们一直在使用。

再来说一下算法，算法是什么？是解决问题的一种模式，比如解二元一次方程等等，所以算法的定义其实已经告诉你，顺序代码他也算是一种算法，不能说只有背包问题，八皇后问题，回溯问题才算是算法——你能明白吗？其实你正常写的就是一种算法，这种算法简单，就是顺序执行下来就可以了，他也是一种算法的，就算解二元一次方程组有固定的模式（算法），但不代表加减法就不是算法了！所以算法也是常用的东西，那么你学习的算法其实算是开辟思路的一种而已。算法自身的概念已经决定，基本上程序都是由结构与算法构成。我也来举个例子，怎么判断某个链表是否为循环链表？是你的回溯算法，贪心算法还是背包算法？它们只是在解决一些典型问题的一种通用方式而已，很显然，我的问题不是这种典型问题，但不代表他不典型，我们正常的算法是设计两个变量等于头元素，然后开始进入循环，一个变量每次向下推一，即找到他下一个节点，而另一个变量每次找到其孙节点，就算当于两个变量一个每次向下推进一次，而另一个每点推进两次（如果可能），如果不是循环链表，则进两次的那个会在链表总长度的一半时，遇到空引用，否则会在某一时间两指针引用同一对象（不是对象相等，而是引用相同的对象），什么意思呢，好象两个人在圆型跑道上跑步，一个每秒1米，另一个每秒2米，同时同地同向出发，最归跑得快的那个会追上跑得慢的那个！当然这种情况下你也可以给他起个名字，叫“追及算法”？如果只有你学的那几个典型算法是算法的话，这个算不算算法？

现在我们的问题是，如果语言层面上已经实现了这些东西，那么这些理论我们是否可以不用理解就可以了？答案是可以——如果你只是一个不思进取的程序员或允许bug乱飞的没有责任心的编程人员的话，可以不用理解——毕竟有些人只是“混”饭吃而已！

理解了不会去应用，这就是典型的理论联系不到实际，他们也不知道自己的代码将如何控制。我举一个例子，由于性能等各方面的要求，我们要使用多线程对某些数据进行处理。怎么处理？不好人会使用多线程——他们定义一个临界资源，然后让多个线程在读取数据表(DataSet)时进行阻塞，然后每个线程去处理那些超时长的问题，处理完的时个再按这种方式读取数据——这样有问题吗？没有，这也算是算法的一种！反正如果编程代码有功底的话没有任何问题的，这种代码算不算优雅呢——很多人认为代码的优雅就是代码编写过程的形式或是良好的编程习惯！这里边其实用不到数据结构与算法的。

好吧，我承认，但如果我们换一句思路来看看，如果我用一个线程负责读取数据，并不停地放入到一个队列中，而多个线程从队列中不停地读取处理这些放入的数据，这样如何？我的意思是说，并没有直接在DataSet中处理，而是选择使用队列的方式。

我们看一个问题，这个队列Queue<T>，一个线程用来插入数据，多个线程用来读取数据，而且要保证不能重复，那么我们可以使用队列的安全版本（CorrentQueue<T>,在.net中如果非线程安全的情况下，多线程使用实应该找到其对应的安全版本或者控制线程安全)。

插入线程如果发现队列中的长度（容量）较大时，可以暂缓插入。这样可以保证队列的长度基本固定，占用内存得到控制（不是DataSet批量读来一大堆），由于使用安全队列，所以各线程不用考虑线程之间的安全问题，每个线程从队中获得数据并删除，可以保证数据只被处理一次。当然还可以考虑优雅的通知机制，插入线程在插入数据时通知处理线程启动，如果插入速度过快，发现插入数量达指定的长度（比如30个），停止插入，插入线程阻塞；处理处理再次处理时可通知插入线程再进行插入。

这也算是一种算法吧？它可以让插入线程与处理线程同时工作，而使用DataSet那种常规的结果时，只能是等待处理完或加入多个控制条件进行控制，既然这么控制的话，何不直接使用队列的方式？CorrentQueue<T>中的T也完全可以是一条记录DataRow嘛！

如果你认为第一种是你经常使用方式，那么算法对于你来说学与不学无所谓的，你必须使用自己的编程/调试功底以保证你的代码尽量很少出错或不出错。而如果你认为第二种方案优雅一些的话，那么你会认为你学习的算法与结构还是有用的，理论与实践结合了。

我之所以举这么一个例子，其实告诉你的无非是几点非常重要的信息：

你有选择算法的自由（只不过是代码质量、后期维护的问题）
如果你知道的较多的算法与结构，你会有更多的选择。
算法或结构在实际使用中，所谓的典型问题并不是使用场景和书上描述一模一样（试想一下，我第二种考虑的例子中，是不是跟书上比他不典型？其实也是非常典型的）
分析问题时，应该拿要点，而不是整体去套。（如果整体去套用的话，你肯定会想不到使用哪种结构或算法）
不管是数据结构/算法/设计模式都要求是灵活运用，而不是场景对比使用，也不是生搬硬套。

试想一下，你的背包问题，怎么可能公司也让你分拆包装？你的八皇后问题公司恰好让你下棋？你的贪心算法公司恰好让你找零钱？你的回溯算法公司恰好让你走迷宫？学不能致用的原因就是太死板——这几个举个例子的场景你再遇到或理能遇到的机率是非常小的，所以如果觉得学了没用，那就真没用了——只不过不是算法没用，而是人没人！

讲个小故事：从前一个家人的板凳坏了，要找一个合适的两股叉的树杈重新制做一个板凳腿，让孩子到树园里找了半天，孩子回来说“我都没见过有向下叉的树杈！他老爹气得要死——怎么会可能有向下长的树杈呢！这孩子是不是笨——你就不会把地刨了找一个向下分叉的树根！

算法也是一样，迷宫找路可以使用回溯算法，但不是所有的回溯算法都用于迷宫找路——它还可以用来设计迷宫！嘿嘿嘿！

导航:首页 > 源码编译 > 算法在游戏数据分析实践中的应用

算法在游戏数据分析实践中的应用

与算法在游戏数据分析实践中的应用相关的资料