机器算法分类及缺点_机器学习中算法的优缺点之最近邻算法

❶ 机器学习一般常用的算法有哪些

机器学习是人工智能的核心技术，是学习人工智能必不可少的环节。机器学习中有很多算法，能够解决很多以前难以企的问题，机器学习中涉及到的算法有不少，下面小编就给大家普及一下这些算法。

一、线性回归

一般来说，线性回归是统计学和机器学习中最知名和最易理解的算法之一。这一算法中我们可以用来预测建模，而预测建模主要关注最小化模型误差或者尽可能作出最准确的预测，以可解释性为代价。我们将借用、重用包括统计学在内的很多不同领域的算法，并将其用于这些目的。当然我们可以使用不同的技术从数据中学习线性回归模型，例如用于普通最小二乘法和梯度下降优化的线性代数解。就目前而言，线性回归已经存在了200多年，并得到了广泛研究。使用这种技术的一些经验是尽可能去除非常相似（相关）的变量，并去除噪音。这是一种快速、简单的技术。

二、Logistic 回归

它是解决二分类问题的首选方法。Logistic 回归与线性回归相似，目标都是找到每个输入变量的权重，即系数值。与线性回归不同的是，Logistic 回归对输出的预测使用被称为 logistic 函数的非线性函数进行变换。logistic 函数看起来像一个大的S，并且可以将任何值转换到0到1的区间内。这非常实用，因为我们可以规定logistic函数的输出值是0和1并预测类别值。像线性回归一样，Logistic 回归在删除与输出变量无关的属性以及非常相似的属性时效果更好。它是一个快速的学习模型，并且对于二分类问题非常有效。

三、线性判别分析（LDA）

在前面我们介绍的Logistic 回归是一种分类算法，传统上，它仅限于只有两类的分类问题。而LDA的表示非常简单直接。它由数据的统计属性构成，对每个类别进行计算。单个输入变量的 LDA包括两个，第一就是每个类别的平均值，第二就是所有类别的方差。而在线性判别分析，进行预测的方法是计算每个类别的判别值并对具备最大值的类别进行预测。该技术假设数据呈高斯分布，因此最好预先从数据中删除异常值。这是处理分类预测建模问题的一种简单而强大的方法。

四、决策树

决策树是预测建模机器学习的一种重要算法。决策树模型的表示是一个二叉树。这是算法和数据结构中的二叉树，没什么特别的。每个节点代表一个单独的输入变量x和该变量上的一个分割点。而决策树的叶节点包含一个用于预测的输出变量y。通过遍历该树的分割点，直到到达一个叶节点并输出该节点的类别值就可以作出预测。当然决策树的有点就是决策树学习速度和预测速度都很快。它们还可以解决大量问题，并且不需要对数据做特别准备。

五、朴素贝叶斯

其实朴素贝叶斯是一个简单但是很强大的预测建模算法。而这个模型由两种概率组成，这两种概率都可以直接从训练数据中计算出来。第一种就是每个类别的概率，第二种就是给定每个 x 的值，每个类别的条件概率。一旦计算出来，概率模型可用于使用贝叶斯定理对新数据进行预测。当我们的数据是实值时，通常假设一个高斯分布，这样我们可以简单的估计这些概率。而朴素贝叶斯之所以是朴素的，是因为它假设每个输入变量是独立的。这是一个强大的假设，真实的数据并非如此，但是，该技术在大量复杂问题上非常有用。所以说，朴素贝叶斯是一个十分实用的功能。

六、K近邻算法

K近邻算法简称KNN算法，KNN 算法非常简单且有效。KNN的模型表示是整个训练数据集。KNN算法在整个训练集中搜索K个最相似实例（近邻）并汇总这K个实例的输出变量，以预测新数据点。对于回归问题，这可能是平均输出变量，对于分类问题，这可能是众数类别值。而其中的诀窍在于如何确定数据实例间的相似性。如果属性的度量单位相同，那么最简单的技术是使用欧几里得距离，我们可以根据每个输入变量之间的差值直接计算出来其数值。当然，KNN需要大量内存或空间来存储所有数据，但是只有在需要预测时才执行计算。我们还可以随时更新和管理训练实例，以保持预测的准确性。

七、Boosting 和 AdaBoost

首先，Boosting 是一种集成技术，它试图集成一些弱分类器来创建一个强分类器。这通过从训练数据中构建一个模型，然后创建第二个模型来尝试纠正第一个模型的错误来完成。一直添加模型直到能够完美预测训练集，或添加的模型数量已经达到最大数量。而AdaBoost 是第一个为二分类开发的真正成功的 boosting 算法。这是理解 boosting 的最佳起点。现代 boosting 方法建立在 AdaBoost 之上，最显着的是随机梯度提升。当然，AdaBoost 与短决策树一起使用。在第一个决策树创建之后，利用每个训练实例上树的性能来衡量下一个决策树应该对每个训练实例付出多少注意力。难以预测的训练数据被分配更多权重，而容易预测的数据分配的权重较少。依次创建模型，每一个模型在训练实例上更新权重，影响序列中下一个决策树的学习。在所有决策树建立之后，对新数据进行预测，并且通过每个决策树在训练数据上的精确度评估其性能。所以说，由于在纠正算法错误上投入了太多注意力，所以具备已删除异常值的干净数据十分重要。

八、学习向量量化算法（简称 LVQ）

学习向量量化也是机器学习其中的一个算法。可能大家不知道的是，K近邻算法的一个缺点是我们需要遍历整个训练数据集。学习向量量化算法（简称 LVQ）是一种人工神经网络算法，它允许你选择训练实例的数量，并精确地学习这些实例应该是什么样的。而学习向量量化的表示是码本向量的集合。这些是在开始时随机选择的，并逐渐调整以在学习算法的多次迭代中最好地总结训练数据集。在学习之后，码本向量可用于预测。最相似的近邻通过计算每个码本向量和新数据实例之间的距离找到。然后返回最佳匹配单元的类别值或作为预测。如果大家重新调整数据，使其具有相同的范围，就可以获得最佳结果。当然，如果大家发现KNN在大家数据集上达到很好的结果，请尝试用LVQ减少存储整个训练数据集的内存要求

❷ 机器学习新手必看十大算法

机器学习新手必看十大算法
本文介绍了机器学习新手需要了解的 10 大算法，包括线性回归、Logistic 回归、朴素贝叶斯、K 近邻算法等。
在机器学习中，有一种叫做“没有免费的午餐”的定理。简而言之，它指出没有任何一种算法对所有问题都有效，在监督学习(即预测建模)中尤其如此。
例如，你不能说神经网络总是比决策树好，反之亦然。有很多因素在起作用，例如数据集的大小和结构。
因此，你应该针对具体问题尝试多种不同算法，并留出一个数据“测试集”来评估性能、选出优胜者。
当然，你尝试的算法必须适合你的问题，也就是选择正确的机器学习任务。打个比方，如果你需要打扫房子，你可能会用吸尘器、扫帚或拖把，但是你不会拿出铲子开始挖土。
大原则
不过也有一个普遍原则，即所有监督机器学习算法预测建模的基础。
机器学习算法被描述为学习一个目标函数 f，该函数将输入变量 X 最好地映射到输出变量 Y：Y = f(X)
这是一个普遍的学习任务，我们可以根据输入变量 X 的新样本对 Y 进行预测。我们不知道函数 f 的样子或形式。如果我们知道的话，我们将会直接使用它，不需要用机器学习算法从数据中学习。
最常见的机器学习算法是学习映射 Y = f(X) 来预测新 X 的 Y。这叫做预测建模或预测分析，我们的目标是尽可能作出最准确的预测。
对于想了解机器学习基础知识的新手，本文将概述数据科学家使用的 top 10 机器学习算法。
1. 线性回归
线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。
预测建模主要关注最小化模型误差或者尽可能作出最准确的预测，以可解释性为代价。我们将借用、重用包括统计学在内的很多不同领域的算法，并将其用于这些目的。
线性回归的表示是一个方程，它通过找到输入变量的特定权重(称为系数 B)，来描述一条最适合表示输入变量 x 与输出变量 y 关系的直线。
线性回归
例如：y = B0 + B1 * x
我们将根据输入 x 预测 y，线性回归学习算法的目标是找到系数 B0 和 B1 的值。
可以使用不同的技术从数据中学习线性回归模型，例如用于普通最小二乘法和梯度下降优化的线性代数解。
线性回归已经存在了 200 多年，并得到了广泛研究。使用这种技术的一些经验是尽可能去除非常相似(相关)的变量，并去除噪音。这是一种快速、简单的技术，可以首先尝试一下。
2. Logistic 回归
Logistic 回归是机器学习从统计学中借鉴的另一种技术。它是解决二分类问题的首选方法。
Logistic 回归与线性回归相似，目标都是找到每个输入变量的权重，即系数值。与线性回归不同的是，Logistic 回归对输出的预测使用被称为 logistic 函数的非线性函数进行变换。
logistic 函数看起来像一个大的 S，并且可以将任何值转换到 0 到 1 的区间内。这非常实用，因为我们可以规定 logistic 函数的输出值是 0 和 1(例如，输入小于 0.5 则输出为 1)并预测类别值。
Logistic 回归
由于模型的学习方式，Logistic 回归的预测也可以作为给定数据实例(属于类别 0 或 1)的概率。这对于需要为预测提供更多依据的问题很有用。
像线性回归一样，Logistic 回归在删除与输出变量无关的属性以及非常相似(相关)的属性时效果更好。它是一个快速的学习模型，并且对于二分类问题非常有效。
3. 线性判别分析(LDA)
Logistic 回归是一种分类算法，传统上，它仅限于只有两类的分类问题。如果你有两个以上的类别，那么线性判别分析是首选的线性分类技术。
LDA 的表示非常简单直接。它由数据的统计属性构成，对每个类别进行计算。单个输入变量的 LDA 包括：
每个类别的平均值;
所有类别的方差。
线性判别分析
进行预测的方法是计算每个类别的判别值并对具备最大值的类别进行预测。该技术假设数据呈高斯分布(钟形曲线)，因此最好预先从数据中删除异常值。这是处理分类预测建模问题的一种简单而强大的方法。
4. 分类与回归树
决策树是预测建模机器学习的一种重要算法。
决策树模型的表示是一个二叉树。这是算法和数据结构中的二叉树，没什么特别的。每个节点代表一个单独的输入变量 x 和该变量上的一个分割点(假设变量是数字)。
决策树
决策树的叶节点包含一个用于预测的输出变量 y。通过遍历该树的分割点，直到到达一个叶节点并输出该节点的类别值就可以作出预测。
决策树学习速度和预测速度都很快。它们还可以解决大量问题，并且不需要对数据做特别准备。
5. 朴素贝叶斯
朴素贝叶斯是一个简单但是很强大的预测建模算法。
该模型由两种概率组成，这两种概率都可以直接从训练数据中计算出来：1)每个类别的概率;2)给定每个 x 的值，每个类别的条件概率。一旦计算出来，概率模型可用于使用贝叶斯定理对新数据进行预测。当你的数据是实值时，通常假设一个高斯分布(钟形曲线)，这样你可以简单的估计这些概率。
贝叶斯定理
朴素贝叶斯之所以是朴素的，是因为它假设每个输入变量是独立的。这是一个强大的假设，真实的数据并非如此，但是，该技术在大量复杂问题上非常有用。
6. K 近邻算法
KNN 算法非常简单且有效。KNN 的模型表示是整个训练数据集。是不是很简单?
KNN 算法在整个训练集中搜索 K 个最相似实例(近邻)并汇总这 K 个实例的输出变量，以预测新数据点。对于回归问题，这可能是平均输出变量，对于分类问题，这可能是众数(或最常见的)类别值。
诀窍在于如何确定数据实例间的相似性。如果属性的度量单位相同(例如都是用英寸表示)，那么最简单的技术是使用欧几里得距离，你可以根据每个输入变量之间的差值直接计算出来其数值。
K 近邻算法
KNN 需要大量内存或空间来存储所有数据，但是只有在需要预测时才执行计算(或学习)。你还可以随时更新和管理训练实例，以保持预测的准确性。
距离或紧密性的概念可能在非常高的维度(很多输入变量)中会瓦解，这对算法在你的问题上的性能产生负面影响。这被称为维数灾难。因此你最好只使用那些与预测输出变量最相关的输入变量。
7. 学习向量量化
K 近邻算法的一个缺点是你需要遍历整个训练数据集。学习向量量化算法(简称 LVQ)是一种人工神经网络算法，它允许你选择训练实例的数量，并精确地学习这些实例应该是什么样的。
学习向量量化
LVQ 的表示是码本向量的集合。这些是在开始时随机选择的，并逐渐调整以在学习算法的多次迭代中最好地总结训练数据集。在学习之后，码本向量可用于预测(类似 K 近邻算法)。最相似的近邻(最佳匹配的码本向量)通过计算每个码本向量和新数据实例之间的距离找到。然后返回最佳匹配单元的类别值或(回归中的实际值)作为预测。如果你重新调整数据，使其具有相同的范围(比如 0 到 1 之间)，就可以获得最佳结果。
如果你发现 KNN 在你的数据集上达到很好的结果，请尝试用 LVQ 减少存储整个训练数据集的内存要求。
8. 支持向量机(SVM)
支持向量机可能是最受欢迎和最广泛讨论的机器学习算法之一。
超平面是分割输入变量空间的一条线。在 SVM 中，选择一条可以最好地根据输入变量类别(类别 0 或类别 1)对输入变量空间进行分割的超平面。在二维中，你可以将其视为一条线，我们假设所有的输入点都可以被这条线完全的分开。SVM 学习算法找到了可以让超平面对类别进行最佳分割的系数。
支持向量机
超平面和最近的数据点之间的距离被称为间隔。分开两个类别的最好的或最理想的超平面具备最大间隔。只有这些点与定义超平面和构建分类器有关。这些点被称为支持向量，它们支持或定义了超平面。实际上，优化算法用于寻找最大化间隔的系数的值。
SVM 可能是最强大的立即可用的分类器之一，值得一试。
9. Bagging 和随机森林
随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation(又称 bagging)集成机器学习算法的一种。
bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本，计算平均值，然后平均所有的平均值以便更好的估计真实的平均值。
bagging 使用相同的方法，但是它估计整个统计模型，最常见的是决策树。在训练数据中抽取多个样本，然后对每个数据样本建模。当你需要对新数据进行预测时，每个模型都进行预测，并将所有的预测值平均以便更好的估计真实的输出值。
随机森林
随机森林是对这种方法的一种调整，在随机森林的方法中决策树被创建以便于通过引入随机性来进行次优分割，而不是选择最佳分割点。
因此，针对每个数据样本创建的模型将会与其他方式得到的有所不同，不过虽然方法独特且不同，它们仍然是准确的。结合它们的预测可以更好的估计真实的输出值。
如果你用方差较高的算法(如决策树)得到了很好的结果，那么通常可以通过 bagging 该算法来获得更好的结果。
10. Boosting 和 AdaBoost
Boosting 是一种集成技术，它试图集成一些弱分类器来创建一个强分类器。这通过从训练数据中构建一个模型，然后创建第二个模型来尝试纠正第一个模型的错误来完成。一直添加模型直到能够完美预测训练集，或添加的模型数量已经达到最大数量。
AdaBoost 是第一个为二分类开发的真正成功的 boosting 算法。这是理解 boosting 的最佳起点。现代 boosting 方法建立在 AdaBoost 之上，最显着的是随机梯度提升。
AdaBoost
AdaBoost与短决策树一起使用。在第一个决策树创建之后，利用每个训练实例上树的性能来衡量下一个决策树应该对每个训练实例付出多少注意力。难以预测的训练数据被分配更多权重，而容易预测的数据分配的权重较少。依次创建模型，每个模型在训练实例上更新权重，影响序列中下一个决策树的学习。在所有决策树建立之后，对新数据进行预测，并且通过每个决策树在训练数据上的精确度评估其性能。
因为在纠正算法错误上投入了太多注意力，所以具备已删除异常值的干净数据非常重要。
总结
初学者在面对各种机器学习算法时经常问：“我应该用哪个算法?”这个问题的答案取决于很多因素，包括：(1)数据的大小、质量和特性;(2)可用的计算时间;(3)任务的紧迫性;(4)你想用这些数据做什么。
即使是经验丰富的数据科学家在尝试不同的算法之前，也无法分辨哪种算法会表现最好。虽然还有很多其他的机器学习算法，但本篇文章中讨论的是最受欢迎的算法。如果你是机器学习的新手，这将是一个很好的学习起点。

❸ 机器学习算法有哪些，最常用是哪些几种，有什么优点

楼主肯定对机器学习了解不多才会提这种问题。这问题专业程度看起来和“机器学习工程师”这词汇一样。
机器学习，基础的PCA模型理论，贝叶斯，boost,Adaboost,
模式识别中的各种特征，诸如Hog，Haar,SIFT等
深度学习里的DBN，CNN，BP，RBM等等。
非专业出身，只是略懂一点。

没有常用的，只是针对需求有具体的设计，或者需要自己全新设计一个合适的算法，现在最热门的算是CNN(convolutional neural networks)卷积神经网络了。
优点:不需要训练获取特征，在学习过程中自动提取图像中的特征，免去了常规方法中，大量训练样本的时间。在样本足够大的情况下，能够得到非常精确的识别结果。一般都能95%+的正确率。
缺点：硬件要求高，CUDA的并行框架算是用的很火的了。但是一般的台式机跑一个Demo花费的时间长资源占用高。不过这也是这块算法的通病。

❹ 机器学习中算法的优缺点之最近邻算法

机器学习中有个算法是十分重要的，那就是最近邻算法，这种算法被大家称为KNN。我们在学习机器学习知识的时候一定要学习这种算法，其实不管是什么算法都是有自己的优缺点的，KNN算法也不例外，在这篇文章中我们就详细的给大家介绍一下KNN算法的优缺点，大家一定要好好学起来哟。
说到KNN算法我们有必要说一下KNN算法的主要过程，KNN算法的主要过程有四种，第一就是计算训练样本和测试样本中每个样本点的距离，第二个步骤就是对上面所有的距离值进行排序(升序)。第三个步骤就是选前k个最小距离的样本。第四个步骤就是根据这k个样本的标签进行投票，得到最后的分类类别。
那么大家是否知道如何选择一个最佳的K值，这取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响，但会使类别之间的界限变得模糊。一般来说，一个较好的K值可通过各种启发式技术来获取，比如说交叉验证。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。近邻算法具有较强的一致性结果，随着数据趋于无限，算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值，K近邻保证错误率不会超过贝叶斯理论误差率。
那么KNN算法的优点是什么呢？KNN算法的优点具体体现在六点，第一就是对数据没有假设，准确度高，对outlier不敏感。第二就是KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练。第三就是KNN理论简单，容易实现。第四就是理论成熟，思想简单，既可以用来做分类也可以用来做回归。第五就是可用于非线性分类。第六就是训练时间复杂度为O(n)。由此可见，KNN算法的优点是有很多的。
那么KNN算法的缺点是什么呢？这种算法的缺点具体体现在六点，第一就是样本不平衡时，预测偏差比较大。第二就是KNN每一次分类都会重新进行一次全局运算。第三就是k值大小的选择没有理论选择最优，往往是结合K-折交叉验证得到最优k值选择。第四就是样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）效果差。第五就是需要大量内存。第六就是对于样本容量大的数据集计算量比较大。
正是由于这些优点和缺点，KNN算法应用领域比较广泛，在文本分类、模式识别、聚类分析，多分类领域中处处有KNN算法的身影。
在这篇文章中我们给大家介绍了很多关于KNN算法的相关知识，通过对这些知识的理解相信大家已经知道该算法的特点了吧，希望这篇文章能够帮助大家更好的理解KNN算法。

❺ 机器学习中常见的算法的优缺点之决策树

决策树在机器学习中是一个十分优秀的算法，在很多技术中都需要用到决策树这一算法，由此可见，决策树是一个经典的算法，在这篇文章中我们给大家介绍决策树算法的优缺点，希望这篇文章能够更好的帮助大家理解决策树算法。
其实决策树倍受大家欢迎的原因就是其中的一个优势，那就是易于解释。同时决策树可以毫无压力地处理特征间的交互关系并且是非参数化的，因此你不必担心异常值或者数据是否线性可分。但是决策树的有一个缺点就是不支持在线学习，于是在新样本到来后，决策树需要全部重建。另一个缺点就是容易出现过拟合，但这也就是诸如随机森林RF之类的集成方法的切入点。另外，随机森林经常是很多分类问题的赢家，决策树训练快速并且可调，同时大家无须担心要像支持向量机那样调一大堆参数，所以在以前都一直很受欢迎。
那么决策树自身的优点都有什么呢，总结下来就是有六点，第一就是决策树易于理解和解释，可以可视化分析，容易提取出规则。第二就是可以同时处理标称型和数值型数据。第三就是比较适合处理有缺失属性的样本。第四就是能够处理不相关的特征。第五就是测试数据集时，运行速度比较快。第六就是在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
那么决策树的缺点是什么呢？总结下来有三点，第一就是决策树容易发生过拟合，但是随机森林可以很大程度上减少过拟合。第二就是决策树容易忽略数据集中属性的相互关联。第三就是对于那些各类别样本数量不一致的数据，在决策树中，进行属性划分时，不同的判定准则会带来不同的属性选择倾向；信息增益准则对可取数目较多的属性有所偏好，而增益率准则CART则对可取数目较少的属性有所偏好，但CART进行属性划分时候不再简单地直接利用增益率尽心划分，而是采用一种启发式规则。
通过上述的内容相信大家已经知道了决策树的优点和缺点了吧，大家在学习或者使用决策树算法的时候可以更好的帮助大家理解决策树的具体情况，只有了解了这些算法，我们才能够更好的使用决策树算法。

❻ 数据挖掘十大经典算法及各自优势

数据挖掘十大经典算法及各自优势

不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。
1. C4.5
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：
1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。
C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。
2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。
3. Support vector machines
支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。
4. The Apriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。
5. 最大期望(EM)算法
在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。
6. PageRank
PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。
PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。
7. AdaBoost
Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。
8. kNN: k-nearest neighbor classification
K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
9. Naive Bayes
在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。10. CART: 分类与回归树
CART, Classification and Regression Trees。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

以上是小编为大家分享的关于数据挖掘十大经典算法及各自优势的相关内容，更多信息可以关注环球青藤分享更多干货

❼ 机器学习中常见算法优缺点之朴素贝叶斯算法

在机器学习中有很多算法，而有一种算法有着坚实的数学背景，并且被广泛使用，这种算法就是朴素贝叶斯算法。当然，朴素贝叶斯算法的优点有很多，但这种算法的缺点也是我们不能忽视的，那么大家知道不知道朴素贝叶斯算法的优点和缺点是什么呢？下面我们就给大家介绍一下这个问题。
那么什么是朴素贝叶斯算法呢？其实朴素贝叶斯属于生成式模型，也就是关于生成模型和判别式模型，主要还是在于是否需要求联合分布，这种算法是一种比较简单的算法，你只需做一堆计数即可。如果注有条件独立性假设，朴素贝叶斯分类器的收敛速度将快于判别模型，比如逻辑回归，所以你只需要较少的训练数据即可。即使NB条件独立假设不成立，NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用，用mRMR中R来讲，就是特征冗余。
那么朴素贝叶斯算法的优点是什么呢？这种算法的优点有五个，第一就是朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。第二就是对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集，针对每个项目通常也只会有相对较少的特征数，并且对项目的训练和分类也仅仅是特征概率的数学运算而已。第三就是对小规模的数据表现很好，能个处理多分类任务，适合增量式训练（即可以实时的对新增的样本进行训练）。第四就是对缺失数据不太敏感，算法也比较简单，常用于文本分类。第五就是朴素贝叶斯对结果解释容易理解。
当然，朴素贝叶斯算法的缺点也是很明显的，朴素贝叶斯算法的缺点有四点，第一就是需要计算先验概率。第二就是分类决策存在错误率。第三就是对输入数据的表达形式很敏感。第四就是对由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好。
那么朴素贝叶斯应用领域是什么呢？其实朴素贝叶斯算法在欺诈检测中使用较多。当然，我们还可以用朴素贝叶斯算法来决定一封电子邮件是否是垃圾邮件。还可以用朴素贝叶斯算法判断一篇文章应该的类别，同时也能够使用贝叶斯算法去判断一段文字表达的是积极的情绪还是消极的情绪。从中我们可以看出朴素贝叶斯算法是一个十分实用的算法。
在这篇文章中我们给大家介绍了关于朴素贝叶斯算法优缺点的相关知识，通过对这些知识的讲解相信大家已经对朴素贝叶斯算法有了一定的了解，希望这篇文章能够帮助大家。

❽ 常用机器学习方法有哪些

机器学习中常用的方法有：

(1) 归纳学习

符号归纳学习：典型的符号归纳学习有示例学习、决策树学习。

函数归纳学习(发现学习)：典型的函数归纳学习有神经网络学习、示例学习、发现学习、统计学习。

(2) 演绎学习

(3) 类比学习：典型的类比学习有案例(范例)学习。

(4) 分析学习：典型的分析学习有解释学习、宏操作学习。

(8)机器算法分类及缺点扩展阅读：

机器学习常见算法：

1、决策树算法

决策树及其变种是一类将输入空间分成不同的区域，每个区域有独立参数的算法。决策树算法充分利用了树形模型，根节点到一个叶子节点是一条分类的路径规则，每个叶子节点象征一个判断类别。先将样本分成不同的子集，再进行分割递推，直至每个子集得到同类型的样本，从根节点开始测试，到子树再到叶子节点，即可得出预测类别。此方法的特点是结构简单、处理数据效率较高。

2、朴素贝叶斯算法

朴素贝叶斯算法是一种分类算法。它不是单一算法，而是一系列算法，它们都有一个共同的原则，即被分类的每个特征都与任何其他特征的值无关。朴素贝叶斯分类器认为这些“特征”中的每一个都独立地贡献概率，而不管特征之间的任何相关性。然而，特征并不总是独立的，这通常被视为朴素贝叶斯算法的缺点。简而言之，朴素贝叶斯算法允许我们使用概率给出一组特征来预测一个类。与其他常见的分类方法相比，朴素贝叶斯算法需要的训练很少。在进行预测之前必须完成的唯一工作是找到特征的个体概率分布的参数，这通常可以快速且确定地完成。这意味着即使对于高维数据点或大量数据点，朴素贝叶斯分类器也可以表现良好。

3、支持向量机算法

基本思想可概括如下：首先，要利用一种变换将空间高维化，当然这种变换是非线性的，然后，在新的复杂空间取最优线性分类表面。由此种方式获得的分类函数在形式上类似于神经网络算法。支持向量机是统计学习领域中一个代表性算法，但它与传统方式的思维方法很不同，输入空间、提高维度从而将问题简短化，使问题归结为线性可分的经典解问题。支持向量机应用于垃圾邮件识别，人脸识别等多种分类问题。

导航:首页 > 源码编译 > 机器算法分类及缺点

机器算法分类及缺点

与机器算法分类及缺点相关的资料