导航:首页 > 源码编译 > 数据挖掘常见算法

数据挖掘常见算法

发布时间:2025-02-10 23:05:45

❶ 数据挖掘常用算法有哪些

1、 朴素贝叶斯


朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型,如逻辑回归,所以只需要较少的训练数据即可。即使NB条件独立假设不成立,NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用,用mRMR中的R来讲,就是特征冗余。


2、逻辑回归(logistic regression)


逻辑回归是一个分类方法,属于判别式模型,有很多正则化模型的方法(L0,L1,L2),而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比,还会得到一个不错的概率解释,甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法online gradient descent)。如果需要一个概率架构(比如,简单地调节分类阈值,指明不确定性,或者是要获得置信区间),或者希望以后将更多的训练数据快速整合到模型中去,那么可以使用它。


3、 线性回归


线性回归是用于回归的,而不像Logistic回归是用于分类,其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化。


4、最近邻算法——KNN


KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;如何选择一个最佳的K值,这取决于数据。


5、决策树


决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。


6、SVM支持向量机


高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。

阅读全文

与数据挖掘常见算法相关的资料

热点内容
安卓怎么测量开机电压 浏览:775
程序员素质大全 浏览:952
激战服务器不见了怎么办 浏览:982
安卓如何退回初始系统 浏览:951
用什么手表能代替app 浏览:706
女程序员熬夜体检 浏览:716
解压故事校园恋爱又烦恼 浏览:557
冰箱压缩机放多久能启动 浏览:173
软件算法发明专利 浏览:988
旁氏算法 浏览:767
程序员那么可爱电视剧免费观看极速版 浏览:749
程序员那么可爱陆漓孩子保住了吗 浏览:566
如何获取服务器dns秒解 浏览:665
如何破解大黄蜂的加密文件 浏览:13
新概念英语第三册pdf 浏览:403
分项详细估算法步骤 浏览:438
ipad桌面文件夹放大 浏览:893
我的世界基岩版怎么进国际服务器 浏览:518
福州医院有没有解压舱 浏览:472
带pwm的51单片机 浏览:918