① 决策树法优点
决策树法优点:决策树列出了决策问题的全部可行方案和可能出现的各种自然状态,以及各可行方法在各种不同状态下的期望值。能直观地显示整个决策问题在时间和决策顺序上不同阶段的决策过程。在应用于复杂的多阶段决策时,阶段明显,层次清楚,便于决策机构集体研究,可以周密地思考各种因素,有利于作出正确的决策。决策树法缺点:使用范围有限,无法适用于一些不能用数量表示的决策;对各种方案的出现概率的确定有时主观性较大,可能导致决策失误;决策树优缺点优点:(1)速度快: 计算量相对较小, 且容易转化成分类规则. 只要沿着树根向下一直走到叶, 沿途的分裂条件就能够唯一确定一条分类的谓词.(2)准确性高: 挖掘出来的分类规则准确性高, 便于理解, 决策树可以清晰的显示哪些字段比较重要, 即可以生成可以理解的规则.(3)可以处理连续和种类字段(4)不需要任何领域知识和参数假设(5)适合高维数据缺点:(1)对于各类别样本数量不一致的数据, 信息增益偏向于那些更多数值的特征(2)容易过拟合(3)忽略属性之间的相关性② 牡丹江师范
金融数学(Financial Mathematics),又称数理金融学、数学金融学、分析金融学,是利用数学工具 研究金融,进行数学建模、理论分析、数值计算等定量分析,以求找到金融学内在规律并用以指导实践。金融数学也可以理解为现代数学与计算技术在金融领域的应用,因此,金融数学是一门新兴的交*学科,发展 很快,是目前十分活跃的前言学科之一。
金融数学是一门新兴学科,是“金融高技术 ”的重要 组成部分。研究金融数学有着重要的意义。 金融数学总的研究目标是利用我国数学界某些方面的优势,围绕金融市场的均衡与有价证券定价的数学理论进行深入剖析,建立适合我国国情的数学模型,编写一定的计算机软件,对理论研究结果进行仿真计算,对实际数据进行计量经济分析研究,为实际金融部门提供较深入的技术分析咨询。
金融数学主要的研究内容和拟重点解决的问题包括:
(1)有价证券和证券组合的定价理论
发展有价证券(尤其是期货、期权等衍生工具)的定价理论。所用的数学方法主要是提出合适的随机微分方程或随机差分方程模型,形成相应的倒向方程。建立相应的非线性Feynman一Kac公式,由此导出非常一般的推广的Black一Scho1es定价公式。所得到的倒向方程将是高维非线性带约束的奇异方程。
研究具有不同期限和收益率的证券组合的定价问题。需要建立定价与优化相结合的数学模型,在数学工具的研究方面,可能需要随机规划、模糊规划和优化算法研究。
在市场是不完全的条件下,引进与偏好有关的定价理论。
(2)不完全市场经济均衡理论(GEI)
拟在以下几个方面进行研究:
1.无穷维空间、无穷水平空间、及无限状态
2.随机经济、无套利均衡、经济结构参数变异、非线资产结构
3.资产证券的创新(Innovation)与设计(Design)
4.具有摩擦(Friction)的经济
5.企业行为与生产、破产与坏债
6.证券市场博奕。
(3)GEI 平板衡算法、蒙特卡罗法在经济平衡点计算中的应用, GEI的理论在金融财政经济宏观经济调控中的应用,不完全市场条件下,持续发展理论框架下研究自然资源资产定价与自然资源的持续利用。
目前国内开设金融数学本科专业的高等院校中,实力较强的有北京大学、复旦大学、浙江大学、山东大学、南开大学。
后来从事计算机工作很出色。金融数学将后来在银行、保险、股票、期货领域从事研究分析,或做这些领域的软件开发,具有很好的专业背景,而这些领域将来都很重要。
国内金融数学人才凤毛麟角
诺贝尔经济学奖已经至少3次授予以数学为工具分析金融问题的经济学家。北京大学金融数学系王铎教授说,但遗憾的是,我国相关人才的培养,才刚刚起步。现在,既懂金融又懂数学的复合型人才相当稀缺。
金融数学这门新兴的交叉学科已经成为国际金融界的一枝奇葩。刚刚公布的2003年诺贝尔经济学奖,就是表彰美国经济学家罗伯特·恩格尔和英国经济学家克莱夫·格兰杰分别用“随着时间变化易变性”和“共同趋势”两种新方法分析经济时间数列给经济学研究和经济发展带来巨大影响。
王铎介绍,金融数学的发展曾两次引发了“华尔街革命”。上个世纪50年代初期,马科威茨提出证券投资组合理论,第一次明确地用数学工具给出了在一定风险水平下按不同比例投资多种证券收益可能最大的投资方法,引发了第一次“华尔街革命”。1973年,布莱克和斯克尔斯用数学方法给出了期权定价公式,推动了期权交易的发展,期权交易很快成为世界金融市场的主要内容,成为第二次“华尔街革命”。
今天,金融数学家已经是华尔街最抢手的人才之一。最简单的例子是,保险公司中地位和收入最高的,可能就是总精算师。美国花旗银行副主席保尔·柯斯林着名的论断是,“一个从事银行业务而不懂数学的人,无非只能做些无关紧要的小事”。
在美国,芝加哥大学、加州伯克利大学、斯坦福大学、卡内基·梅隆大学和纽约大学等着名学府,都已经设立了金融数学相关的学位或专业证书教育。
专家认为,金融数学可能带来的发展应该凸现在亚洲,尤其是在金融市场正在开发和具有巨大潜力的中国。香港中文大学、科技大学、城市理工大学等学校都已推出有关的训练课程和培养计划,并得到银行金融业界的热烈响应。但中国内地对该项人才的培养却有些艰辛。
王铎介绍,国家自然科学基金委员会在一项“九五”重大项目中,列入金融工程研究内容,可以说全面启动了国内的金融数学研究。可这比马科威茨开始金融数学的研究应用已经晚了近半个世纪。
在金融衍生产品已成为国际金融市场重要角色的背景下,我国的金融衍生产品才刚刚起步,金融衍生产品市场几乎是空白。“加入 W TO后,国际金融家们肯定将把这一系列业务带入中国。如果没有相应的产品和人才,如何竞争?”王铎忧虑地说。
他认为,近几年,接连发生的墨西哥金融危机、百年老店巴林银行倒闭等事件都在警告我们,如果不掌握金融数学、金融工程和金融管理等现代化金融技术,缺乏人才,就可能在国际金融竞争中蒙受重大损失。我们现在最缺的,就是掌握现代金融衍生工具、能对金融风险做定量分析的既懂金融又懂数学的高级复合型人才。
据悉,目前国内不少高校都陆续开展了与金融数学相关的教学,但毕业的学生远远满足不了整个市场的需求。
王铎认为,培养这类人才还有一些难以逾越的障碍———金融数学最终要运用于实践,可目前国内金融衍生产品市场还没有成气候,学生很难有实践的机会,教和学都还是纸上谈兵。另外,高校培养的人大多都是本科生,只有少量的研究生,这个领域的高端人才在国内还是凤毛麟角。国家应该更多地关注金融和数学相结合的复合型人才的培养。
王铎回忆,1997年,北京大学建立了国内首个金融数学系时,他曾想与一些金融界人士共商办学。但相当一部分人对此显然并不感兴趣:“什么金融衍生产品,什么金融数学,那都是国家应该操心的事。”
尽管当初开设金融数学系时有人认为太超前,但王铎坚持,教育应该走在产业发展的前头,才能为市场储备人才。如果今天还不重视相关领域的人才培养,就可能导致我们在国际竞争中的不利。
记者发现即使今天,在这个问题上,仍然一方面是高校教师对于人才稀缺的担忧,一方面却是一些名气很大的专家对金融数学人才培养的冷漠。
采访中,记者多次试图联系几位国内金融数学界或金融理论界专家,可屡屡遭到拒绝。原因很简单,他们认为,谈人才培养这样的话题太小儿科,有的甚至说,“我不了解,也根本不关注什么人才培养”。还有的说,“我现在有很多课题要做,是我的课题重要,还是讨论人才培养重要”、“我没有时间,也没义务向公众解释什么诺贝尔经济学奖,老百姓要不要晓得金融数学和我没有关系”。
[编辑本段]金融中的数据挖掘
1.什么是关联规则
在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
2.关联规则挖掘过程、分类及其相关算法
2.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则“尿布,啤酒”,满足下列条件,将可接受“尿布,啤酒”的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据“尿布,啤酒”关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
2.2关联规则的分类
按照不同情况,关联规则可以进行分类如下:
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。
2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。
2.3关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。
2.基于划分的算法
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。
3.FP-树频集算法
针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
3.该领域在国内外的应用
3.1关联规则发掘技术在国内外的应用
就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。
3.2近年来关联规则发掘技术的一些研究
由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。
③ 决策树基本概念及算法优缺点
分类决策树模型是一种描述对实例进行分类的树形结构. 决策树由结点和有向边组成. 结点有两种类型: 内部结点和叶节点. 内部节点表示一个特征或属性, 叶节点表示一个类.
决策树(Decision Tree),又称为判定树, 是一种以树结构(包括二叉树和多叉树)形式表达的预测分析模型.
分类树--对离散变量做决策树
回归树--对连续变量做决策树
优点:
(1)速度快: 计算量相对较小, 且容易转化成分类规则. 只要沿着树根向下一直走到叶, 沿途的分裂条件就能够唯一确定一条分类的谓词.
(2)准确性高: 挖掘出来的分类规则准确性高, 便于理解, 决策树可以清晰的显示哪些字段比较重要, 即可以生成可以理解的规则.
(3)可以处理连续和种类字段
(4)不需要任何领域知识和参数假设
(5)适合高维数据
缺点:
(1)对于各类别样本数量不一致的数据, 信息增益偏向于那些更多数值的特征
(2)容易过拟合
(3)忽略属性之间的相关性
若一事假有k种结果, 对应概率为 , 则此事件发生后所得到的信息量I为:
给定包含关于某个目标概念的正反样例的样例集S, 那么S相对这个布尔型分类的熵为:
其中 代表正样例, 代表反样例
假设随机变量(X,Y), 其联合分布概率为P(X=xi,Y=yi)=Pij, i=1,2,...,n;j=1,2,..,m
则条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性, 其定义为X在给定条件下Y的条件概率分布的熵对X的数学期望
在Hunt算法中, 通过递归的方式建立决策树.
使用信息增益, 选择 最高信息增益 的属性作为当前节点的测试属性
ID3( Examples,Target_attribute,Attributes )
Examples 即训练样例集. Target_attribute 是这棵树要预测的目标属性. Attributes 是除目标属性外供学习到的决策树测试的属性列表. 返回能正确分类给定 Examples 的决策树.
class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)
限制决策树层数为4的DecisionTreeClassifier实例
This plot compares the decision surfaces learned by a dcision tree classifier(first column), by a random forest classifier(second column), by an extra-trees classifier(third column) and by an AdaBoost classifier(fouth column).
Output:
A comparison of a several classifiers in scikit-learn on synthetic datasets.
The point of this examples is to illustrate the nature of decision boundaries of different classifiers.
Particularly in high-dimensional spaces, data can more easily be separated linearly and the simplicity of classifiers such as naive Bayes and linear SVMs might lead to better generalization than is achieved by other classifiers.
This example fits an AdaBoost decisin stump on a non-linearly separable classification dataset composed of two "Gaussian quantiles" clusters and plots the decision boundary and decision scores.
Output:
④ 决策树CART算法优点和缺点
CART的全称是分类和回归树,既可以做分类算法,也可以做回归。
决策树的优缺点:
优点:
1.可以生成可以理解的规则。
2.计算量相对来说不是很大。
3.可以处理连续和种类字段。
4.决策树可以清晰的显示哪些字段比较重要
缺点:
1. 对连续性的字段比较难预测。
2.对有时间顺序的数据,需要很多预处理的工作。
3.当类别太多时,错误可能就会增加的比较快。
4.一般的算法分类的时候,只是根据一个字段来分类。
⑤ 机器学习中常见的算法的优缺点之决策树
决策树在机器学习中是一个十分优秀的算法,在很多技术中都需要用到决策树这一算法,由此可见,决策树是一个经典的算法,在这篇文章中我们给大家介绍决策树算法的优缺点,希望这篇文章能够更好的帮助大家理解决策树算法。
其实决策树倍受大家欢迎的原因就是其中的一个优势,那就是易于解释。同时决策树可以毫无压力地处理特征间的交互关系并且是非参数化的,因此你不必担心异常值或者数据是否线性可分。但是决策树的有一个缺点就是不支持在线学习,于是在新样本到来后,决策树需要全部重建。另一个缺点就是容易出现过拟合,但这也就是诸如随机森林RF之类的集成方法的切入点。另外,随机森林经常是很多分类问题的赢家,决策树训练快速并且可调,同时大家无须担心要像支持向量机那样调一大堆参数,所以在以前都一直很受欢迎。
那么决策树自身的优点都有什么呢,总结下来就是有六点,第一就是决策树易于理解和解释,可以可视化分析,容易提取出规则。第二就是可以同时处理标称型和数值型数据。第三就是比较适合处理有缺失属性的样本。第四就是能够处理不相关的特征。第五就是测试数据集时,运行速度比较快。第六就是在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
那么决策树的缺点是什么呢?总结下来有三点,第一就是决策树容易发生过拟合,但是随机森林可以很大程度上减少过拟合。第二就是决策树容易忽略数据集中属性的相互关联。第三就是对于那些各类别样本数量不一致的数据,在决策树中,进行属性划分时,不同的判定准则会带来不同的属性选择倾向;信息增益准则对可取数目较多的属性有所偏好,而增益率准则CART则对可取数目较少的属性有所偏好,但CART进行属性划分时候不再简单地直接利用增益率尽心划分,而是采用一种启发式规则。
通过上述的内容相信大家已经知道了决策树的优点和缺点了吧,大家在学习或者使用决策树算法的时候可以更好的帮助大家理解决策树的具体情况,只有了解了这些算法,我们才能够更好的使用决策树算法。
⑥ 数据挖掘的十大经典算法,总算是讲清楚了,想提升自己的赶快收藏
一个优秀的数据分析师,除了要掌握基本的统计学、数据分析思维、数据分析工具之外,还需要掌握基本的数据挖掘思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距所在。
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。今天主要分享其中10种经典算法,内容较干,建议收藏备用学习。
1. C4.5
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效(相对的CART算法只需要扫描两次数据集,以下仅为决策树优缺点)。
2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均 方误差总和最小。
3. Support vector machines
支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更 高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。
4. The Apriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
5. 最大期望(EM)算法
在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然 估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。
6. PageRank
PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票, 被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自 学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。
7. AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权 值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
8. kNN: k-nearest neighbor classification
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
9. Naive Bayes
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属 性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。
10. CART: 分类与回归树
CART, Classification and Regression Trees。 在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法(二元切分法);第二个想法是用验证数据进行剪枝(预剪枝、后剪枝)。在回归树的基础上的模型树构建难度可能增加了,但同时其分类效果也有提升。
参考书籍:《机器学习实战》