① 数据挖掘的国内外研究现状
懒惰阿。。。
开题还是论文?
这个没有,你问多少人也不会为这点分给你现写的。
告诉你个好方法:从中国知网(没账号密码?不好意思,再悬赏200分自己问去吧)上搜索往年的论文,然后把.NK格式的大论文的前言部分找自己需要的粘贴下来,再自己添几句话使之看起来不象别人的文章,多搜几篇1000字很好搞定,就看你想不想做了。
话已至此,得分~~
② 分类和聚类的区别及各自的常见算法
1、分类和聚类的区别:
Classification (分类),对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习),
Clustering (聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习).
2、常见的分类与聚类算法
所谓分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。如在自然语言处理NLP中,我们经常提到的文本分类便就是一个分类问题,一般的模式分类方法都可用于文本分类研究。常用的分类算法包括:决策树分类法,朴素贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearestneighbor,kNN),模糊分类法等等。
分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。
而K均值(K-mensclustering)聚类则是最典型的聚类算法(当然,除此之外,还有很多诸如属于划分法K中心点(K-MEDOIDS)算法、CLARANS算法;属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基于模型的方法)。
③ 算法研究现状
Farmer以及Deutsch和Journel虽然在1992年就提出了多点地质统计学方法,但其主要是通过在模拟退火中加入多点统计目标函数,然后对模拟图像进行反复迭代达到与输入统计参数匹配。该算法受到数据样板大小、模拟类型值多少的影响,此外迭代收敛也是一个不可避免的问题。受计算机性能以及算法的双重影响,模拟速度极其缓慢。因此对该方法的应用报道很少。1993年,Guardiano et al.提出了一种非迭代算法。它并不通过变差函数及克里金建立条件概率分布,而是直接利用数据样板扫描训练图像,并根据数据样板扫描获得的不同数据事件出现频率,代替数据事件的多点统计概率。即对于每一个未取样点,通过局部条件数据构成的数据事件,扫描训练图像推断局部数据事件联合未知点的条件概率(cpdf)。该方法属于序贯模拟的范畴,但由于每次条件概率的推断都需要重复扫描训练图像,对计算机性能要求相当高,因而该方法也一直停留在实验室阶段。
多点地质统计学得到快速发展,是源于搜索树概念的提出,即一种存储数据事件概率的数据结构。Strebelle(2000)对Guardiano et al.的算法进行了改进,提出将扫描训练图像获得的多点概率保存在“搜索树”里,随后的模拟采用序贯模拟的思路。在每模拟一个未知节点时,条件概率直接从“搜索树”里读取,大大缩短了运算机时,使得多点统计学储层建模真正意义上的推广成为可能。Strebelle将此算法命名为Snesim(Singlenormal equation simulation)。Snesim算法推出后,立刻受到建模界的关注,成为近几年储层建模热点。通过实际研究区建模,有些学者指出Snesim尚存在一些缺陷,表现在以下几个方面:
1)训练图像的平稳性问题。如何将实际储层中的大量非平稳信息表现为训练图像并能应用多点统计方法进行建模;
2)集成软数据(如地震)及评估训练图像或软数据的权重问题,尤其是它们在某种程度上不一致时;
3)储层形态合理再现问题。在现有算法中,当数据事件稀少时,往往通过去除最远条件节点方法来获得可靠的数据事件,而这种处理方法往往会导致储层构型再现失败;此外,训练图像过小将导致目标不连续,影响建模真实性;而训练图像过大则导致运行机时大,Snesim的实施存在困难;
4)多重网格搜索问题。两点统计学的多重网格搜索方法,不能改变粗网格模拟值,而条件数据重新分配具有相当大的误差,导致实际地质结构特征再现效果较差;
5)由于多点地质统计学仍然是基于像元的算法,所以只能在一定程度上重现目标的形状,对于更复杂的如尖角或者U型目标的应用则效果较差。
对于Snesim存在的问题,不同学者通过研究提出了各自的解决方案或建议。如非平稳性问题,Caers(2002)就采取类似于变差函数套合方式,通过伸缩和旋转变换,将非平稳的地质模式变化为平稳的地质模式,随后采用Snesim进行建模。再如数据样板再现,Liu(2003)就通过赋予不同节点不同权重,在数据事件稀少时,舍弃权重最小数据点以获得可靠的数据事件,而不是Snesim中去除最远条件节点的方式;Stien(2007)则允许删除条件数据点的值,而不是把它从条件数据集中移去。当所有节点被模拟后,再对那些被删掉值的点重新模拟。Suzuki(2007)提出了一种新的方法,即实时后处理方法(PRTT),其主要思想是在某一点上如果条件化失败,不是去掉一些条件数据缩小数据模板,而是返回到上一步,对前面模拟的数据进行修改,以达到数据事件合理化。在储层属性及数据事件多时,Arpat(2003)、Zhang(2003)等提出聚类的思想对相似数据事件进行归类,从而减少运行机时及不合理数据事件的出现概率。
储层建模是对地下沉积储层地质模式的再现。考虑到储层建模过程,实质上是对地下储层特征沉积模式的重建过程。如果将各种地质模式看成是一幅图像的构成单元,对储层预测也就是图像的重建过程。基于此思想,在2003年Stanford油藏预测中心举行的会议上,Arpat提出了Simpat(Simulation with pattenrs)多点地质统计学随机建模方法,即通过识别不同的地质模式,采用相似性判断方法,在建模时再现这些地质模式。Simpat模拟流程采用的也是序贯模拟的思路。由于是对地质模式处理,而地质模式是通过空间多个点构成的数据事件反映的,因此,在模拟实现时以整个数据事件赋值或者数据事件的子集取代了单个模拟网格节点的赋值。也就是说,在模拟过程中,在对某个未知值的预测过程中,除了模拟节点处赋值外,用来预测节点处值的条件数据的值也会有变化。Arpat通过这种数据事件整体赋值,实现储层地质模式再现。在数据事件选择上,Arpat摈弃了传统的概率推断、蒙特卡罗抽样的随机建模方法,而是借鉴计算机视觉及数字图像重建领域的知识,利用数据事件的相似性对数据事件进行选择。Arpat对此方法进行了较详细的论证,表明此方法能够较好再现储层结构特征。在此基础上,基于距离相似度的多点地质统计学(distance-based multiple point geostatistics)开始得到研究和发展(Suzuki et al.,2008;Scheidt et al.,2008;Honarkhah et al.,2010)。与传统基于统计抽样的模拟不同,基于距离相似度的方法直接计算数据事件的相似性,并用最相似的数据进行整体替换。
基于统计抽样以及储层模式分类的考虑,Zhang(2006)提出了Fitlersim(Filter-Based simulation)方法。他认为在训练图像中众多储层模式可以由几个滤波函数进行描述,由滤波函数获得储层模式的统计得分,在此基础上,进行储层模式的聚类,达到降低储层维数、提高运算效率的目的。此外,在聚类过程中考虑相似的储层模式出现的频率,使得储层预测具有统计学的意义。Yin(2009)则从目标骨架提取出发,约束多点统计模式选择,提出了基于储层骨架的多点地质统计学方法。
④ 什么是算法算法有哪些分类
分类算法是在数学和计算机科学之中,算法为一个计算的具体步骤,常用于计算、数据处理和自动推理。
精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数,算法分类可以根据算法设计原理、算法的具体应用和其他一些特性进行分类。
具体意义:
如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。
算法中的指令描述的是一个计算,当其运行时能从一个初始状态和(可能为空的)初始输入开始,经过一系列有限而清晰定义的状态,最终产生输出并停止于一个终态。一个状态到另一个状态的转移不一定是确定的。随机化算法在内的一些算法,包含了一些随机输入。
⑤ 基于优化类的分类方法与基于深度学习分类方法的异同
优化的类中心分类算法:
在类中心文本分类算法中,类别的中心向量是由该类别文本特征向量的简单算术平均得到。在训练集中,就分类而言,文档一般比较分散,所以在空间上,有些分类与其它类就会有重登的区域,如果直接用这些文档来计算各个类别的中心向量,就会出现模型偏差,因此不能达到理想的分类结果。研究一种优化的类中心分类算法,以修正这种模型偏差。即用当前的中心向量对训练集进行分类,然后用训练错误文档来更新中心向量,并假设文档集中的每篇文档都只属于个类别。它的中心思想为在进行的每一次迭代过程中用规范化中心向量对训练文本进行分类,其日的是为了找出所有训练错误文档。并对它进行归类。但因为文档分散原因的影响,不少文档的分类弄错,可以适当增加中心向量中这些文档特征项的权重,相反,应该减少中心向量中misin-of 的各文档特征权重大的特征项的权重。利用这些分类错误文档,见新类中心向量,并规范化,符到迭代后的规范化中心向量。
基于深度学习场景分类算法:
(1) 基于对象的场景分类:
这种分类方法以对象为识别单位,根据场景中出现的特定对象来区分不同的场景;基于视觉的场景分类方法大部分都是以对象为单位的,也就是说,通过识别一些有代表性的对象来确定自然界的位置。典型的基于对象的场景分类方法有以下的中间步骤:
特征提取、重组和对象识别。
缺点:底层的错误会随着处理的深入而被放大。
(2) 基于区域的场景分类:
首先通过目标候选候选区域选择算法,生成一系列候选目标区域
(3) 基于上下文的场景分类:
这类方法不同于前面两种算法,而将场景图像看作全局对象而非图像中的某一对象或细节,
这样可以降低局部噪声对场景分类的影响。
将输入图片作为一个特征,并提取可以概括图像统计或语义的低维特征。
⑥ 数据挖掘与生活:算法分类和应用
数据挖掘与生活:算法分类和应用
相对于武汉,北京的秋来的真是早,九月初的傍晚,就能够感觉到丝丝丝丝丝丝的凉意。
最近两件事挺有感觉的。
看某发布会,设计师李剑叶的话挺让人感动的。“**的设计是内敛和克制的...。希望设计成为一种,可以被忽略的存在感”。
其次,有感于不断跳Tone的妇科圣手,冯唐,“有追求、敢放弃”是他的标签。
“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的着作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘(Data Mining)的知识,你,或许会有柳暗花明的感觉。
的确,数据挖掘无处不在。它和生活密不可分,就像空气一样,弥漫在你的周围。但是,很多时候,你并不能意识到它。因此,它是陌生的,也是熟悉的。
本文,主要想简单介绍下数据挖掘中的算法,以及它包含的类型。然后,通过现实中触手可及的、活生生的案例,去诠释它的真实存在。
一、数据挖掘的算法类型
一般来说,数据挖掘的算法包含四种类型,即分类、预测、聚类、关联。前两种属于有监督学习,后两种属于无监督学习,属于描述性的模式识别和发现。
(一)有监督学习
有监督的学习,即存在目标变量,需要探索特征变量和目标变量之间的关系,在目标变量的监督下学习和优化算法。例如,信用评分模型就是典型的有监督学习,目标变量为“是否违约”。算法的目的在于研究特征变量(人口统计、资产属性等)和目标变量之间的关系。
(1)分类算法
分类算法和预测算法的最大区别在于,前者的目标变量是分类离散型(例如,是否逾期、是否肿瘤细胞、是否垃圾邮件等),后者的目标变量是连续型。一般而言,具体的分类算法包括,逻辑回归、决策树、KNN、贝叶斯判别、SVM、随机森林、神经网络等。
(2)预测算法
预测类算法,其目标变量一般是连续型变量。常见的算法,包括线性回归、回归树、神经网络、SVM等。
(二)无监督学习
无监督学习,即不存在目标变量,基于数据本身,去识别变量之间内在的模式和特征。例如关联分析,通过数据发现项目A和项目B之间的关联性。例如聚类分析,通过距离,将所有样本划分为几个稳定可区分的群体。这些都是在没有目标变量监督下的模式识别和分析。
(1)聚类分析
聚类的目的就是实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大。常见的聚类算法包括kmeans、系谱聚类、密度聚类等。
(2)关联分析
关联分析的目的在于,找出项目(item)之间内在的联系。常常是指购物篮分析,即消费者常常会同时购买哪些产品(例如游泳裤、防晒霜),从而有助于商家的捆绑销售。
二、基于数据挖掘的案例和应用
上文所提到的四种算法类型(分类、预测、聚类、关联),是比较传统和常见的。还有其他一些比较有趣的算法分类和应用场景,例如协同过滤、异常值分析、社会网络、文本分析等。下面,想针对不同的算法类型,具体的介绍下数据挖掘在日常生活中真实的存在。下面是能想到的、几个比较有趣的、和生活紧密关联的例子。
(一)基于分类模型的案例
这里面主要想介绍两个案例,一个是垃圾邮件的分类和判断,另外一个是在生物医药领域的应用,即肿瘤细胞的判断和分辨。
(1)垃圾邮件的判别
邮箱系统如何分辨一封Email是否属于垃圾邮件?这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。它的主要原理是,根据邮件正文中的单词,是否经常出现在垃圾邮件中,进行判断。例如,如果一份邮件的正文中包含“报销”、“发票”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。
一般来说,判断邮件是否属于垃圾邮件,应该包含以下几个步骤。第一,把邮件正文拆解成单词组合,假设某篇邮件包含100个单词。第二,根据贝叶斯条件概率,计算一封已经出现了这100个单词的邮件,属于垃圾邮件的概率和正常邮件的概率。如果结果表明,属于垃圾邮件的概率大于正常邮件的概率。那么该邮件就会被划为垃圾邮件。
(2)医学上的肿瘤判断
如何判断细胞是否属于肿瘤细胞呢?肿瘤细胞和普通细胞,有差别。但是,需要非常有经验的医生,通过病理切片才能判断。如果通过机器学习的方式,使得系统自动识别出肿瘤细胞。此时的效率,将会得到飞速的提升。并且,通过主观(医生)+客观(模型)的方式识别肿瘤细胞,结果交叉验证,结论可能更加靠谱。
如何操作?通过分类模型识别。简言之,包含两个步骤。首先,通过一系列指标刻画细胞特征,例如细胞的半径、质地、周长、面积、光滑度、对称性、凹凸性等等,构成细胞特征的数据。其次,在细胞特征宽表的基础上,通过搭建分类模型进行肿瘤细胞的判断。
(二)基于预测模型的案例
这里面主要想介绍两个案例。即通过化学特性判断和预测红酒的品质。另外一个是,通过搜索引擎来预测和判断股价的波动和趋势。
(1)红酒品质的判断
如何评鉴红酒?有经验的人会说,红酒最重要的是口感。而口感的好坏,受很多因素的影响,例如年份、产地、气候、酿造的工艺等等。但是,统计学家并没有时间去品尝各种各样的红酒,他们觉得通过一些化学属性特征就能够很好地判断红酒的品质了。并且,现在很多酿酒企业其实也都这么干了,通过监测红酒中化学成分的含量,从而控制红酒的品质和口感。
那么,如何判断鉴红酒的品质呢?第一步,收集很多红酒样本,整理检测他们的化学特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。第二步,通过分类回归树模型进行预测和判断红酒的品质和等级。
(2)搜索引擎的搜索量和股价波动
一只南美洲热带雨林中的蝴蝶,偶尔扇动了几下翅膀,可以在两周以后,引起美国德克萨斯州的一场龙卷风。你在互联网上的搜索是否会影响公司股价的波动?
很早之前,就已经有文献证明,互联网关键词的搜索量(例如流感)会比疾控中心提前1到2周预测出某地区流感的爆发。
同样,现在也有些学者发现了这样一种现象,即公司在互联网中搜索量的变化,会显着影响公司股价的波动和趋势,即所谓的投资者注意力理论。该理论认为,公司在搜索引擎中的搜索量,代表了该股票被投资者关注的程度。因此,当一只股票的搜索频数增加时,说明投资者对该股票的关注度提升,从而使得该股票更容易被个人投资者购买,进一步地导致股票价格上升,带来正向的股票收益。这是已经得到无数论文验证了的。
(三)基于关联分析的案例:沃尔玛的啤酒尿布
啤酒尿布是一个非常非常古老陈旧的故事。故事是这样的,沃尔玛发现一个非常有趣的现象,即把尿布与啤酒这两种风马牛不相及的商品摆在一起,能够大幅增加两者的销量。原因在于,美国的妇女通常在家照顾孩子,所以,她们常常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。沃尔玛从数据中发现了这种关联性,因此,将这两种商品并置,从而大大提高了关联销售。
啤酒尿布主要讲的是产品之间的关联性,如果大量的数据表明,消费者购买A商品的同时,也会顺带着购买B产品。那么A和B之间存在关联性。在超市中,常常会看到两个商品的捆绑销售,很有可能就是关联分析的结果。
(四)基于聚类分析的案例:零售客户细分
对客户的细分,还是比较常见的。细分的功能,在于能够有效的划分出客户群体,使得群体内部成员具有相似性,但是群体之间存在差异性。其目的在于识别不同的客户群体,然后针对不同的客户群体,精准地进行产品设计和推送,从而节约营销成本,提高营销效率。
例如,针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征),计算客户之间的距离。然后,按照距离的远近,把相似的客户聚集为一类,从而有效的细分客户。将全体客户划分为诸如,理财偏好者、基金偏好者、活期偏好者、国债偏好者、风险均衡者、渠道偏好者等。
(五)基于异常值分析的案例:支付中的交易欺诈侦测
采用支付宝支付时,或者刷信用卡支付时,系统会实时判断这笔刷卡行为是否属于盗刷。通过判断刷卡的时间、地点、商户名称、金额、频率等要素进行判断。这里面基本的原理就是寻找异常值。如果您的刷卡被判定为异常,这笔交易可能会被终止。
异常值的判断,应该是基于一个欺诈规则库的。可能包含两类规则,即事件类规则和模型类规则。第一,事件类规则,例如刷卡的时间是否异常(凌晨刷卡)、刷卡的地点是否异常(非经常所在地刷卡)、刷卡的商户是否异常(被列入黑名单的套现商户)、刷卡金额是否异常(是否偏离正常均值的三倍标准差)、刷卡频次是否异常(高频密集刷卡)。第二,模型类规则,则是通过算法判定交易是否属于欺诈。一般通过支付数据、卖家数据、结算数据,构建模型进行分类问题的判断。
(六)基于协同过滤的案例:电商猜你喜欢和推荐引擎
电商中的猜你喜欢,应该是大家最为熟悉的。在京东商城或者亚马逊购物,总会有“猜你喜欢”、“根据您的浏览历史记录精心为您推荐”、“购买此商品的顾客同时也购买了**商品”、“浏览了该商品的顾客最终购买了**商品”,这些都是推荐引擎运算的结果。
这里面,确实很喜欢亚马逊的推荐,通过“购买该商品的人同时购买了**商品”,常常会发现一些质量比较高、较为受认可的书。
一般来说,电商的“猜你喜欢”(即推荐引擎)都是在协同过滤算法(Collaborative Filter)的基础上,搭建一套符合自身特点的规则库。即该算法会同时考虑其他顾客的选择和行为,在此基础上搭建产品相似性矩阵和用户相似性矩阵。基于此,找出最相似的顾客或最关联的产品,从而完成产品的推荐。
(七)基于社会网络分析的案例:电信中的种子客户
种子客户和社会网络,最早出现在电信领域的研究。即,通过人们的通话记录,就可以勾勒出人们的关系网络。电信领域的网络,一般会分析客户的影响力和客户流失、产品扩散的关系。
基于通话记录,可以构建客户影响力指标体系。采用的指标,大概包括如下,一度人脉、二度人脉、三度人脉、平均通话频次、平均通话量等。基于社会影响力,分析的结果表明,高影响力客户的流失会导致关联客户的流失。其次,在产品的扩散上,选择高影响力客户作为传播的起点,很容易推动新套餐的扩散和渗透。
此外,社会网络在银行(担保网络)、保险(团伙欺诈)、互联网(社交互动)中也都有很多的应用和案例。
(八)基于文本分析的案例
这里面主要想介绍两个案例。一个是类似“扫描王”的APP,直接把纸质文档扫描成电子文档。相信很多人都用过,这里准备简单介绍下原理。另外一个是,江湖上总是传言红楼梦的前八十回和后四十回,好像并非都是出自曹雪芹之手,这里面准备从统计的角度聊聊。
(1)字符识别:扫描王APP
手机拍照时会自动识别人脸,还有一些APP,例如扫描王,可以扫描书本,然后把扫描的内容自动转化为word。这些属于图像识别和字符识别(Optical Character Recognition)。图像识别比较复杂,字符识别理解起来比较容易些。
查找了一些资料,字符识别的大概原理如下,以字符S为例。第一,把字符图像缩小到标准像素尺寸,例如12*16。注意,图像是由像素构成,字符图像主要包括黑、白两种像素。
第二,提取字符的特征向量。如何提取字符的特征,采用二维直方图投影。就是把字符(12*16的像素图)往水平方向和垂直方向上投影。水平方向有12个维度,垂直方向有16个维度。这样分别计算水平方向上各个像素行中黑色像素的累计数量、垂直方向各个像素列上的黑色像素的累计数量。从而得到水平方向12个维度的特征向量取值,垂直方向上16个维度的特征向量取值。这样就构成了包含28个维度的字符特征向量。
第三,基于前面的字符特征向量,通过神经网络学习,从而识别字符和有效分类。
(2)文学着作与统计:红楼梦归属
这是非常着名的一个争论,悬而未决。对于红楼梦的作者,通常认为前80回合是曹雪芹所着,后四十回合为高鹗所写。其实主要问题,就是想确定,前80回合和后40回合是否在遣词造句方面存在显着差异。
这事让一群统计学家比较兴奋了。有些学者通过统计名词、动词、形容词、副词、虚词出现的频次,以及不同词性之间的相关系做判断。有些学者通过虚词(例如之、其、或、亦、了、的、不、把、别、好),判断前后文风的差异。有些学者通过场景(花卉、树木、饮食、医药与诗词)频次的差异,来做统计判断。总而言之,主要通过一些指标量化,然后比较指标之间是否存在显着差异,借此进行写作风格的判断。
⑦ 算法有哪些分类
算法分类编辑算法可大致分为:
基本算法、数据结构的算法、数论与代数算法、计算几何的算法、图论的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法,厄米变形模型,随机森林算法。