导航:首页 > 源码编译 > 数据挖掘算法并行化

数据挖掘算法并行化

发布时间:2023-04-05 08:16:08

1. 什么是并行数据挖掘

并行数据挖掘技术不同于其它并行算法的地方在于它需要处理的数据的规模很大。在并行算法中有一点是不可取的,那就是:算法主要是把磁盘和处理雀则器之间以及各个处理器之间的数据规模尽量减少到最小。人们知道,对于并行而言,交互之间的消耗(即内存的使用)是比执行时间(计算阶段)重要得多的因素。数据挖掘算法已经给出了一系列的例子和学习概念(使例子的特征更简单)。并且概念很容易用谓词来表示,在一些事件中,算法的目的是把顷察棚这些概念嵌入到一个分类器中,决策树就是这样一个例子。而在其它的事件中,算法的目的是自己定没雹义这些概念,因为它们提供了数据的结构。串行数据挖掘算法对于规模很小的数据也需要大量的运行时间,而且可用于分析的数据增长得很快,这样就需要寻找用于数据挖掘的并行算法,目前并行数据挖掘算法已有了充分的研究

并行数据挖掘的策略
一个算法的复杂性可以表示为空间复杂性和时间复杂性两个方面。并行算法的目标是尽可能减少时间复杂性,但其代价是通过增加空间复杂性(如增加空间的维数及增加处理器的台数)来实现的。从算法树的结构来看,通常的串行算法树“深而窄”;而并行算法树的结构截然不同。为了达到把时间复杂性转化为空间复杂性的目的,并行算法树采用“浅而宽”的结构即每个时刻可容纳的计算量相应增加,使整个算法的步数尽可能减少。

常用的三种并行策略:
朴素并行

典型并行

逻辑并行

2. 并行数据挖掘是指什么并行呢

并行数据挖掘技术不同于其它并行算法的地方在于它需要处理的数据的规模很大。人们知道,对于并行而言,交互之间的消耗(即内存的使用)是比执行时间(计算阶段)重要得多的因素。串行数据挖掘算法对于规模很小的数据也需要大量的运行时间,而且可用于分析的数据增长得很快,这样就需要寻找用于数据挖掘的并行算法,目前对并行数据挖掘算法已有了充分的研究

并行数据挖掘的策略
一个算法的复杂性可以表示为空间复杂性和时间复杂性两个方面。并行算法的目标是尽可能减少时间复杂性,但其代价是通过增加空间复杂性(如增加空间的维数及增加处理器的台数)来实现的。从算法树的结构来看,通常的串行算法树“深而窄”;而并行算法树的结构截然不同。为了达到把时间复杂性转化为空间复杂性的目的,并行算法树采用“浅而宽”的结构即每个时刻可容纳的计算量相应增加,使整个算法的步数尽可能减少。

并行数据挖掘策略通常是有三种:
1.朴素并行,也就是人们通常说的网络并行。网络并行,就是通过高速信息网络充分利用网上的计算机资源,实现大规模数据上的并行计算。在这种并行类型中用于计算的时间会减少但是每一个处理器都要扫描所有的数据,这样就阻碍了算法性能的提高。

2.典型并行是当前并行数据挖掘策略的典型代表(这里称为典型并行)。在算法的每一步中,一个处理器只处理 1/p 的数据,而且在步骤的最后需要交换从数据中收集到的信息。

3逻辑并行类型 的技术是适用于逻辑性较强的并行。对于这种类型的并行数据挖掘策略,初始化阶段可能要重复进行是为了给该类型技术的结构减小数据规模。然而,该结构进一步发生在进一步抽取信息的过程中。许多归纳的逻辑方法(如的处理是ProgoL) 就是这种并行类型。

3. 云计算的海量数据挖掘工作是怎样实现的

云计算属于新兴技术领域,群英云计算转一篇关于问题的学术报告吧。对您应该有所帮助。

1引言

目前,人们正处于一个“无处不网、无时不网,人人上网、时时在线”的时代,图灵奖获得者吉姆·格雷(Jim Gray)认为,网络环境下每18个月产生的数据量等于过去几千年的数据量之和。目前互联网的数据具有海量增长、用户广泛、动态变化等特征。2010年,QQ同时在线的用户超过1亿人,淘宝一年交易次数比上年增长150%,视频服务Animoto在3天内通过Amazon将其服务能力迅速扩展至75万用户。

数据挖掘能够发现隐含在大规模数据中的知识,提高信息服务的质量。如伊朗事件中twitter快速传播假消息的识别、Amazon和淘宝网中商品关联关系分析,以及优酷网中视频个性化推荐等。海量数据挖掘在国家安全、国民经济和现代服务业中具有广泛应用,有助于提升网络环境下信息服务的质量,实现以人为本的信息服务。

从数据挖掘技术的发展历史看,随着互联网的蓬勃发展,数据的规模越来越大,从KB级发展到TB甚至PB级海量数据;数据挖掘的对象也变得越来越复杂,从数据库、到多媒体数据和复杂社会网络;数据挖掘的需求也从分类、聚类和关联到复杂的演化和预测分析;挖掘过程中的交互方式从单机的人机交互发展到现在社会网络群体的交互。这种发展给数据挖掘带来了巨大的挑战:对于网络环境下产生的TB级和PB级的复杂数据,需要有高效的海量数据挖掘算法;网络环境下大众的广泛参与,需要在数据挖掘算法中能够融入群体智慧;同时社会网络的迅速发展使得信息服务的个性化成为必然,要求能够满足即时组合的个性化挖掘服务。

云计算是一种基于互联网的、大众参与的计算模式,其计算资源(包括计算能力、存储能力、交互能力等)是动态、可伸缩、被虚拟化的,并以服务的方式提供 [1] 。具体表现在:云计算的动态和可伸缩的计算能力为高效海量数据挖掘带来可能性;云计算环境下大众参与的群体智能为研究集群体智慧的新的数据挖掘方法研究提供了环境;云计算的服务化特征使面向大众的数据挖掘成为可能。同时,云计算发展也离不开数据挖掘的支持,以搜索为例,基于云计算的搜索包括网页存储、搜索处理和前端交互三大部分。数据挖掘在这几部分中都有广泛应用,例如网页存储中网页去重、搜索处理中网页排序和前端交互中的查询建议,其中每部分都需要数据挖掘技术的支持。

因此,云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇,同时也为数据挖掘研究提出了新的挑战性课题。

下面将对并行编程模型、基于并行编程模型高效海量数据挖掘算法,以及基于云计算的海量数据挖掘服务相关研究进行综述。

2并行编程模型相关方法

为了使用户能够通过简单的开发来方便地达到并行计算的效果,研究人员提出了一系列的并行计算模型。并行计算模型在用户需求和底层的硬件系统之间搭建桥梁使得并行算法的表示变得更加直观,对大规模数据的处理更加便捷。根据用户使用硬件环境的不同,并行编程模型又可以分为在多核机器、GPU计算、大型计算机以及计算机集群上的多种类型。目前比较常用的并行编程接口和模型包括:

pThread接口[2]。pThread是在类Unix系统上进行多线程编程的通用API,为用户提供了一系列对线程进行创建、管理和各类操作的函数,使用户能够方便地编写多线程程序。

MPI模型[3]。MPI的全称为消息传递接口(Message Passing Interface),它为用户提供了一系列的接口,使用户利用消息传递的方式来建立进程间的通信机制,从而方便地对各种算法进行并行实现。

MapRece模型[4]。MapRece模型是由谷歌公司提出的并行编程框架,它首先为用户提供分布式的文件系统,使用户能方便地处理大规模数据;然后将所有的程序运算抽象为Map和Rece两个基本操作,在Map阶段模型将问题分解为更小规模的问题,并在集群的不同节点上执行,在Rece阶段将结果归并汇总。MapRece是一个简单,但是非常有效的并行编程模型。

Pregel模型[5]。Pregel同样是由谷歌公司提出的专门针对图算法的编程模型,能够为大规模数据的图算法提供并行支持。一个典型的Pregel计算过程将在图上进行一系列的超级步骤(SuperSteps),在每个超级步骤中,所有顶点的计算都并行地执行用户定义的同一个函数,并通过一个“投票”机制来决定程序是否停止。

CUDA模型①。CUDA是由NVIDIA公司提出的一个基于GPU的并行计算模型。由于GPU在设计需求上与普通CPU不同,GPU通常被设计为能较慢地执行许多并发的线程,而不是较快的连续执行多个线程,这使得GPU在并行计算上有先天的优势。CUDA为用户提供了利用GPU计算的各种接口,使程序员能够像在普通电脑上进行CPU编程那样进行GPU程序的编写。

此外还有OpenMP、PVM、OpenCL等各种并行编程模型和方法。这些并行编程和方法一般都提供了主流编程语言的实现,从而使得用户能根据自身编程习惯来选用。

另一方面,随着云计算的不断推广,还出现了各种商用的并行计算/云计算平台,为用户提供并行计算服务。这其中比较着名的包括微软的Azure平台、Amazon公司的EC2平台、IBM公司的蓝云平台、谷歌公司的Google App Engine等。各大IT公司也纷纷开发自己的并行计算模型/框架作为自身技术服务的基本平台,这使得并行计算技术得到了更加快速的发展。

3基于并行编程模型高效海量数据挖掘算法研究

为了实现海量数据上的数据挖掘,大量分布式并行数据挖掘算法被提出。Bhari et al[6]整理了一个十分详尽的并行数据挖掘算法文献目录,包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法,同时还包括分布式系统、隐私保护等相关的研究工作。

MapRece并行编程模型具有强大的处理大规模数据的能力,因而是海量数据挖掘的理想编程平台。数据挖掘算法通常需要遍历训练数据获得相关的统计信息,用于求解或优化模型参数。在大规模数据上进行频繁的数据访问需要耗费大量运算时间。为了提高算法效率,斯坦福大学Chu et al[7]提出了一种适用于大量机器学习算法的通用并行编程方法。通过对经典的机器学习算法进行分析可以发现,算法学习过程中的运算都能转化为若干在训练数据集上的求和操作;求和操作可以独立地在不同数据子集上进行,因此很容易在MapRece编程平台上实现并行化执行。将大规模的数据集分割为若干子集分配给多个Mapper节点,在Mapper节点上分别执行各种求和操作得到中间结果,最后通过Rece节点将求和结果合并,实现学习算法的并行执行。在该框架下,Chu et al实现了十种经典的数据挖掘算法,包括线性回归、朴素贝叶斯、神经网络、主成分分析和支持向量机等,相关成果在NIPS 2006会议上发表。

Ranger et al[8]提出了一个基于MapRece的应用程序编程接口Phoenix,支持多核和多处理器系统环境下的并行程序设计。Phoenix能够进行缓存管理、错误恢复和并发管理。他们使用Phoenix实现了K-Means、主成分分析和线性回归三种数据挖掘算法。

Gillick et al[9]对单程学习(Single-pass)、迭代学习(Iterative Learning)和基于查询的学习(Query-based Learning)三类机器学习算法在MapRece框架下的性能分别做了评测。他们对并行学习算法涉及到的如何在计算节点之间的共享数据、如何处理分布式存储数据等问题进行了研究。

Mahout①是APS(Apache Software Foundation)旗下的一个开源数据挖掘项目,通过使用Apache Hadoop库,可以实现大规模数据上的并行数据挖掘,包括分类、聚类、频繁模式挖掘、回归、降维等算法,目前已经发布了四个版本。

4基于云计算的海量数据挖掘服务研究

云计算除了给用户提供通用的并行编程模型和大规模数据处理能力之外,另一个重要的特点是为用户提供开放的计算服务平台。在数据挖掘方向,现在也有一系列的系统被开发出来,面向公众提供数据挖掘服务云计算平台。

Talia et al[10]提出可以从四个层次提供云计算数据挖掘服务:底层为组成数据挖掘算法的基本步骤;第二层为单独的数据挖掘服务,例如分类、聚类等;第三层为分布式的数据挖掘模式,例如并行分类、聚合式机器学习等;第四层为之前三层元素构成的完整的数据挖掘应用。在此设计基础上,他们设计了基于云计算的数据挖掘开放服务框架,并开发了一系列的数据挖掘服务系统,例如Weka4WS、Knowledge Grid、Mobile Data Mining Services、Mining@home等,用户可以利用图形界面定义自己的数据挖掘工作流,然后在平台上执行。

PDMiner[11]是由中国科学院计算技术研究所开发的基于Hadoop的并行分布式数据挖掘平台,该系统现在已经用于中国移动通信企业TB级实际数据的挖掘。PDMiner提供了一系列并行挖掘算法和ETL操作组件,开发的ETL算法绝大多数达到了线性加速比,同时具有很好的容错性。PDMiner的开放式架构可以使用户将算法组件经过简单配置方便地封装加载到系统中。

此外,商业智能领域的各大公司也提供面向企业的大规模数据挖掘服务,例如微策略、IBM、Oracle等公司都拥有自己的基于云计算的数据挖掘服务平台。

5总结和展望

通过云计算的海量数据存储和分布计算,为云计算环境下的海量数据挖掘提供了新方法和手段,有效解决了海量数据挖掘的分布存储和高效计算问题。开展基于云计算特点的数据挖掘方法的研究,可以为更多、更复杂的海量数据挖掘问题提供新的理论与支撑工具。而作为传统数据挖掘向云计算的延伸和丰富,基于云计算的海量数据挖掘将推动互联网先进技术成果服务于大众,是促进信息资源的深度分享和可持续利用的新方法、新途径。

4. 数据挖掘的方法有哪些

数据挖掘的的方法主要有以下几点:
1.分类挖掘方法。分类挖掘方法主要利用决策树进行分类,是一种高效且在数据挖掘方法中占有重要地位的挖掘方法。为了对数据进行较为准确的测试并据此分类,我们采用决策树算法,而决策树中比较典型的几种方法为:ID3算法,此方法具有较强的实用性,适用于大规模数据处理;KNN算法,此方法算量较大,适用于分别类别的数据处理。
2..聚类分析挖掘方法。聚类分析挖掘方法主要应用于样品与指标分类研究领域,是一种典型的统计方法,广泛应用于商业领域。此聚类分析方法根据适用对象不同又可分为四种分析挖掘方法:基于网格的聚类分析方法、基于分层的聚类方法、基于密度的聚类挖掘方法和基于模型的聚类方法。
3.预测方法。预测方法主要用于对知识的预测以及对连续数值型数据的挖掘,传统的预测方法主要分为:时间序列方法、回归模型分析法、灰色系统模型分析。而现在预测方法主要采用神经网络与支持向量机算法,进行数据分析计算,同时可预测未来数据的走向趋势。

关于大数据挖掘工程师的课程推荐CDA数据分析师的相关课程,课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”点击预约免费试听课。

5. 常见的数据挖掘方法有哪些

数据挖掘的常用方法有:

6. 大数据挖掘有哪些方法

方法1.可视化分析


无论是日志数据分析专家还是普通用户,数据可视化都是数据分析工具的最基本要求。可视化可以直观地显示数据,让数据自己说话,让听众看到结果。


方法2.数据挖掘算法


如果说可视化用于人们观看,那么数据挖掘就是给机器看的。集群、分割、孤立点分析和其他算法使我们能够深入挖掘数据并挖掘价值。这些算法不仅要处理大量数据,还必须尽量缩减处理大数据的速度。


方法3.预测分析能力


数据挖掘使分析师可以更好地理解数据,而预测分析则使分析师可以根据可视化分析和数据挖掘的结果做出一些预测性判断。


方法4.语义引擎


由于非结构化数据的多样性给数据分析带来了新挑战,因此需要一系列工具来解析,提取和分析数据。需要将语义引擎设计成从“文档”中智能地提取信息。


方法5.数据质量和主数据管理


数据质量和数据管理是一些管理方面的最佳实践。通过标准化流程和工具处理数据可确保获得预定义的高质量分析结果。

7. 大数据处理的五大关键技术及其应用

作者 | 网络大数据

来源 | 产业智能官

数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据,根据数据挖掘的结果得出预测性决策。其中主要工作环节包括:

大数据采集 大数据预处理 大数据存储及管理 大数据分析及挖掘 大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。

大数据采集一般分为:

大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。

基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。

二、大数据预处理技术

完成对已接收数据的辨析、抽取、清洗等操作。

抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。

清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术:改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术

大数据分析技术:改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。

机器学习中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

数据挖掘主要过程是:根据分析挖掘目标,从数据库中把数据提取出来,然后经过ETL组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件,一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模。

数据挖掘的计算复杂度和灵活度远远超过前两类需求。一是由于数据挖掘问题开放性,导致数据挖掘会涉及大量衍生变量计算,衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂,计算量就很大,特别是大量机器学习算法,都是迭代计算,需要通过多次迭代来求最优解,例如K-means聚类算法、PageRank算法等。

从挖掘任务和挖掘方法的角度,着重突破:

可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。 数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。 数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

预测分析成功的7个秘诀

预测未来一直是一个冒险的命题。幸运的是,预测分析技术的出现使得用户能够基于历史数据和分析技术(如统计建模和机器学习)预测未来的结果,这使得预测结果和趋势变得比过去几年更加可靠。

尽管如此,与任何新兴技术一样,想要充分发挥预测分析的潜力也是很难的。而可能使挑战变得更加复杂的是,由不完善的策略或预测分析工具的误用导致的不准确或误导性的结果可能在几周、几个月甚至几年内才会显现出来。

预测分析有可能彻底改变许多的行业和业务,包括零售、制造、供应链、网络管理、金融服务和医疗保健。AI网络技术公司Mist Systems的联合创始人、首席技术官Bob fridy预测:“深度学习和预测性AI分析技术将会改变我们社会的所有部分,就像十年来互联网和蜂窝技术所带来的转变一样。”。

这里有七个建议,旨在帮助您的组织充分利用其预测分析计划。

1.能够访问高质量、易于理解的数据

预测分析应用程序需要大量数据,并依赖于通过反馈循环提供的信息来不断改进。全球IT解决方案和服务提供商Infotech的首席数据和分析官Soumendra Mohanty评论道:“数据和预测分析之间是相互促进的关系。”

了解流入预测分析模型的数据类型非常重要。“一个人身上会有什么样的数据?” Eric Feigl - Ding问道,他是流行病学家、营养学家和健康经济学家,目前是哈佛陈氏公共卫生学院的访问科学家。“是每天都在Facebook和谷歌上收集的实时数据,还是难以访问的医疗记录所需的医疗数据?”为了做出准确的预测,模型需要被设计成能够处理它所吸收的特定类型的数据。

简单地将大量数据扔向计算资源的预测建模工作注定会失败。“由于存在大量数据,而其中大部分数据可能与特定问题无关,只是在给定样本中可能存在相关关系,”FactSet投资组合管理和交易解决方案副总裁兼研究主管Henri Waelbroeck解释道,FactSet是一家金融数据和软件公司。“如果不了解产生数据的过程,一个在有偏见的数据上训练的模型可能是完全错误的。”

2.找到合适的模式

SAP高级分析产品经理Richard Mooney指出,每个人都痴迷于算法,但是算法必须和输入到算法中的数据一样好。“如果找不到适合的模式,那么他们就毫无用处,”他写道。“大多数数据集都有其隐藏的模式。”

模式通常以两种方式隐藏:

模式位于两列之间的关系中。例如,可以通过即将进行的交易的截止日期信息与相关的电子邮件开盘价数据进行比较来发现一种模式。Mooney说:“如果交易即将结束,电子邮件的公开率应该会大幅提高,因为买方会有很多人需要阅读并审查合同。”

模式显示了变量随时间变化的关系。“以上面的例子为例,了解客户打开了200次电子邮件并不像知道他们在上周打开了175次那样有用,”Mooney说。

3 .专注于可管理的任务,这些任务可能会带来积极的投资回报

纽约理工学院的分析和商业智能主任Michael Urmeneta称:“如今,人们很想把机器学习算法应用到海量数据上,以期获得更深刻的见解。”他说,这种方法的问题在于,它就像试图一次治愈所有形式的癌症一样。Urmeneta解释说:“这会导致问题太大,数据太乱——没有足够的资金和足够的支持。这样是不可能获得成功的。”

而当任务相对集中时,成功的可能性就会大得多。Urmeneta指出:“如果有问题的话,我们很可能会接触到那些能够理解复杂关系的专家” 。“这样,我们就很可能会有更清晰或更好理解的数据来进行处理。”

4.使用正确的方法来完成工作

好消息是,几乎有无数的方法可以用来生成精确的预测分析。然而,这也是个坏消息。芝加哥大学NORC (前国家意见研究中心)的行为、经济分析和决策实践主任Angela Fontes说:“每天都有新的、热门的分析方法出现,使用新方法很容易让人兴奋”。“然而,根据我的经验,最成功的项目是那些真正深入思考分析结果并让其指导他们选择方法的项目——即使最合适的方法并不是最性感、最新的方法。”

罗切斯特理工学院计算机工程系主任、副教授shanchie Jay Yang建议说:“用户必须谨慎选择适合他们需求的方法”。“必须拥有一种高效且可解释的技术,一种可以利用序列数据、时间数据的统计特性,然后将其外推到最有可能的未来,”Yang说。

5.用精确定义的目标构建模型

这似乎是显而易见的,但许多预测分析项目开始时的目标是构建一个宏伟的模型,却没有一个明确的最终使用计划。“有很多很棒的模型从来没有被人使用过,因为没有人知道如何使用这些模型来实现或提供价值,”汽车、保险和碰撞修复行业的SaaS提供商CCC信息服务公司的产品管理高级副总裁Jason Verlen评论道。

对此,Fontes也表示同意。“使用正确的工具肯定会确保我们从分析中得到想要的结果……”因为这迫使我们必须对自己的目标非常清楚,”她解释道。“如果我们不清楚分析的目标,就永远也不可能真正得到我们想要的东西。”

6.在IT和相关业务部门之间建立密切的合作关系

在业务和技术组织之间建立牢固的合作伙伴关系是至关重要的。客户体验技术提供商Genesys的人工智能产品管理副总裁Paul lasserr说:“你应该能够理解新技术如何应对业务挑战或改善现有的业务环境。”然后,一旦设置了目标,就可以在一个限定范围的应用程序中测试模型,以确定解决方案是否真正提供了所需的价值。

7.不要被设计不良的模型误导

模型是由人设计的,所以它们经常包含着潜在的缺陷。错误的模型或使用不正确或不当的数据构建的模型很容易产生误导,在极端情况下,甚至会产生完全错误的预测。

没有实现适当随机化的选择偏差会混淆预测。例如,在一项假设的减肥研究中,可能有50%的参与者选择退出后续的体重测量。然而,那些中途退出的人与留下来的人有着不同的体重轨迹。这使得分析变得复杂,因为在这样的研究中,那些坚持参加这个项目的人通常是那些真正减肥的人。另一方面,戒烟者通常是那些很少或根本没有减肥经历的人。因此,虽然减肥在整个世界都是具有因果性和可预测性的,但在一个有50%退出率的有限数据库中,实际的减肥结果可能会被隐藏起来。

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。

在我国,大数据将重点应用于以下三大领域:商业智能 、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。

阅读全文

与数据挖掘算法并行化相关的资料

热点内容
dd命令u盘 浏览:568
单片机生日快乐程序 浏览:891
安卓手机连车载的叫什么 浏览:223
怎么让自己的手机键盘变得好看app 浏览:53
能看qq的文件夹 浏览:515
android二维码生成代码 浏览:567
焦炉气压缩机 浏览:402
imap接收邮件服务器地址 浏览:291
小乔肖恩解压密码 浏览:645
php网页网盘源码 浏览:181
签到任务源码 浏览:814
母亲节的文案怎么写app 浏览:984
加密协议aes找不到 浏览:250
java服务器端开发源码 浏览:551
编译器编译运行快捷键 浏览:333
住房app怎么快速选房 浏览:174
怎么在电脑上编译成功 浏览:214
单片机可调时钟设计方案 浏览:192
qq文件夹密码忘记怎么找回 浏览:683
php扩展插件 浏览:608