Ⅰ 大数据学习都能干什么
大数据学习都能干什么?
当下,大数据方面的就业主要有三大方向:一是数据分析类大数据人才,二是系统研发类大数据人才,三是应用开发类大数据人才。他们的基础岗位分别是大数据系统研发工程师、大数据应用开发工程师、大数据分析师。
对于求职者来说,大数据只是所从事事业的一个方向,而职业岗位则是决定做什么事?大数据从业者/求职者可以根据自身所学技术及兴趣特征,选择一个适合自己的大数据相关岗位。下面为大家介绍十种与大数据相关的热门岗位。
一、ETL研发
企业数据种类与来源的不断增加,对数据进行整合与处理变得越来越困难,企业迫切需要一种有数据整合能力的人才。ETL开发者这是在此需求基础下而诞生的一个职业岗位。ETL人才在大数据时代炙手可热的原因之一是:在企业大数据应用的早期阶段,Hadoop只是穷人的ETL。
二、Hadoop开发
随着数据规模不断增大,传统BI的数据处理成本过高企业负担加重。而Hadoop廉价的数据处理能力被重新挖掘,企业需求持续增长。并成为大数据人才必须掌握的一种技术。
三、可视化工具开发
可视化开发就是在可视化工具提供的图形用户界面上,通过操作界面元素,有可视化开发工具自动生成相关应用软件,轻松跨越多个资源和层次连接所有数据。过去,数据可视化属于商业智能开发者类别,但是随着Hadoop的崛起,数据可视化已经成了一项独立的专业技能和岗位。
四、信息架构开发
大数据重新激发了主数据管理的热潮。充分开发利用企业数据并支持决策需要非常专业的技能。信息架构师必须了解如何定义和存档关键元素,确保以最有效的方式进行数据管理和利用。信息架构师的关键技能包括主数据管理、业务知识和数据建模等。
五、数据仓库研究
为方便企业决策,出于分析性报告和决策支持的目的而创建的数据仓库研究岗位是一种所有类型数据的战略集合。为企业提供业务智能服务,指导业务流程改进和监视时间、成本、质量和控制。
六、OLAP开发
OLAP在线联机分析开发者,负责将数据从关系型或非关系型数据源中抽取出来建立模型,然后创建数据访问的用户界面,提供高性能的预定义查询功能。
七、数据科学研究
数据科学家是一个全新的工种,能够将企业的数据和技术转化为企业的商业价值。随着数据学的进展,越来越多的实际工作将会直接针对数据进行,这将使人类认识数据,从而认识自然和行为。
八、数据预测分析
营销部门经常使用预测分析预测用户行为或锁定目标用户。预测分析开发者有些场景看上有有些类似数据科学家,即在企业历史数据的基础上通过假设来测试阈值并预测未来的表现。
九、企业数据管理
企业要提高数据质量必须考虑进行数据管理,并需要为此设立数据管家职位,这一职位的人员需要能够利用各种技术工具汇集企业周围的大量数据,并将数据清洗和规范化,将数据导入数据仓库中,成为一个可用的版本。
十、数据安全研究
数据安全这一职位,主要负责企业内部大型服务器、存储、数据安全管理工作,并对网络、信息安全项目进行规划、设计和实施。
Ⅱ 15 个开源的顶级人工智能工具
斯坦福的专家在人工智能报告中得出的结论:"越来越强大的人工智能应用,可能会对我们的 社会 和经济产生深远的积极影响,这将出现在从现在到2030年的时间段里。"
以下这些开源人工智能应用都处于人工智能研究的最前沿。
1.Caffe
它是由贾扬清在加州大学伯克利分校的读博时创造的,Caffe是一个基于表达体系结构和可扩展代码的深度学习框架。使它声名鹊起的是它的速度,这让它受到研究人员和企业用户的欢迎。根据其网站所言,它可以在一天之内只用一个NVIDIA K40 GPU处理6000万多个图像。它是由伯克利视野和学习中心(BVLC)管理的,并且由NVIDIA和亚马逊等公司资助来支持它的发展。
2. CNTK
它是计算机网络工具包(Computational Network Tookit)的缩写,CNTK是一个微软的开源人工智能工具。不论是在单个CPU、单个GPU、多个GPU或是拥有多个GPU的多台机器上它都有优异的表现。微软主要用它做语音识别的研究,但是它在机器翻译、图像识别、图像字幕、文本处理、语言理解和语言建模方面都有着良好的应用。
3.Deeplearning4j
Deeplearning4j是一个java虚拟机(JVM)的开源深度学习库。它运行在分布式环境并且集成在Hadoop和Apache Spark中。这使它可以配置深度神经网络,并且它与Java、Scala和其他JVM语言兼容。
4.DMTK
DMTK分布式集齐学习工具(Distributed Machine Learning Toolkit)的缩写,和CNTK一样,是微软的开源人工智能工具。作为设计用于大数据的应用程序,它的目标是更快的训练人工智能系统。它包括三个主要组件:DMTK框架、LightLDA主题模型算法和分布式(多义)字嵌入算法。为了证明它的速度,微软声称在一个八集群的机器上,它能够"用100万个主题和1000万个单词的词汇表(总共10万亿参数)训练一个主题模型,在一个文档中收集1000亿个符号,"。这一成绩是别的工具无法比拟的。
5.H20
相比起科研,H2O更注重将AI服务于企业用户,因此H2O有着大量的公司客户,比如第一资本金融公司、思科、Nielsen Catalina、PayPal和泛美都是它的用户。它声称任何人都可以利用机器学习和预测分析的力量来解决业务难题。它可以用于预测建模、风险和欺诈分析、保险分析、广告技术、医疗保健和客户情报。
它有两种开源版本:标准版H2O和Sparking Water版,它被集成在Apache Spark中。也有付费的企业用户支持。
6.Mahout
它是Apache基金会项目,Mahout是一个开源机器学习框架。根据它的网站所言,它有着三个主要的特性:一个构建可扩展算法的编程环境、像Spark和H2O一样的预制算法工具和一个叫Samsara的矢量数学实验环境。使用Mahout的公司有Adobe、埃森哲咨询公司、Foursquare、英特尔、领英、Twitter、雅虎和其他许多公司。其网站列了出第三方的专业支持。
7.MLlib
由于其速度,Apache Spark成为一个最流行的大数据处理工具。MLlib是Spark的可扩展机器学习库。它集成了Hadoop并可以与NumPy和R进行交互操作。它包括了许多机器学习算法如分类、回归、决策树、推荐、集群、主题建模、功能转换、模型评价、ML管道架构、ML持久、生存分析、频繁项集和序列模式挖掘、分布式线性代数和统计。
8.NuPIC
由Numenta公司管理的NuPIC是一个基于分层暂时记忆理论的开源人工智能项目。从本质上讲,HTM试图创建一个计算机系统来模仿人类大脑皮层。他们的目标是创造一个"在许多认知任务上接近或者超越人类认知能力"的机器。
除了开源许可,Numenta还提供NuPic的商业许可协议,并且它还提供技术专利的许可证。
9.OpenNN
作为一个为开发者和科研人员设计的具有高级理解力的人工智能,OpenNN是一个实现神经网络算法的c++编程库。它的关键特性包括深度的架构和快速的性能。其网站上可以查到丰富的文档,包括一个解释了神经网络的基本知识的入门教程
10.OpenCyc
由Cycorp公司开发的OpenCyc提供了对Cyc知识库的访问和常识推理引擎。它拥有超过239,000个条目,大约2,093,000个三元组和大约69,000 owl:这是一种类似于链接到外部语义库的命名空间。它在富领域模型、语义数据集成、文本理解、特殊领域的专家系统和 游戏 AI中有着良好的应用。该公司还提供另外两个版本的Cyc:一个可免费的用于科研但是不开源,和一个提供给企业的但是需要付费。
11.Oryx 2
构建在Apache Spark和Kafka之上的Oryx 2是一个专门针对大规模机器学习的应用程序开发框架。它采用一个独特的三层λ架构。开发者可以使用Orys 2创建新的应用程序,另外它还拥有一些预先构建的应用程序可以用于常见的大数据任务比如协同过滤、分类、回归和聚类。大数据工具供应商Cloudera创造了最初的Oryx 1项目并且一直积极参与持续发展。
12.PredictionIO
今年的二月,Salesforce收购了PredictionIO,接着在七月,它将该平台和商标贡献给Apache基金会,Apache基金会将其列为孵育计划。所以当Salesforce利用PredictionIO技术来提升它的机器学习能力时,成效将会同步出现在开源版本中。它可以帮助用户创建带有机器学习功能的预测引擎,这可用于部署能够实时动态查询的Web服务。
13.SystemML
最初由IBM开发,SystemML现在是一个Apache大数据项目。它提供了一个高度可伸缩的平台,可以实现高等数学运算,并且它的算法用R或一种类似python的语法写成。企业已经在使用它来跟踪 汽车 维修客户服务、规划机场交通和连接 社会 媒体数据与银行客户。它可以在Spark或Hadoop上运行。
14.TensorFlow
TensorFlow是一个谷歌的开源人工智能工具。它提供了一个使用数据流图进行数值计算的库。它可以运行在多种不同的有着单或多CPU和GPU的系统,甚至可以在移动设备上运行。它拥有深厚的灵活性、真正的可移植性、自动微分功能,并且支持Python和c++。它的网站拥有十分详细的教程列表来帮助开发者和研究人员沉浸于使用或扩展他的功能。
15.Torch
Torch将自己描述为:"一个优先使用GPU的拥有机器学习算法广泛支持的科学计算框架",它的特点是灵活性和速度。此外,它可以很容易的通过软件包用于机器学习、计算机视觉、信号处理、并行处理、图像、视频、音频和网络等方面。它依赖一个叫做LuaJIT的脚本语言,而LuaJIT是基于Lua的。
欢迎关注~
微信公众号: IT百战程序员 ,免费提供人工智能、大数据、云计算等资料~~不管你在地球哪个方位,欢迎你的关注!
Ⅲ 云计算的海量数据挖掘工作是怎样实现的
云计算属于新兴技术领域,群英云计算转一篇关于问题的学术报告吧。对您应该有所帮助。
1引言
目前,人们正处于一个“无处不网、无时不网,人人上网、时时在线”的时代,图灵奖获得者吉姆·格雷(Jim Gray)认为,网络环境下每18个月产生的数据量等于过去几千年的数据量之和。目前互联网的数据具有海量增长、用户广泛、动态变化等特征。2010年,QQ同时在线的用户超过1亿人,淘宝一年交易次数比上年增长150%,视频服务Animoto在3天内通过Amazon将其服务能力迅速扩展至75万用户。
数据挖掘能够发现隐含在大规模数据中的知识,提高信息服务的质量。如伊朗事件中twitter快速传播假消息的识别、Amazon和淘宝网中商品关联关系分析,以及优酷网中视频个性化推荐等。海量数据挖掘在国家安全、国民经济和现代服务业中具有广泛应用,有助于提升网络环境下信息服务的质量,实现以人为本的信息服务。
从数据挖掘技术的发展历史看,随着互联网的蓬勃发展,数据的规模越来越大,从KB级发展到TB甚至PB级海量数据;数据挖掘的对象也变得越来越复杂,从数据库、到多媒体数据和复杂社会网络;数据挖掘的需求也从分类、聚类和关联到复杂的演化和预测分析;挖掘过程中的交互方式从单机的人机交互发展到现在社会网络群体的交互。这种发展给数据挖掘带来了巨大的挑战:对于网络环境下产生的TB级和PB级的复杂数据,需要有高效的海量数据挖掘算法;网络环境下大众的广泛参与,需要在数据挖掘算法中能够融入群体智慧;同时社会网络的迅速发展使得信息服务的个性化成为必然,要求能够满足即时组合的个性化挖掘服务。
云计算是一种基于互联网的、大众参与的计算模式,其计算资源(包括计算能力、存储能力、交互能力等)是动态、可伸缩、被虚拟化的,并以服务的方式提供 [1] 。具体表现在:云计算的动态和可伸缩的计算能力为高效海量数据挖掘带来可能性;云计算环境下大众参与的群体智能为研究集群体智慧的新的数据挖掘方法研究提供了环境;云计算的服务化特征使面向大众的数据挖掘成为可能。同时,云计算发展也离不开数据挖掘的支持,以搜索为例,基于云计算的搜索包括网页存储、搜索处理和前端交互三大部分。数据挖掘在这几部分中都有广泛应用,例如网页存储中网页去重、搜索处理中网页排序和前端交互中的查询建议,其中每部分都需要数据挖掘技术的支持。
因此,云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇,同时也为数据挖掘研究提出了新的挑战性课题。
下面将对并行编程模型、基于并行编程模型高效海量数据挖掘算法,以及基于云计算的海量数据挖掘服务相关研究进行综述。
2并行编程模型相关方法
为了使用户能够通过简单的开发来方便地达到并行计算的效果,研究人员提出了一系列的并行计算模型。并行计算模型在用户需求和底层的硬件系统之间搭建桥梁使得并行算法的表示变得更加直观,对大规模数据的处理更加便捷。根据用户使用硬件环境的不同,并行编程模型又可以分为在多核机器、GPU计算、大型计算机以及计算机集群上的多种类型。目前比较常用的并行编程接口和模型包括:
pThread接口[2]。pThread是在类Unix系统上进行多线程编程的通用API,为用户提供了一系列对线程进行创建、管理和各类操作的函数,使用户能够方便地编写多线程程序。
MPI模型[3]。MPI的全称为消息传递接口(Message Passing Interface),它为用户提供了一系列的接口,使用户利用消息传递的方式来建立进程间的通信机制,从而方便地对各种算法进行并行实现。
MapRece模型[4]。MapRece模型是由谷歌公司提出的并行编程框架,它首先为用户提供分布式的文件系统,使用户能方便地处理大规模数据;然后将所有的程序运算抽象为Map和Rece两个基本操作,在Map阶段模型将问题分解为更小规模的问题,并在集群的不同节点上执行,在Rece阶段将结果归并汇总。MapRece是一个简单,但是非常有效的并行编程模型。
Pregel模型[5]。Pregel同样是由谷歌公司提出的专门针对图算法的编程模型,能够为大规模数据的图算法提供并行支持。一个典型的Pregel计算过程将在图上进行一系列的超级步骤(SuperSteps),在每个超级步骤中,所有顶点的计算都并行地执行用户定义的同一个函数,并通过一个“投票”机制来决定程序是否停止。
CUDA模型①。CUDA是由NVIDIA公司提出的一个基于GPU的并行计算模型。由于GPU在设计需求上与普通CPU不同,GPU通常被设计为能较慢地执行许多并发的线程,而不是较快的连续执行多个线程,这使得GPU在并行计算上有先天的优势。CUDA为用户提供了利用GPU计算的各种接口,使程序员能够像在普通电脑上进行CPU编程那样进行GPU程序的编写。
此外还有OpenMP、PVM、OpenCL等各种并行编程模型和方法。这些并行编程和方法一般都提供了主流编程语言的实现,从而使得用户能根据自身编程习惯来选用。
另一方面,随着云计算的不断推广,还出现了各种商用的并行计算/云计算平台,为用户提供并行计算服务。这其中比较着名的包括微软的Azure平台、Amazon公司的EC2平台、IBM公司的蓝云平台、谷歌公司的Google App Engine等。各大IT公司也纷纷开发自己的并行计算模型/框架作为自身技术服务的基本平台,这使得并行计算技术得到了更加快速的发展。
3基于并行编程模型高效海量数据挖掘算法研究
为了实现海量数据上的数据挖掘,大量分布式并行数据挖掘算法被提出。Bhari et al[6]整理了一个十分详尽的并行数据挖掘算法文献目录,包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法,同时还包括分布式系统、隐私保护等相关的研究工作。
MapRece并行编程模型具有强大的处理大规模数据的能力,因而是海量数据挖掘的理想编程平台。数据挖掘算法通常需要遍历训练数据获得相关的统计信息,用于求解或优化模型参数。在大规模数据上进行频繁的数据访问需要耗费大量运算时间。为了提高算法效率,斯坦福大学Chu et al[7]提出了一种适用于大量机器学习算法的通用并行编程方法。通过对经典的机器学习算法进行分析可以发现,算法学习过程中的运算都能转化为若干在训练数据集上的求和操作;求和操作可以独立地在不同数据子集上进行,因此很容易在MapRece编程平台上实现并行化执行。将大规模的数据集分割为若干子集分配给多个Mapper节点,在Mapper节点上分别执行各种求和操作得到中间结果,最后通过Rece节点将求和结果合并,实现学习算法的并行执行。在该框架下,Chu et al实现了十种经典的数据挖掘算法,包括线性回归、朴素贝叶斯、神经网络、主成分分析和支持向量机等,相关成果在NIPS 2006会议上发表。
Ranger et al[8]提出了一个基于MapRece的应用程序编程接口Phoenix,支持多核和多处理器系统环境下的并行程序设计。Phoenix能够进行缓存管理、错误恢复和并发管理。他们使用Phoenix实现了K-Means、主成分分析和线性回归三种数据挖掘算法。
Gillick et al[9]对单程学习(Single-pass)、迭代学习(Iterative Learning)和基于查询的学习(Query-based Learning)三类机器学习算法在MapRece框架下的性能分别做了评测。他们对并行学习算法涉及到的如何在计算节点之间的共享数据、如何处理分布式存储数据等问题进行了研究。
Mahout①是APS(Apache Software Foundation)旗下的一个开源数据挖掘项目,通过使用Apache Hadoop库,可以实现大规模数据上的并行数据挖掘,包括分类、聚类、频繁模式挖掘、回归、降维等算法,目前已经发布了四个版本。
4基于云计算的海量数据挖掘服务研究
云计算除了给用户提供通用的并行编程模型和大规模数据处理能力之外,另一个重要的特点是为用户提供开放的计算服务平台。在数据挖掘方向,现在也有一系列的系统被开发出来,面向公众提供数据挖掘服务云计算平台。
Talia et al[10]提出可以从四个层次提供云计算数据挖掘服务:底层为组成数据挖掘算法的基本步骤;第二层为单独的数据挖掘服务,例如分类、聚类等;第三层为分布式的数据挖掘模式,例如并行分类、聚合式机器学习等;第四层为之前三层元素构成的完整的数据挖掘应用。在此设计基础上,他们设计了基于云计算的数据挖掘开放服务框架,并开发了一系列的数据挖掘服务系统,例如Weka4WS、Knowledge Grid、Mobile Data Mining Services、Mining@home等,用户可以利用图形界面定义自己的数据挖掘工作流,然后在平台上执行。
PDMiner[11]是由中国科学院计算技术研究所开发的基于Hadoop的并行分布式数据挖掘平台,该系统现在已经用于中国移动通信企业TB级实际数据的挖掘。PDMiner提供了一系列并行挖掘算法和ETL操作组件,开发的ETL算法绝大多数达到了线性加速比,同时具有很好的容错性。PDMiner的开放式架构可以使用户将算法组件经过简单配置方便地封装加载到系统中。
此外,商业智能领域的各大公司也提供面向企业的大规模数据挖掘服务,例如微策略、IBM、Oracle等公司都拥有自己的基于云计算的数据挖掘服务平台。
5总结和展望
通过云计算的海量数据存储和分布计算,为云计算环境下的海量数据挖掘提供了新方法和手段,有效解决了海量数据挖掘的分布存储和高效计算问题。开展基于云计算特点的数据挖掘方法的研究,可以为更多、更复杂的海量数据挖掘问题提供新的理论与支撑工具。而作为传统数据挖掘向云计算的延伸和丰富,基于云计算的海量数据挖掘将推动互联网先进技术成果服务于大众,是促进信息资源的深度分享和可持续利用的新方法、新途径。
Ⅳ mahout包括哪些算法
一、分类算法
(一)Logistic 回归(SGD)
(二)Bayesian
(三)SVM
(四)Perceptron 和Winnow
(五)神经网络
(六)随机森林
(七)受限玻尔兹曼机
(八)Boosting
(九)HMM
(十)Online Passive Aggressive
二、聚类算法
(一)Canopy
(二)K-Means
(三)Fuzzy K-means
(四)EM
(五)Mean shift
(六)层次聚类
(七)Dirichlet process
(八)LDA
(九)Spectral
(十)MinHash
(十一)Top Down
三、推荐算法
Mahout包括简单的非并行的推荐和基于Hadoop的并行推荐的实现。
(一)非并行推荐
(二)分布式的基于Item的协同过滤
(三)并行矩阵分解的协同过滤
四、关联规则挖掘算法
并行FP-Growth
五、回归
Locally Weighted Linear Regression
六、降维
(一)SVD
(二)SSVD
(三)PCA
(四)ICA
(五)GDA
七、进化算法
八、向量相似性计算