hadoop算法题_如何系统地学习数据挖掘

① Hadoop实战的作品目录

第一部分Hadoop——一种分布式编程框架
第1章Hadoop简介2
1.1为什么写《Hadoop 实战》3
1.2什么是Hadoop3
1.3了解分布式系统和Hadoop4
1.4比较SQL数据库和Hadoop5
1.5理解MapRece6
1.5.1动手扩展一个简单程序7
1.5.2相同程序在MapRece中的扩展9
1.6用Hadoop统计单词——运行第一个程序11
1.7Hadoop历史15
1.8小结16
1.9资源16
第2章初识Hadoop17
2.1Hadoop的构造模块17
2.1.1NameNode17
2.1.2DataNode18
2.1.3Secondary NameNode19
2.1.4JobTracker19
2.1.5TaskTracker19
2.2为Hadoop集群安装SSH21
2.2.1定义一个公共账号21
2.2.2验证SSH安装21
2.2.3生成SSH密钥对21
2.2.4将公钥分布并登录验证22
2.3运行Hadoop22
2.3.1本地(单机)模式23
2.3.2伪分布模式24
2.3.3全分布模式25
2.4基于Web的集群用户界面28
2.5小结30
第3章Hadoop组件31
3.1HDFS文件操作31
3.1.1基本文件命令32
3.1.2编程读写HDFS35
3.2剖析MapRece程序37
3.2.1Hadoop数据类型39
3.2.2Mapper40
3.2.3Recer41
3.2.4Partitioner：重定向Mapper输出41
3.2.5Combiner：本地rece43
3.2.6预定义mapper和Recer类的单词计数43
3.3读和写43
3.3.1InputFormat44
3.3.2OutputFormat49
3.4小结50
第二部分实战
第4章编写MapRece基础程序52
4.1获得专利数据集52
4.1.1专利引用数据53
4.1.2专利描述数据54
4.2构建MapRece程序的基础模板55
4.3计数60
4.4适应Hadoop API的改变64
4.5Hadoop的Streaming67
4.5.1通过Unix命令使用Streaming68
4.5.2通过脚本使用Streaming69
4.5.3用Streaming处理键/值对72
4.5.4通过Aggregate包使用Streaming75
4.6使用combiner提升性能80
4.7温故知新83
4.8小结84
4.9更多资源84
第5章高阶MapRece85
5.1链接MapRece作业85
5.1.1顺序链接MapRece作业85
5.1.2具有复杂依赖的MapRece链接86
5.1.3预处理和后处理阶段的链接86
5.2联结不同来源的数据89
5.2.1Rece侧的联结90
5.2.2基于DistributedCache的复制联结98
5.2.3半联结：map侧过滤后在rece侧联结101
5.3创建一个Bloom filter102
5.3.1Bloom filter做了什么102
5.3.2实现一个Bloom filter104
5.3.3Hadoop 0.20以上版本的Bloom filter110
5.4温故知新110
5.5小结111
5.6更多资源112
第6章编程实践113
6.1开发MapRece程序113
6.1.1本地模式114
6.1.2伪分布模式118
6.2生产集群上的监视和调试123
6.2.1计数器123
6.2.2跳过坏记录125
6.2.3用IsolationRunner重新运行出错的任务128
6.3性能调优129
6.3.1通过combiner来减少网络流量129
6.3.2减少输入数据量129
6.3.3使用压缩129
6.3.4重用JVM132
6.3.5根据猜测执行来运行132
6.3.6代码重构与算法重写133
6.4小结134
第7章细则手册135
7.1向任务传递作业定制的参数135
7.2探查任务特定信息137
7.3划分为多个输出文件138
7.4以数据库作为输入输出143
7.5保持输出的顺序145
7.6小结146
第8章管理Hadoop147
8.1为实际应用设置特定参数值147
8.2系统体检149
8.3权限设置151
8.4配额管理151
8.5启用回收站152
8.6删减DataNode152
8.7增加DataNode153
8.8管理NameNode和SNN153
8.9恢复失效的NameNode155
8.10感知网络布局和机架的设计156
8.11多用户作业的调度157
8.11.1多个JobTracker158
8.11.2公平调度器158
8.12小结160
第三部分Hadoop也疯狂
第9章在云上运行Hadoop162
9.1Amazon Web Services简介162
9.2安装AWS163
9.2.1获得AWS身份认证凭据164
9.2.2获得命令行工具166
9.2.3准备SSH密钥对168
9.3在EC2上安装Hadoop169
9.3.1配置安全参数169
9.3.2配置集群类型169
9.4在EC2上运行MapRece程序171
9.4.1将代码转移到Hadoop集群上171
9.4.2访问Hadoop集群上的数据172
9.5清空和关闭EC2实例175
9.6Amazon Elastic MapRece和其他AWS服务176
9.6.1Amazon Elastic MapRece176
9.6.2AWS导入/导出177
9.7小结177
第10章用Pig编程178
10.1像Pig一样思考178
10.1.1数据流语言179
10.1.2数据类型179
10.1.3用户定义函数179
10.2安装Pig179
10.3运行Pig180
10.4通过Grunt学习Pig Latin182
10.5谈谈Pig Latin186
10.5.1数据类型和schema186
10.5.2表达式和函数187
10.5.3关系型运算符189
10.5.4执行优化196
10.6用户定义函数196
10.6.1使用UDF196
10.6.2编写UDF197
10.7脚本199
10.7.1注释199
10.7.2参数替换200
10.7.3多查询执行201
10.8Pig实战——计算相似专利的例子201
10.9小结206
第11章Hive及Hadoop群207
11.1Hive207
11.1.1安装与配置Hive208
11.1.2查询的示例210
11.1.3深入HiveQL213
11.1.4Hive小结221
11.2其他Hadoop相关的部分221
11.2.1HBase221
11.2.2ZooKeeper221
11.2.3Cascading221
11.2.4Cloudera222
11.2.5Katta222
11.2.6CloudBase222
11.2.7Aster Data和Greenplum222
11.2.8Hama和Mahout223
11.3小结223
第12章案例研究224
12.1转换《纽约时报》1100万个库存图片文档224
12.2挖掘中国移动的数据225
12.3在StumbleUpon推荐最佳网站229
12.3.1分布式StumbleUpon的开端230
12.3.2HBase和StumbleUpon230
12.3.3StumbleUpon上的更多Hadoop应用236
12.4搭建面向企业查询的分析系统——IBM的ES2项目238
12.4.1ES2系统结构240
12.4.2ES2爬虫241
12.4.3ES2分析242
12.4.4小结249
12.4.5参考文献250
附录AHDFS文件命令251

② 基于hadoop的机器学习算法有哪些

很多，主要说下监督学习这块的算法哈。欢迎讨论。
svm，支撑向量机，通过找到样本空间中的一个超平面，实现样本的分类，也可以作回归，主要用在文本分类，图像识别等领域，详见：；
lr，逻辑回归，本质也是线性回归，通过拟合拟合样本的某个曲线，然后使用逻辑函数进行区间缩放，但是一般用来分类，主要用在ctr预估、推荐等；
nn，神经网络，通过找到某种非线性模型拟合数据，主要用在图像等；
nb，朴素贝叶斯，通过找到样本所属于的联合分步，然后通过贝叶斯公式，计算样本的后验概率，从而进行分类，主要用来文本分类；
dt，决策树，构建一棵树，在节点按照某种规则（一般使用信息熵）来进行样本划分，实质是在样本空间进行块状的划分，主要用来分类，也有做回归，但更多的是作为弱分类器，用在model embedding中；
rf，随进森林，是由许多决策树构成的森林，每个森林中训练的样本是从整体样本中抽样得到，每个节点需要进行划分的特征也是抽样得到，这样子就使得每棵树都具有独特领域的知识，从而有更好的泛化能力；
gbdt，梯度提升决策树，实际上也是由多棵树构成，和rf不同的是，每棵树训练样本是上一棵树的残差，这体现了梯度的思想，同时最后的结构是用这所有的树进行组合或者投票得出，主要用在推荐、相关性等；
knn，k最近邻，应该是最简单的ml方法了，对于未知标签的样本，看与它最近的k个样本(使用某种距离公式，马氏距离或者欧式距离)中哪种标签最多，它就属于这类；

③ 如何提升Hadoop MapRece性能

你这个问慎亏培题，问的太大了。目前可能有很多人都在熟悉使用hadoop，当然就会有很多人研究它了。默认的集群环境并不是最优的，所以为了提升集群的性能，人们就开始研究hadoop的优化了。现在，通常从以下几个方面对空数hadoop进行优化：
1、数据放置和数据副本数量的选择。集群默认情况一般有三个副本，并且集群默认每个节点的计算能力是一样的，在分配数据块的时候，均匀分布在每个节点上。实际环境中，更多的是每个节点得各方面能力是不同的，比如计算能力，那么原有的数据分配方式就那么合适了，需要根据节点的能力，合理的放置数据块，从而提升性能。数据副本的数量也会影响hadoop的性能，这里边涉及到数据迁移的问题。
2、参数配置方面。例如数据块的大小当前大多数是128或者64M，相对来说是比较合理的。那么这个值真的适合你的集群环境吗？是否有方法可以计算出集群的最优状态下的数据块大小，这个需要研究。当然还有很多参数，需要优化，比如容器大小，内存分配，map和rece数量等。
3、作业调度问题。给你一堆的job，如何合理的调度使得执行最快。这也是优化的方向，虽然集群有默认的三种调度策略，但并不一宽唯定是最好的。
当然还有很多优化，这里就不一一列举了，如果你感兴趣，可以去网上搜索更多的参考资料！

④ hadoop某节点运行较慢，通过什么机制解决

一个节点需要执行的命令答：（1）hadoop job Clist 得到job的id，然后执行 hadoop job -kill jobId就可以杀死一个指定jobId的job工作了。（2）hadoop fs -rmr /tmp/aaa 3 增加一个新的节点在新的几点上执行 Hadoop daemon.sh start datanode Hadooop daemon.sh start tasktracker 然后在主节点中执行 hadoop dfsadmin -refreshnodes 删除一个节点的时候，只需要在主节点执行 hadoop mradmin -refreshnodes 请列出你所知道的hadoop调度器，并简要说明其工作方法答：Fifo schelar :默认，先进先出的原则 Capacity sc

⑤ 如何系统地学习数据挖掘

磨刀不误砍柴工。在学习数据挖掘之前应该明白几点：

数据挖掘目前在中国的尚未流行开，犹如屠龙之技。

数据初期的准备通常占整个数据挖掘项目工作量的70%左右。

数据挖掘本身融合了统计学、数据库和机器学习等学科，并不是新的技术。

数据挖掘技术更适合业务人员学习（相比技术人员学习业务来的更高效）

数据挖掘适用于传统的BI（报表、OLAP等）无法支持的领域。

数据挖掘项目通常需要重复一些毫无技术含量的工作。

如果你阅读了以上内容觉得可以接受，那么继续往下看。

学习一门技术要和行业靠拢，没有行业背景的技术如空中楼阁。技
术尤其是计算机领域的技术发展是宽泛且快速更替的（十年前做网页设计都能成立公司），一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合
行业之后就能够独当一面了，一方面有利于抓住用户痛点和刚性需求，另一方面能够累计行业经验，使用互联网思维跨界让你更容易取得成功。不要在学习技术时想
要面面俱到，这样会失去你的核心竞争力。

一、目前国内的数据挖掘人员工作领域大致可分为三类。

1）数据分析师：在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询，商务智能，出分析报告。

2）数据挖掘工程师：在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
3）科学研究方向：在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。

二、说说各工作领域需要掌握的技能。
(1).数据分析师

需要有深厚的数理统计基础，但是对程序开发能力不做要求。
需要熟练使用主流的数据挖掘（或统计分析）工具如Business Analytics and Business Intelligence Software（SAS）、SPSS、EXCEL等。
需要对与所在行业有关的一切核心数据有深入的理解，以及一定的数据敏感性培养。
经
典图书推荐：《概率论与数理统计》、《统计学》推荐David
Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用
》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Proceres
Companion》等。

(2).数据挖掘工程师

需要理解主流机器学习算法的原理和应用。
需要熟悉至少一门编程语言如（Python、C、C++、Java、Delphi等）。
需要理解数据库原理，能够熟练操作至少一种数据库（Mysql、SQL、DB2、Oracle等），能够明白MapRece的原理操作以及熟练使用Hadoop系列工具更好。
经典图书推荐：《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。

(3).科学研究方向

需要深入学习数据挖掘的理论基础，包括关联规则挖掘（Apriori和FPTree）、分类算法（C4.5、KNN、Logistic Regression、SVM等) 、聚类算法（Kmeans、Spectral Clustering）。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。

相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing，因为R软件是完全免费的，而且开放的社区环境提供多种附加工具包支持，更适合进行统计计算分析研究。虽然目前在国内流行度不高，但是强烈推荐。
可以尝试改进一些主流算法使其更加快速高效，例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。

需要广而深的阅读世界着名会议论文跟踪热点技术。如KDD，ICML，IJCAI，Association for the Advancement of Artificial Intelligence，ICDM 等等；还有数据挖掘相关领域期刊：ACM Transactions on Knowledge Discovery from Data，IEEE Transactions on Knowledge and Data Engineering，Journal of Machine Learning Research Homepage，IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。

可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ，Kaggle: Go from Big Data to Big Analytics等。

可以尝试为一些开源项目贡献自己的代码，比如Apache Mahout: Scalable machine learning and data mining ,myrrix等（具体可以在SourceForge或GitHub.上发现更多好玩的项目）。

经
典图书推荐：《机器学习》
《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》，英文素质是科研人才必备的《Machine
Learning: A Probabilistic Perspective》《Scaling up Machine Learning :
Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise
Miner : A Case Study Approach》《Python for Data Analysis》等。

三、以下是通信行业数据挖掘工程师的工作感受。

真
正从数据挖掘项目实践的角度讲，沟通能力对挖掘的兴趣爱好是最重要的，有了爱好才可以愿意钻研，有了不错的沟通能力，才可以正确理解业务问题，才能正确把
业务问题转化成挖掘问题，才可以在相关不同专业人才之间清楚表达你的意图和想法，取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的
核心竞争力，是很难学到的；而其他的相关专业知识谁都可以学，算不上个人发展的核心竞争力。

说到这里可能很多数据仓库专家、程序员、统计
师等等都要扔砖头了，对不起，我没有别的意思，你们的专业对于数据挖掘都很重要，大家本来就是一个整体的，但是作为单独一个个体的人来说，精力有限，时间
有限，不可能这些领域都能掌握，在这种情况下，选择最重要的核心，我想应该是数据挖掘技能和相关业务能力吧（从另外的一个极端的例子，我们可以看，
比如一个迷你型的挖掘项目，一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库，但是简单的Excel就足以胜任高打6万个样本
的数据处理；他虽然不懂专业的展示展现技能，但是只要他自己看的懂就行了，这就无需什么展示展现；前面说过，统计技能是应该掌握的，这对一个人的迷你项目
很重要；他虽然不懂编程，但是专业挖掘工具和挖掘技能足够让他操练的；这样在迷你项目中，一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了，甚至
在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路，试问就是这个迷你项目，单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技
师、甚至单纯的一个挖掘技术专家，都是无法胜任的）。这从另一个方面也说明了为什么沟通能力的重要，这些个完全不同的专业领域，想要有效有机地整合在一起
进行数据挖掘项目实践，你说没有好的沟通能力行吗？

数据挖掘能力只能在项目实践的熔炉中提升、升华，所以跟着项目学挖掘是最有效的捷径。
国外学习挖掘的人都是一开始跟着老板做项目，刚开始不懂不要紧，越不懂越知道应该学什么，才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的，
但是从网上的一些论坛看，很多都是纸上谈兵，这样很浪费时间，很没有效率。

另外现在国内关于数据挖掘的概念都很混乱，很多BI只是局限在
报表的展示和简单的统计分析，却也号称是数据挖掘；另一方面，国内真正规模化实施数据挖掘的行业是屈指可数（银行、保险公司、移动通讯），其他行业的应用
就只能算是小规模的，比如很多大学都有些相关的挖掘课题、挖掘项目，但都比较分散，而且都是处于摸索阶段，但是我相信数据挖掘在中国一定是好的前景，因为
这是历史发展的必然。

讲到移动方面的实践案例，如果你是来自移动的话，你一定知道国内有家叫华院分析的公司（申明，我跟这家公司没有任何
关系，我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司，觉得华院还不错，比很多徒有虚名的大公司来得更实际），他们的业务现在已经覆
盖了绝大多数中国省级移动公司的分析挖掘项目，你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起
家，自己不懂不要紧，一边自学一边开始拓展客户，到现在在中国的移动通讯市场全面开花，的确佩服佩服呀。他们最开始都是用EXCEL处理数据，用肉眼比较
选择比较不同的模型，你可以想象这其中的艰难吧。

至于移动通讯的具体的数据挖掘的应用，那太多了，比如不同话费套餐的制订、客户流失模
型、不同服务交叉销售模型、不同客户对优惠的弹性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型，太多了，记住，从客户
的需求出发，从实践中的问题出发，移动中可以发现太多的挖掘项目。最后告诉你一个秘密，当你数据挖掘能力提升到一定程度时，你会发现无论什么行业，其实数
据挖掘的应用有大部分是重合的相似的，这样你会觉得更轻松。

四、成为一名数据科学家需要掌握的技能图。（原文：Data Science: How do I become a data scientist?）

导航:首页 > 源码编译 > hadoop算法题

hadoop算法题

与hadoop算法题相关的资料