hadoopc编程_如何使用Python为Hadoop编写一个简单的MapReduce程序

⑴ 编程各个语言之间的区别很大吗

编程各个语言之间的区别：下面列举java语言、python语言、C语言、php语言。

1、java语言：java语言有跨平台的优势以及强大的类库，其他语言很难超越，java衍生除了非常多周边产品（如jsp），非常多的开源系统都是基于java（hadoop、hive、hbase、lucene等），java和c一样也是编译执行的语言，区别在于java编译出的字节码文件运行在一层java虚拟机之上，而虚拟机可以架设在各种操作系统上，所以java也就有了跨平台的优势，一处编译多处执行。Java一般应用于Android系统的应用开发。

2、python语言的强大在于它的多功能性，既是解释执行，又可以编译成文件，既是脚本语言，又具有面向对象的所有性质，如今python开源的类库已经非常强大了，什么功能都有，python也成了大数据方向必要的工具。python一般应用于人工智能的应用开发。

3、C语言是编译执行的语言，是万物之源。linux下常用的编译器是gcc，c语言源代码可以直接被编译成可执行程序（机器码），被称为万物之源是因为各种语言都是用C语言写的，如java、php、python……C语言一般应用于嵌入式底层技术的开发。

4、PHP语言的巨大生态系统使得在未来几年里全世界需要大量的开发人员对其提供支持。排名前三的内容管理系统－WordPress、Drupal和Joomla都是使用PHP构建的，而且迄今大概有80%的网站运行在PHP之上。PHP语言一般应用于网站的应用开发。

所以，你可以根据自己的应用来选择学习语言。

⑵ 如何入门大数据(数据挖掘方面)

如何入门大数据(数据挖掘方面)?这是一个涵盖了从自学基础到实践应用的综合性问题。本文从个人经历出发，结合对大数据和数据挖掘的理解，提出了一条相对系统的路径供有意向转行或入门数据挖掘的读者参考。以下内容将分为基础知识自学、机器学习自学、应用实践、以及其它相关建议几个部分，旨在提供一个相对全面的学习路径。

### 基础知识自学

#### 编程语言与数据结构算法

- **C/C++与Java**：理解编程语言的基础逻辑是关键。推荐先从C语言入手，阅读《C程序设计语言》，随后系统地学习《C++ Primer》，并尝试《Effective C++》来提升C++编程技巧。
- **数据结构与算法**：使用《算法(第4版)》学习常见算法，同时阅读《剑指offer》和《程序员代码面试指南》以提升算法应用与面试准备能力。

#### 操作系统与网络编程

- 学习《深入理解计算机系统》的基础概念，针对面试准备，将主要精力放在编程语言、数据结构算法上，以背诵面试常见问题为主。

### 机器学习自学

#### 常见机器学习算法

- **入门**：通过吴恩达的《机器学习》视频课程作为起点，推荐同时参考《机器学习实战》与《统计学习方法》，前者侧重实践，后者强调理论，二者结合学习效果更佳。
- **深入理解**：《机器学习》（周志华着）是后续深入学习的良好资源。确保理解各种算法的原理，重点掌握决策树（DT）、逻辑回归（LR）、支持向量机（SVM）以及随机森林（RF）、GBDT等算法的原理与参数调整。

#### 实际应用与问题解决

- **实践**：参与Kaggle比赛或使用Python数据分析工具（如numpy、pandas、matplotlib、sklearn）处理实际数据，提升解决问题的能力。
- **特征处理**：学习特征选择、数据清洗等技能，了解不同机器学习模型的适用场景。

### 其它

- **大数据框架**：学习Hadoop或Spark的基础知识，Java是Hadoop的首选开发语言，而Scala或Python的API适用于Spark。
- **实习经验**：尽量在实习中积累经验，面试时有实习经历更有优势。
- **笔试与面试准备**：准备充分，内推是避免笔试压力的有效途径。

### 推荐书单

- **编程语言与数据结构算法**：《C程序设计语言》、《C++ Primer》、《算法(第4版)》、《剑指offer》、《程序员代码面试指南》。
- **机器学习**：《机器学习》（周志华）、《机器学习实战》、《统计学习方法》、《推荐系统实践》。
- **Python**：《Python核心编程(第二版)》、《利用Python进行数据分析》。

### 小结

数据挖掘与大数据领域涉及广泛的知识体系，从基础知识到实践应用，都需要系统的学习与经验积累。本文提供的路径旨在提供一个学习起点，但具体路径与进度应根据个人情况进行调整。保持持续学习的态度，不断实践与探索，是成功步入数据挖掘领域的关键。

⑶ hadoop支持什么开发语言

hadoop支持C++，Java开发语言。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。MapRece是处理大量半结构化数据集合的编程模型。编程模型是一种处理并结构化特定问题的方式。

例如，在一个关系数据库中，使用一种集合语言执行查询，如SQL。告诉语言想要的结果，并将它提交给系统来计算出如何产生计算。还可以用更传统的语言(C++，Java)，一步步地来解决问题。这是两种不同的编程模型，MapRece就是另外一种。

(3)hadoopc编程扩展阅读

特点

1、确定哪些数据属于企业的敏感数据。根据公司的隐私保护政策，以及相关的行业法规和政府规章来综合确定。

2、确保数据保护方案同时采用了隐藏和加密技术，尤其是如果我们需要将敏感数据在Hadoop中保持独立的话。

3、确保需要加密的时候有合适的技术(比如Java、Pig等)可被部署并支持无缝解密和快速访问数据。

⑷ 如何在Hadoop上编写MapRece程序

1. 概述

1970年，IBM的研究员E.F.Codd博士在刊物《Communication of the ACM》上发表了一篇名为“A Relational Model of Data for Large Shared Data Banks”的论文，提出了关系模型的概念，标志着关系数据库的诞生，随后几十年，关系数据库及其结构化查询语言SQL成为程序员必须掌握的基本技能之一。
2005年4月，Jeffrey Dean和Sanjay Ghemawat在国际会议OSDI上发表“MapRece: Simplified Data Processing on Large Cluster”，标志着google的大规模数据处理系统MapRece公开。受这篇论文的启发，当年秋天，Hadoop 由 Apache Software Foundation 公司作为 Lucene 的子项目 Nutch 的一部分正式被引入，2006 年 3 月份，MapRece 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。如今，Hadoop已经被超过50%的互联网公司使用，其他很多公司正准备使用Hadoop来处理海量数据，随着Hadoop越来越受欢迎，也许在将来的某段时间，Hadoop会成为程序员必须掌握的技能之一，如果真是这样的话，学会如何在Hadoop上编写MapRece程序便是学习Hadoop的开始。
本文介绍了在Hadoop上编写MapRece程序的基本方法，包括MapRece程序的构成，不同语言开发MapRece的方法等。
2. Hadoop 作业构成
2.1 Hadoop作业执行流程
用户配置并将一个Hadoop作业提到Hadoop框架中，Hadoop框架会把这个作业分解成一系列map tasks 和rece tasks。Hadoop框架负责task分发和执行，结果收集和作业进度监控。
下图给出了一个作业从开始执行到结束所经历的阶段和每个阶段被谁控制（用户 or Hadoop框架）。

下图详细给出了用户编写MapRee作业时需要进行那些工作以及Hadoop框架自动完成的工作：

在编写MapRece程序时，用户分别通过InputFormat和OutputFormat指定输入和输出格式，并定义Mapper和Recer指定map阶段和rece阶段的要做的工作。在Mapper或者Recer中，用户只需指定一对key/value的处理逻辑，Hadoop框架会自动顺序迭代解析所有key/value，并将每对key/value交给Mapper或者Recer处理。表面上看来，Hadoop限定数据格式必须为key/value形式，过于简单，很难解决复杂问题，实际上，可以通过组合的方法使key或者value（比如在key或者value中保存多个字段，每个字段用分隔符分开，或者value是个序列化后的对象，在Mapper中使用时，将其反序列化等）保存多重信息，以解决输入格式较复杂的应用。
2.2 用户的工作
用户编写MapRece需要实现的类或者方法有：
（1） InputFormat接口
用户需要实现该接口以指定输入文件的内容格式。该接口有两个方法

1
2
3
4
5
6
7
8
9
10
11

public interface InputFormat<K, V> {

InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;

RecordReader<K, V> getRecordReader(InputSplit split,

JobConf job,

Reporter reporter) throws IOException;

}

其中getSplits函数将所有输入数据分成numSplits个split，每个split交给一个map task处理。getRecordReader函数提供一个用户解析split的迭代器对象，它将split中的每个record解析成key/value对。
Hadoop本身提供了一些InputFormat：

（2）Mapper接口
用户需继承Mapper接口实现自己的Mapper，Mapper中必须实现的函数是

1
2
3
4
5
6
7
8
9

void map(K1 key,

V1 value,

OutputCollector<K2,V2> output,

Reporter reporter

) throws IOException

其中，<K1 V1>是通过Inputformat中的RecordReader对象解析处理的，OutputCollector获取map()的输出结果，Reporter保存了当前task处理进度。
Hadoop本身提供了一些Mapper供用户使用：

（3）Partitioner接口
用户需继承该接口实现自己的Partitioner以指定map task产生的key/value对交给哪个rece task处理，好的Partitioner能让每个rece task处理的数据相近，从而达到负载均衡。Partitioner中需实现的函数是
getPartition( K2 key, V2 value, int numPartitions)
该函数返回<K2 V2>对应的rece task ID。
用户如果不提供Partitioner，Hadoop会使用默认的（实际上是个hash函数）。
（4）Combiner
Combiner使得map task与rece task之间的数据传输量大大减小，可明显提高性能。大多数情况下，Combiner与Recer相同。
（5）Recer接口
用户需继承Recer接口实现自己的Recer，Recer中必须实现的函数是

1
2
3
4
5
6
7
8
9

void rece(K2 key,

Iterator<V2> values,

OutputCollector<K3,V3> output,

Reporter reporter

) throws IOException

Hadoop本身提供了一些Recer供用户使用：

（6）OutputFormat
用户通过OutputFormat指定输出文件的内容格式，不过它没有split。每个rece task将其数据写入自己的文件，文件名为part-nnnnn，其中nnnnn为rece task的ID。
Hadoop本身提供了几个OutputFormat:
3. 分布式缓存
Haoop中自带了一个分布式缓存，即DistributedCache对象，方便map task之间或者rece task之间共享一些信息，比如某些实际应用中，所有map task要读取同一个配置文件或者字典，则可将该配置文件或者字典放到分布式缓存中。
4. 多语言编写MapRece作业
Hadoop采用java编写，因而Hadoop天生支持java语言编写作业，但在实际应用中，有时候，因要用到非java的第三方库或者其他原因，要采用C/C++或者其他语言编写MapRece作业，这时候可能要用到Hadoop提供的一些工具。
如果你要用C/C++编写MpaRece作业，可使用的工具有Hadoop Streaming或者Hadoop Pipes。
如果你要用Python编写MapRece作业，可以使用Hadoop Streaming或者Pydoop。
如果你要使用其他语言，如shell，php，ruby等，可使用Hadoop Streaming。
关于Hadoop Streaming编程，可参见我的这篇博文：《Hadoop Streaming编程》（http://dongxicheng.org/maprece/hadoop-streaming-programming/ ）
关于Pydoop编程，可参见其官方网站：http://sourceforge.net/projects/pydoop/
关于Hadoop pipes编程，可参见《Hadoop Tutorial 2.2 — Running C++ Programs on Hadoop》。
5. 编程方式比较
（1）java。 Hadoop支持的最好最全面的语言，而且提供了很多工具方便程序员开发。
（2）Hadoop Streaming。它最大的优点是支持多种语言，但效率较低，rece task需等到map 阶段完成后才能启动；它不支持用户自定义InputFormat，如果用户想指定输入文件格式，可使用java语言编写或者在命令行中指定分隔符；它采用标准输入输出让C/C++与java通信，因而只支持text数据格式。
（3）Hadoop Pipes。专门为C/C++语言设计，由于其采用了socket方式让C/C++与java通信，因而其效率较低（其优势在于，但作业需要大量，速度很快）。它支持用户（用C/C++）编写RecordReader。
（4）Pydoop。它是专门方便python程序员编写MapRece作业设计的，其底层使用了Hadoop Streaming接口和libhdfs库。
6. 总结
Hadoop使得分布式程序的编写变得异常简单，很多情况下，用户只需写map()和rece()两个函数即可（InputFormat，Outputformat可用系统缺省的）。正是由于Hadoop编程的简单性，越来越多的公司或者研究单位开始使用Hadoop。

⑸ 十大编程语言特点及应用领域是什么

计算机的发展，促使了一个新的职业的出现，程序员是近些年出现的并且得到了广泛关注的一个职业，相信这也是很多莘莘学子的职业梦想。但程序员也有很多种，并不是每一个程序员能够精通所有的编程语言。所谓术业有专攻，如果将来志在编程世界的网友就要注意了，今天西安卓新思创移动互联网教育产业联盟的雷老师给大家推荐一下2014年最流行的编程语言，他们可以说是未来程序员们生存的工具。
1.Java
首先我要推荐的就是Java语言，相信只要略微了解编程的人就会听过Java，其如今依然展现出强势的增长势头，说其是目前最流行的编程语言也不为过。并且随着移动和大数据的发展，以基于Java的Hadoop如今发展迅速，这也是Java编程人员更加千金难寻。其可以用于各种各样的领域，包括企业应用及基础设施，以及Web应用和移动开发。 >>>测试你是否适合学习Java<<<
2.JavaScript
JavaScript在Web应用上有着非常大的需求，主要目的是为了解决服务器端语言，比如Perl，遗留的速度问题，为客户提供更流畅的浏览效果。JavaScript主要用于实现为Web浏览器，以提供增强的用户界面和动态网站。>>>点击了解何为JavaScript<<<
最流行的编程语言C/C++.
3.C/C++
C和C++都是基于C的语言，是目前最流行的编程语言， C常被用作系统以及应用程序的编程语言，如嵌入式系统的应用程序。C++语言为C的增强，其在出现后迅速成为开发人员之间最流行的语言之一。它是用于开发系统软件，应用软件，设备驱动程序，嵌入式软件，高性能服务器和客户端应用及娱乐软件，如视频游戏。 >>>看职业规划专家如何评价C/C++<<<
4.C#
C#是微软公司发布的一种面向对象的、运行于.NET Framework之上的高级程序设计语言。C#是微软公司用来替代Java而开发的一种语言，并借鉴了Java，C，C++和Delphi的一些特点，如今C#已经成为微软应用商店和开发成员非常欢迎的开发语言。
5.PHP
PHP是一种通用开源脚本语言，特别适合于Web开发，可嵌入到HTML中，它最初是用来设计动态网页产生的。语法吸收了C语言、Java和Perl的特点，入门门槛较低，易于学习，使用广泛。
针对苹果系统的Objective-C.
6.Python
Python是应用于设计各种各样的应用程序的动态语言，往往比Tcl，Perl，Ruby，Scheme和Java更容易编写。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够很轻松的把用其他语言制作的各种模块（尤其是C/C++）轻松地联结在一起。>>>看学哥学姐选的语言方向<<<
7.Ruby
Ruby是一种动态的，侧重于简单个高效的开源语言，他是一个优雅的语法，能够很自然的阅读和编写，适合于快速开发，一般开发效率是JAVA的5倍。
8.Objective-C
对于钟情于Apple设备的网友来说，Objective-C的流行就得益于苹果的成功，其是增加了Smalltalk风格的消息在C编程语言中的反射，面向对象的语言。主要使用于苹果系统和GNUstep这两个使用OpenStep的标准的系统。随着苹果平台的巨大人气，如今Objective-C语言被人们逐渐知道。
Web应用领域的HTML5.
9.HTML5
HTML5是用于构建因特网的核心技术的标准语言，用于Web呈现内容，它是HTML标准的第五次修订，如今，HTML5继续在移动开发领域发挥着重要的作用，为互联网的发展提供了多样化的发展道路，37％的开发者依赖HTML5开发移动网站和Web应用程序。
10.CSS
CSS是一种用来表现HTML）或XML等文件样式的计算机语言。最常用于Web样式和HTML和Xhtml接口，该语言可以应用与任何类型的XML文档， CSS的设计主要是为了使文档内容从文档表示的分离，包括元素，如布局，颜色和字体。
总结：这是目前最流行的十种编程语言，这些语言针对不同的领域，对于初学者来说，如果你想学编程开发，那么你需要了解这些语言的不同用户，选择自己喜欢的领域去研究，术业有专攻，这样才能够在未来职场有更好的发展。

⑹ 如何使用Python为Hadoop编写一个简单的MapRece程序

在这个实例中，我将会向大家介绍如何使用Python 为 Hadoop编写一个简单的MapRece
程序。
尽管Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jython编写并打包成Jar文件，这样显然造成了不便，其实，不一定非要这样来实现，我们可以使用Python与Hadoop 关联进行编程，看看位于/src/examples/python/WordCount.py 的例子，你将了解到我在说什么。

我们想要做什么？

我们将编写一个简单的 MapRece 程序，使用的是C-Python，而不是Jython编写后打包成jar包的程序。
我们的这个例子将模仿 WordCount 并使用Python来实现，例子通过读取文本文件来统计出单词的出现次数。结果也以文本形式输出，每一行包含一个单词和单词出现的次数，两者中间使用制表符来想间隔。

先决条件

编写这个程序之前，你学要架设好Hadoop 集群，这样才能不会在后期工作抓瞎。如果你没有架设好，那么在后面有个简明教程来教你在Ubuntu Linux 上搭建（同样适用于其他发行版linux、unix）

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立单节点的 Hadoop 集群

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立多节点的 Hadoop 集群

Python的MapRece代码

使用Python编写MapRece代码的技巧就在于我们使用了 HadoopStreaming 来帮助我们在Map 和 Rece间传递数据通过STDIN (标准输入)和STDOUT (标准输出).我们仅仅使用Python的sys.stdin来输入数据，使用sys.stdout输出数据，这样做是因为HadoopStreaming会帮我们办好其他事。这是真的，别不相信！

Map: mapper.py

将下列的代码保存在/home/hadoop/mapper.py中，他将从STDIN读取数据并将单词成行分隔开，生成一个列表映射单词与发生次数的关系：
注意：要确保这个脚本有足够权限（chmod +x /home/hadoop/mapper.py）。

#!/usr/bin/env python

import sys

# input comes from STDIN (standard input)
for line in sys.stdin:
# remove leading and trailing whitespace
line = line.strip()
# split the line into words
words = line.split()
# increase counters
for word in words:
# write the results to STDOUT (standard output);
# what we output here will be the input for the
# Rece step, i.e. the input for recer.py
#
# tab-delimited; the trivial word count is 1
print '%s\\t%s' % (word, 1)在这个脚本中，并不计算出单词出现的总数，它将输出 "<word> 1" 迅速地，尽管<word>可能会在输入中出现多次，计算是留给后来的Rece步骤（或叫做程序）来实现。当然你可以改变下编码风格，完全尊重你的习惯。

Rece: recer.py

将代码存储在/home/hadoop/recer.py 中，这个脚本的作用是从mapper.py 的STDIN中读取结果，然后计算每个单词出现次数的总和，并输出结果到STDOUT。
同样，要注意脚本权限：chmod +x /home/hadoop/recer.py

#!/usr/bin/env python

from operator import itemgetter
import sys

# maps words to their counts
word2count = {}

# input comes from STDIN
for line in sys.stdin:
# remove leading and trailing whitespace
line = line.strip()

# parse the input we got from mapper.py
word, count = line.split('\\t', 1)
# convert count (currently a string) to int
try:
count = int(count)
word2count[word] = word2count.get(word, 0) + count
except ValueError:
# count was not a number, so silently
# ignore/discard this line
pass

# sort the words lexigraphically;
#
# this step is NOT required, we just do it so that our
# final output will look more like the official Hadoop
# word count examples
sorted_word2count = sorted(word2count.items(), key=itemgetter(0))

# write the results to STDOUT (standard output)
for word, count in sorted_word2count:
print '%s\\t%s'% (word, count)
测试你的代码（cat data | map | sort | rece）

我建议你在运行MapRece job测试前尝试手工测试你的mapper.py 和 recer.py脚本，以免得不到任何返回结果
这里有一些建议，关于如何测试你的Map和Rece的功能：
——————————————————————————————————————————————
\r\n
# very basic test
hadoop@ubuntu:~$ echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py
foo 1
foo 1
quux 1
labs 1
foo 1
bar 1
——————————————————————————————————————————————
hadoop@ubuntu:~$ echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py | sort | /home/hadoop/recer.py
bar 1
foo 3
labs 1
——————————————————————————————————————————————

# using one of the ebooks as example input
# (see below on where to get the ebooks)
hadoop@ubuntu:~$ cat /tmp/gutenberg/20417-8.txt | /home/hadoop/mapper.py
The 1
Project 1
Gutenberg 1
EBook 1
of 1
[...]
(you get the idea)

quux 2

quux 1

——————————————————————————————————————————————

在Hadoop平台上运行Python脚本

为了这个例子，我们将需要三种电子书：

The Outline of Science, Vol. 1 (of 4) by J. Arthur Thomson\r\n
The Notebooks of Leonardo Da Vinci\r\n
Ulysses by James Joyce
下载他们，并使用us-ascii编码存储解压后的文件，保存在临时目录，比如/tmp/gutenberg.

hadoop@ubuntu:~$ ls -l /tmp/gutenberg/
total 3592
-rw-r--r-- 1 hadoop hadoop 674425 2007-01-22 12:56 20417-8.txt
-rw-r--r-- 1 hadoop hadoop 1423808 2006-08-03 16:36 7ldvc10.txt
-rw-r--r-- 1 hadoop hadoop 1561677 2004-11-26 09:48 ulyss12.txt
hadoop@ubuntu:~$

复制本地数据到HDFS

在我们运行MapRece job 前，我们需要将本地的文件复制到HDFS中：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -FromLocal /tmp/gutenberg gutenberg
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls
Found 1 items
/user/hadoop/gutenberg <dir>
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg
Found 3 items
/user/hadoop/gutenberg/20417-8.txt <r 1> 674425
/user/hadoop/gutenberg/7ldvc10.txt <r 1> 1423808
/user/hadoop/gutenberg/ulyss12.txt <r 1> 1561677

执行 MapRece job

现在，一切准备就绪，我们将在运行Python MapRece job 在Hadoop集群上。像我上面所说的，我们使用的是
HadoopStreaming 帮助我们传递数据在Map和Rece间并通过STDIN和STDOUT，进行标准化输入输出。

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-mapper /home/hadoop/mapper.py -recer /home/hadoop/recer.py -input gutenberg/*
-output gutenberg-output
在运行中，如果你想更改Hadoop的一些设置，如增加Rece任务的数量，你可以使用“-jobconf”选项：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-jobconf mapred.rece.tasks=16 -mapper ...

一个重要的备忘是关于Hadoop does not honor mapred.map.tasks
这个任务将会读取HDFS目录下的gutenberg并处理他们，将结果存储在独立的结果文件中，并存储在HDFS目录下的
gutenberg-output目录。
之前执行的结果如下：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-mapper /home/hadoop/mapper.py -recer /home/hadoop/recer.py -input gutenberg/*
-output gutenberg-output

additionalConfSpec_:null
null=@@@userJobConfProps_.get(stream.shipped.hadoopstreaming
packageJobJar: [/usr/local/hadoop-datastore/hadoop-hadoop/hadoop-unjar54543/]
[] /tmp/streamjob54544.jar tmpDir=null
[...] INFO mapred.FileInputFormat: Total input paths to process : 7
[...] INFO streaming.StreamJob: getLocalDirs(): [/usr/local/hadoop-datastore/hadoop-hadoop/mapred/local]
[...] INFO streaming.StreamJob: Running job: job_200803031615_0021
[...]
[...] INFO streaming.StreamJob: map 0% rece 0%
[...] INFO streaming.StreamJob: map 43% rece 0%
[...] INFO streaming.StreamJob: map 86% rece 0%
[...] INFO streaming.StreamJob: map 100% rece 0%
[...] INFO streaming.StreamJob: map 100% rece 33%
[...] INFO streaming.StreamJob: map 100% rece 70%
[...] INFO streaming.StreamJob: map 100% rece 77%
[...] INFO streaming.StreamJob: map 100% rece 100%
[...] INFO streaming.StreamJob: Job complete: job_200803031615_0021

[...] INFO streaming.StreamJob: Output: gutenberg-output hadoop@ubuntu:/usr/local/hadoop$

正如你所见到的上面的输出结果，Hadoop 同时还提供了一个基本的WEB接口显示统计结果和信息。
当Hadoop集群在执行时，你可以使用浏览器访问 http://localhost:50030/ ，如图：

检查结果是否输出并存储在HDFS目录下的gutenberg-output中：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg-output
Found 1 items
/user/hadoop/gutenberg-output/part-00000 <r 1> 903193 2007-09-21 13:00
hadoop@ubuntu:/usr/local/hadoop$

可以使用dfs -cat 命令检查文件目录

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -cat gutenberg-output/part-00000
"(Lo)cra" 1
"1490 1
"1498," 1
"35" 1
"40," 1
"A 2
"AS-IS". 2
"A_ 1
"Absoluti 1
[...]
hadoop@ubuntu:/usr/local/hadoop$

注意比输出，上面结果的(")符号不是Hadoop插入的。

转载仅供参考，版权属于原作者。祝你愉快，满意请采纳哦

⑺ 如何使用Python为Hadoop编写一个简单的MapRece程序

MichaelG.Noll在他的Blog中提到如何在Hadoop中用Python编写MapRece程序，韩国的gogamza在其Bolg中也提到如何用C编汪瞎写MapRece程序（我稍微修改了一下原程序,因为他的Map对单词切分使用tab键）。我合并他们两人的文章，也让国内的Hadoop用户能够使用别的语言来编写MapRece程序。首先您得配好您的Hadoop集群，这方面的介绍网上比较多，这儿给个链接（Hadoop学习笔记二安装部署）。HadoopStreaming帮助返锋我们用非Java的编程语言使用MapRece，Streaming用STDIN(标准输入)和STDOUT(标准输出)来和我们编写的Map和Rece进行数据的交换数据。任何能够使用STDIN和STDOUT都可以用来编写MapRece程序，比如我们用Python的sys.stdin和sys.stdout，或者是C中的stdin和stdout。我们还是使用Hadoop的例子WordCount来做示范如何编写MapRece，在WordCount的例子中漏陵晌我们要解决计算在一批文档中每一个单词的出现频率。首先我们在Map程序中会接受到这批文档每一行的数据，然后我们编写的Map程序把这一行按空格切开成一个数组。并对这个数组遍历按"1"用标准的输出输出来，代表这个单词出现了一次。在Rece中我们来统计单词的出现频率。PythonCodeMap:mapper.py#!/usr/bin/envpythonimportsys#={}#inputcomesfromSTDIN(standardinput)forlineinsys.stdin:#=line.strip()#=filter(lambdaword:word,line.split())#:#writetheresultstoSTDOUT(standardoutput);##Recestep,i.e.theinputforrecer.py##tab-delimited;thetrivialwordcountis1print'%s\t%s'%(word,1)Rece:recer.py#!/usr/bin/#={}#.stdin:#=line.strip()#parsetheinputwegotfrommapper.pyword,count=line.split()#convertcount(currentlyastring)tointtry:count=int(count)word2count[word]=word2count.get(word,0)+countexceptValueError:#countwasnotanumber,sosilently#ignore/discardthislinepass#sortthewordslexigraphically;##thisstepisNOTrequired,wejustdoitsothatour##wordcountexamplessorted_word2count=sorted(word2count.items(),key=itemgetter(0))#writetheresultstoSTDOUT(standardoutput)forword,countinsorted_word2count:print'%s\t%s'%(word,count)CCodeMap:Mapper.c#include#include#include#include#defineBUF_SIZE2048#defineDELIM"\n"intmain(intargc,char*argv[]){charbuffer[BUF_SIZE];while(fgets(buffer,BUF_SIZE-1,stdin)){intlen=strlen(buffer);if(buffer[len-1]=='\n')buffer[len-1]=0;char*querys=index(buffer,'');char*query=NULL;if(querys==NULL)continue;querys+=1;/*nottoinclude'\t'*/query=strtok(buffer,"");while(query){printf("%s\t1\n",query);query=strtok(NULL,"");}}return0;}h>h>h>h>Rece:Recer.c#include#include#include#include#defineBUFFER_SIZE1024#defineDELIM"\t"intmain(intargc,char*argv[]){charstrLastKey[BUFFER_SIZE];charstrLine[BUFFER_SIZE];intcount=0;*strLastKey='\0';*strLine='\0';while(fgets(strLine,BUFFER_SIZE-1,stdin)){char*strCurrKey=NULL;char*strCurrNum=NULL;strCurrKey=strtok(strLine,DELIM);strCurrNum=strtok(NULL,DELIM);/*necessarytocheckerrorbut.*/if(strLastKey[0]=='\0'){strcpy(strLastKey,strCurrKey);}if(strcmp(strCurrKey,strLastKey)){printf("%s\t%d\n",strLastKey,count);count=atoi(strCurrNum);}else{count+=atoi(strCurrNum);}strcpy(strLastKey,strCurrKey);}printf("%s\t%d\n",strLastKey,count);/*flushthecount*/return0;}h>h>h>h>首先我们调试一下源码：chmod+xmapper.pychmod+xrecer.pyecho"foofooquuxlabsfoobarquux"|./mapper.py|./recer.pybar1foo3labs1quux2g++Mapper.c-oMapperg++Recer.c-oRecerchmod+xMapperchmod+xRecerecho"foofooquuxlabsfoobarquux"|./Mapper|./你可能看到C的输出和Python的不一样,因为Python是把他放在词典里了.我们在Hadoop时,会对这进行排序,然后相同的单词会连续在标准输出中输出.在Hadoop中运行程序首先我们要下载我们的测试文档wget页面中摘下的用php编写的MapRece程序,供php程序员参考：Map:mapper.php#!/usr/bin/php$word2count=array();//inputcomesfromSTDIN(standardinput)while(($line=fgets(STDIN))!==false){//$line=strtolower(trim($line));//$words=preg_split('/\W/',$line,0,PREG_SPLIT_NO_EMPTY);//increasecountersforeach($wordsas$word){$word2count[$word]+=1;}}//writetheresultstoSTDOUT(standardoutput)////Recestep,i.e.theinputforrecer.pyforeach($word2countas$word=>$count){//tab-delimitedecho$word,chr(9),$count,PHP_EOL;}?>Rece:mapper.php#!/usr/bin/php$word2count=array();//inputcomesfromSTDINwhile(($line=fgets(STDIN))!==false){//$line=trim($line);//parsetheinputwegotfrommapper.phplist($word,$count)=explode(chr(9),$line);//convertcount(currentlyastring)toint$count=intval($count);//sumcountsif($count>0)$word2count[$word]+=$count;}//sortthewordslexigraphically////thissetisNOTrequired,wejustdoitsothatour////wordcountexamplesksort($word2count);//writetheresultstoSTDOUT(standardoutput)foreach($word2countas$word=>$count){echo$word,chr(9),$count,PHP_EOL;}?>作者：马士华发表于：2008-03-05

导航:首页 > 编程语言 > hadoopc编程

hadoopc编程

与hadoopc编程相关的资料