mapreducesort算法_请简要描述Hadoop计算框架MapReduce的工作原理

A. 如何使用Python为Hadoop编写一个简单的MapRece程序

我们将编写一个简单的 MapRece 程序，使用的是C-Python，而不是Jython编写后打包成jar包的程序。
我们的这个例子将模仿 WordCount 并使用Python来实现，例子通过读取文本文件来统计出单词的出现次数。结果也以文本形式输出，每一行包含一个单词和单词出现的次数，两者中间使用制表符来想间隔。

先决条件

编写这个程序之前，你学要架设好Hadoop 集群，这样才能不会在后期工作抓瞎。如果你没有架设好，那么在后面有个简明教程来教你在Ubuntu linux 上搭建（同样适用于其他发行版linux、unix）

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立单节点的 Hadoop 集群

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立多节点的 Hadoop 集群

Python的MapRece代码

使用Python编写MapRece代码的技巧就在于我们使用了 HadoopStreaming 来帮助我们在Map 和 Rece间传递数据通过STDIN (标准输入)和STDOUT (标准输出).我们仅仅使用Python的sys.stdin来输入数据，使用sys.stdout输出数据，这样做是因为HadoopStreaming会帮我们办好其他事。这是真的，别不相信！

B. hadoop中mapper用时间间隔做为key怎么写

从Map到Rece

MapRece其实是分治算法的一种实现，其处理过程亦和用管道命令来处理十分相似，一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代，从处理流程的角度来看大概如下：
cat input | grep | sort | uniq -c | cat > output # Input -> Map -> Shuffle & Sort -> Rece -> Output
简单的流程图如下：

对于Shuffle，简单地说就是将Map的输出通过一定的算法划分到合适的Recer中进行处理。Sort当然就是对中间的结果进行按key排序，因为Recer的输入是严格要求按key排序的。
Input->Map->Shuffle&Sort->Rece->Output只是从宏观的角度对MapRece的简单描述，实际在MapRece的框架中，即从编程的角度来看，其处理流程是Input->Map->Sort->Combine->Partition->Rece->Output。用之前的对温度进行统计的例子来讲述这些过程。
Input Phase

输入的数据需要以一定的格式传递给Mapper的，格式有多种，如TextInputFormat、DBInputFormat、SequenceFileInput等等，可以使用JobConf.setInputFormat来设置，这个过程还应该包括对输入的数据进行任务粒度划分(split)然后再传递给Mapper。在温度的例子中，由于处理的都是文本数据，输入的格式使用默认的TextInputFormat即可。
Map Phase

对输入的key、value对进行处理，输出的是key、value的集合，即map (k1, v1) -> list(k2, v2)，使用JobConf.setMapperClass设置自己的Mapper。在例子中，将（行号、温度的文本数据）作为key/value输入，经过处理后，从温度的文件数据中提取出日期中的年份和该日的温度数据，形成新的key/value对，最后以list(年, 温度)的结果输出，如[(1950, 10), (1960, 40), (1960, 5)]。
Sort Phase

对Mapper输出的数据进行排序，可以通过JobConf.setOutputKeyComparatorClass来设置自己的排序规则。在例子中，经过排序之后，输出的list集合是按年份进行排序的list(年, 温度)，如[(1950, 10), (1950, 5), (1960, 40)]。
Combine Phase

这个阶段是将中间结果中有相同的key的<key, value>对合并成一对，Combine的过程与Rece很相似，使用的甚至是Rece的接口。通过Combine能够减少<key, value>的集合数量，从而减少网络流量。Combine只是一个可选的优化过程，并且无论Combine执行多少次(>=0)，都会使Recer产生相同的输出，使用JobConf.setCombinerClass来设置自定义的Combine Class。在例子中，假如map1产生出的结果为[(1950, 0), (1950, 20), (1950, 10)]，在map2产生出的结果为[(1950, 15), (1950, 25)]，这两组数据作为Recer的输入并经过Recer处理后的年最高温度结果为(1950, 25)，然而当在Mapper之后加了Combine（Combine先过滤出最高温度），则map1的输出是[(1950, 20)]和map2的输出是[(1950, 25)]，虽然其他的三组数据被抛弃了，但是对于Recer的输出而言，处理后的年最高温度依然是(1950, 25)。
Partition Phase

把Mapper任务输出的中间结果按key的范围划分成R份（R是预先定义的Rece任务的个数），默认的划分算法是”(key.hashCode() & Integer.MAX_VALUE) % numPartitions”，这样保证了某一范围的key一定是由某个Recer来处理，简化了Recer的处理流程，使用JobConf.setPartitionClass来设置自定义的Partition Class。在例子中，默认就自然是对年份进行取模了。
Rece Phase

Recer获取Mapper输出的中间结果，作为输入对某一key范围区间进行处理，使用JobConf.setRecerClass来设置。在例子中，与Combine Phase中的处理是一样的，把各个Mapper传递过来的数据计算年最高温度。
Output Phase

Recer的输出格式和Mapper的输入格式是相对应的，当然Recer的输出还可以作为另一个Mapper的输入继续进行处理。

C. 请简要描述Hadoop计算框架MapRece的工作原理

分为2个步骤，map和rece，map专门负责对每个数据独立地同时地打标签，框架会对相同标签的数据分成一组，rece对分好的那些组数据做累计计算。我们只要分别实现map和rece就可以了

热点内容

如何建立主索引命令发布：2025-03-10 18:44:59 浏览：599

mac电脑怎么打开终端命令发布：2025-03-10 18:26:27 浏览：741

androidvpn待机不断发布：2025-03-10 18:26:19 浏览：756

硬盘的文件夹如何设置密码发布：2025-03-10 18:24:51 浏览：384

plc定位编程发布：2025-03-10 18:00:55 浏览：47

mac命令添加用户发布：2025-03-10 17:55:07 浏览：815

android时间widget 发布：2025-03-10 17:54:58 浏览：393

qd128h压缩机参数发布：2025-03-10 17:50:14 浏览：287

用单片机测车距发布：2025-03-10 17:44:02 浏览：394

去哪里找加密的便签发布：2025-03-10 17:28:12 浏览：19

武汉订酒店旅馆哪个app平台好发布：2025-03-10 17:17:23 浏览：114

c语言在线编译器字节流发布：2025-03-10 17:04:21 浏览：317

带队伍pdf 发布：2025-03-10 17:02:20 浏览：951

电脑如何形成服务器发布：2025-03-10 16:54:29 浏览：522

javaprint换行发布：2025-03-10 16:50:25 浏览：785

华为手机压缩文件夹怎么操作发布：2025-03-10 16:46:33 浏览：99

c语言垃圾堆这个文件夹可以删吗发布：2025-03-10 16:46:32 浏览：758

websocketssl加密发布：2025-03-10 16:46:32 浏览：924

系统类算法发布：2025-03-10 16:42:49 浏览：657

ai算法血检t细胞衰老发布：2025-03-10 16:37:56 浏览：473

导航:首页 > 源码编译 > mapreducesort算法

mapreducesort算法

与mapreducesort算法相关的资料