导航:首页 > 程序命令 > hdfs命令get

hdfs命令get

发布时间:2023-05-19 23:25:53

❶ hadoop常用shell命令怎么用

一、常用的hadoop命令
1、hadoop的fs命令
#查看hadoop所有的fs命令

1

hadoop fs

#上传文件(put与FromLocal都是上传命令)

1
2

hadoop fs -put jdk-7u55-linux-i586.tar.gz hdfs://hucc01:9000/jdk
hadoop fs -FromLocal jdk-7u55-linux-i586.tar.gz hdfs://hucc01:9000/jdk

#下载命令(get与ToLocal都是下载命令)

1
2

hadoop fs -get hdfs://hucc01:9000/jdk jdk1.7
hadoop fs -ToLocal hdfs://hucc01:9000/jdk jdk1.7

#将本地一个或者多个文件追加到hdfs文件中(appendToFile)

1

hadoop fs -appendToFile install.log /words

#查询hdfs的所有文件(ls)

1

hadoop fs -ls /

#帮助命令(help)

1

hadoop fs -help fs

#查看hdfs文件的内容(cat和text)

1
2

hadoop fs -cat /words
hadoop fs -text /words

#删除hdfs文件(rm)

1

hadoop fs -rm -r /words

#统计hdfs文件和文件夹的数量(count)

1

hadoop fs -count -r /

#合并hdfs某个文件夹的文件,并且下载到本地(getmerge)

1

hadoop fs -getmerge / merge

#将本地文件剪切到hdfs,相当于对本地文件上传后再删除(moveFormLocal)

1

hadoop fs -moveFromLocal words /

#查看当前文件系统的使用状态(df)

1

hadoop fs -df

二、常用的hdfs命令(这个用的比较多)
用法跟hadoop命令一样,推荐2.0之后使用hdfs命令

1

hdfs dfs

❷ HDFS操作命令

HDFS命令基本格式:hadoop fs -cmd < args >

表格:

注意:以上表格中路径包括hdfs中的路径和linux中的路径。对于容易产生歧义的地方,会特别指出“linux路径”或者“hdfs路径”。如果没有明确指出,意味着是hdfs路径。

HDFS有一个默认的工作目录/user/$USER,其中$USER是用户的登录用户名。不过目录不会自动建立,需要mkdir建立它
命令格式:hadoop fs -mkdir

注意:支持级联创建新目录,Hadoop的mkdir命令会自动创建父目录,类似于带-p的linux命令

put命令从本地文件系统中 复制单个或多个 源路径到目标文件系统,也支持从标准输入设备中读取输入并写入目标文件系统。分为本地上传和上传到HDFS中。
命令格式:hadoop fs -put filename

最后一个参数是句点,相当于放入了默认的工作目录,等价于 hadoop fs -put example.txt /user/chen

上传文件时,文件首先复制到DataNode上,只有所有的DataNode都成功接收完数据,文件上传才是成功的。
命令格式:hadoop dfs put filename newfilename

从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从 标准输入 中读取输入写入目标文件系统。

采用-ls命令列出HDFS上的文件。在HDFS中未带参数的-ls命令没有返回任何值,它默认返回HDFS的home目录下
的内容。在HDFS中,没有当前工作目录这样一个概念,也没有cmd这样的命令。
命令格式:user@NameNode:hadoop$ bin/hadoop dfs -ls
如:

通过“-ls 文件夹名” 命令浏览HDFS下文件夹中的文件
命令格式:hadoop dfs -ls 文件夹名

通过该命令可以查看in文件夹中的所有文档文件

通过“-cat 文件名”命令查看HDFS下文件夹中某个文件的内容
命令格式:hadoop$ bin/hadoop dfs -cat 文件名

通过这个命令可以查看in文件夹中所有文件的内容

通过“-get 文件按1 文件2”命令将HDFS中某目录下的文件复制到本地系统的某文件中,并对该文件重新命名。
命令格式:hadoop dfs -get 文件名 新文件名

-get 命令与-put命令一样,既可以操作目录,也可以操作文件

通过“-rmr 文件”命令删除HDFS下的文件
命令格式:hadoop$ bin/hadoop dfs -rmr 文件

-rmr 删除文档命令相当于delete的递归版本。

通过-format命令实现HDFS格式化
命令格式:user@NameNode:hadoop$ bin/hadoop NameNode -format

通过运行start-dfs.sh,就可以启动HDFS了
命令格式:user@NameNode:hadoop$ bin/ start-dfs.sh

当需要退出HDFS时,通过stop-dfs.sh 就可以关闭HDFS
命令格式:user@NameNode:hadoop$ bin/ stop-dfs.sh

HDFS的命令远不止这些,对于其他操作,可以通过-help commandName 命令列出清单。下面列举一些命令进行说明。

(1)chgrp改变文件所属的组命令
chgrp命令的用途是:更改文件或目录的组所有权。
语法格式:hadoop fs -charg [-R] GROUP URL .....
使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。

(2)chmod改变文件的权限
chmod用于改变文件或目录的访问权限,这个Linux系统管理员最常用的命令之一。
使用方法:hadoop fs -chmod [-R] ...
使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者是超级用户

(3)chown改变文件的拥有者
chown命令改变文件的拥有者。
使用方法:hadoop fs -chown [-R]....
使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。

(4)FromLocal命令
除了限定 源路径 是只能是一个 本地文件 外,其他方面和put命令相似。
使用方法:hadoop fs -FromLocal <localsrc> URI

(5)ToLocal命令
除了限定 目标路径 是一个 本地文件 外,其他方面和get命令类似。
使用方法:hadoop fs -ToLocal {-ignorecrc} {-crc} URI <localdst>

(6)cp命令
cp命令是将文件从源路径复制到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录。
使用方法:hadoop fs -cp URI [URI....] <dest>

返回值:成功返回0 ,失败返回-1

(7)命令
命令显示目录中 所有文件的大小 ,或者当只指定一个文件时,显示此文件的大小
使用方法:hadoop fs - URI [URI........]

返回值
成功返回0,失败返回-1

(8)s命令
s是显示 文件大小 的命令。
使用方法:hadoop fs -s <args>

(9)expunge命令
expunge是清空回收站的命令
使用方法:hadoop fs -expunge

(10)get命令
get是复制文件到本地文件系统的命令
使用方法:hadoop fs -get [-ignorecrc] [-crc] <localdst>
可用-ignorecrc选项复制CRC校验失败的文件:使用-CRC选项复制文件以及CRC信息。

返回值
成功返回0,失败返回-1

(11)getmerge命令
getmerge命令用于接受一个源目录和一个目标文件作为输入,并且将源目录中所有的文件合并成本地目标文件。
使用方法:hadoop fs -getmerge <src> <localdst> [addnl]
参数说明:addl是可选的,用于指定在每个文件结尾添加一个换行符;

假设在你的hdfs集群上有一个/user/hadoop/output目录
里面有作业执行的结果(多个文件组成)part-000000,part-000001,part-000002

然后就可以在本地使用vi local_file查看内容了

(12)ls命令
ls命令查看当前目录下的信息
使用方法:hadoop fs -ls <args>
如果是 文件 ,则按照如下格式返回文件信息:
文件名 <副本数>文件大小 修改日期 修改时间 权限 用户ID 组ID

如果是 目录 ,则返回它直接子文件的一个列表,就像在UNIX中一样。目录返回i额表的信息如下:
目录名<dir>修改日期 修改时间 权限 用户ID 组ID

返回值
成功返回0,失败返回-1

(13)lsr命令
lsr命令是-ls命令的递归版,类似于UNIX中的ls-r。
使用方法:hadoop fs -lsr <args>

(14)movefromLocal命令
复制一份本地文件到hdfs,当成功后,删除本地文件
使用方法:dfs -moveFromLocal <src> <dst>

(14.5)moveToLocal命令
类似于-get,但是当复制完成后,会删除hdfs上的文件
使用方法:moveToLocal <src> <localDest>

(15)mv命令
将文件从源路径移动到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录
使用方法:hadoop fs -mv URI [URI.....] <dest>
备注:不允许在不同的文件系统间移动文件。

返回值
成功返回0,失败返回-1

(16)put 命令
put命令从本地文件系统中复制单个或多个源路径到目标文件系统,也支持从标准输入中读取输入写入目标文件系统
使用方法:hadoop fs -put <localsrc> .... <dst>

(17)rm命令
rm命令删除指定的文件,只删除非空目录和文件。
使用方法:hadoop fs -rm URI [URI......]
请参考rmr命令了解递归删除。

(18)rmr命令
rmr命令是delete命令的递归版本
使用方法:hadoop fs -rmr URI [URI.......]

返回值
成功返回0,失败返回-1

(19)setrep命令
setrep命令可以改变一个文件的副本系数。
使用方法:hadoop fs -setrep [-R] <path>
参数说明:-R 选项用于递归改变目录下所有文件的副本系数

返回值
成功返回0,失败返回-1

(20)stat命令
stat命令用于返回指定路径的统计信息
使用方法:hadoop fs -stat URI [URI......]

返回值
成功返回0,失败返回-1

(21)tail命令
tail命令将文件尾部1KB的内容输出到stdout。支持-f选项,行为和UNIX中一致
使用方法:hadoop fs -tail [-f] URI

返回值
成功返回0,失败返回-1

(22)test命令
test命令是检查命令,可以检查文件是否存在、文件的大小等。
使用方法:hadoop fs -test -[ezd] URI

(23)text命令
text命令用于将源文件输出问文本格式
使用方法:hadoop fs -text <src>
允许的格式是zip和TextRecordInputStream。

(24)touchz 命令
touchz命令用于创建一个0字节的空文件。
使用方法: hadoop fs -touchz URI [URI....]

返回值
成功返回0,失败返回-1

❸ [译]HDFS 滚动升级和降级

原文

HDFS滚动升级可以升级单独的HDFS守护进程. 例如, datanode们可以独立于namenode来升级. 一个namenode也可以独立于其他的namenode们来升级. namenode们也可以独立于datanode们和journal node们升级.

在Hadoop版本2中, HDFS支持高可用(HA)namenode服务并结合兼容性. 这两项能力使其可以在避免停机时间的情况升级HDFS. 要无停机地升级一个HDFS集群, 这个集群就必须是配置为高可用的.

如果升级后, 在新版中有任何在旧版本中不能使用的新特性晌丛, 那么这次升级就必须按以下步骤进行:

在一个高可用集群中, 有至少2个namenodes(NNS), 多个datanodes(DNs), 少数JournalNodes(JNs)和少数Zookeeper节点(ZKNs). JNs相当稳定,在多数情况下, 升级HDFS时不需要升级. 在本文描述的滚动升级中, 只考虑升级NNs(namenodes)和DNs(datanodes), 但是JNs和ZKNs不考虑. 升级JNs和ZKNs可能会导致集群停机.(按: Zookeeper其实也可以进行滚动升级)

假设集群有两个namenodes: NN1和NN2, 各种处于活动和待机状态. 按以下步骤进行高可用集群升级:

在一个联盟集群中, 有多个命名空间, 每个命名空间都有各自的活动和待机NNs. 升级一个联盟集群的过程类似于升级非联盟集群, 区别在于第一步和第四步在每一个命名空间上都执行, 而第二步在每一对活动和待机namenodes上执行. 例如:

对于非高可用的集群, 是不可能升级HDFS且避免停机, 因为要重启namenodes. 不过, datanodes还是可以滚动升级的.

在一个非高可用集群中, 有一个Namenode(NN),一个SecondaryNameNode(SNN)和多个datanodes(DNs). 升级一个非高可用集群的过程类似于升级一个高可用集群, 除了第二步"升级活动和待机节点"要改成以下步骤:

当升级的版本不是需要的版本,或者在某些不太可能的情况下, 升级失败了(因为新版本中的某些bug), 管理员可以选择降级HDFS到升级之前的版本, 或者回滚到升级前的版本和状态.

请注意, 降级可以用滚动方式进行, 但是回滚不行. 回滚时就要停机.

请注意, 降级和回滚只能在一个滚动升级开始后, 和升级终止之间进行. 一个升级过程可以被"结束", 降级或者回滚 其中之一操作终止. 所以慎谨尘, 结束升级,或者降级之后,或无法回滚, 或者结束后无法降级.

降级把系统恢复到升级前版本,且保持用户数据. 假设在时间点T, 滚动升级开始, 这个升级被降级所终止的话, 在时间点T之前或者之后创建的文件都保持在HDFS上, 在时间点T之前或之后删除的文件也是在HDFS里被删除的.

在新版本和旧版本之间, 只有当两边的namenode版本和datanode版本还没在这两个版本之间改变时, 新版本才能降级到旧版本.(不清楚, 请赐教,谢谢. A newer release is downgradable to the pre-upgrade release only if both the namenode layout version and the datanode layout version are not changed between these two releases.)

在一个高可用集群, 当滚动升级从旧版本到宽禅新版本在进行中时, 是可以滚动方式降级的, 升级的机器回到旧版本. 同前例, 假设NN1和NN2各自在活动和待机状态. 以下是无停机滚动降级的步骤:

请注意, datanodes必须在namenode降级之前降级, 因为通讯协议是向下兼容的而不是向上兼容的. 例如老版本的datanode可以和新版本的namenode通讯,但是新版本的datanode未必能和老版本的namenode通讯.

回滚把系统恢复到升级前版本, 还把用户的数据恢复到升级前状态. 假设在时间点T, 滚动升级开始, 这个升级被回滚所终止的话, 在时间点T之前创建的文件都保持在HDFS上, 时间点T之后创建的文件就不存在了. 在时间点T之前的文件在HDFS里被删除的, 在时间点T之后删除的文件就被恢复了.

从新版本回滚到旧版本是一直支持的. 但是, 回滚操作不能滚动执行. 这需要停机时间. 设NN1和NN2分别处于活动和待机状态. 以下是回滚步骤:

执行一个滚动升级操作

提交一个关闭请求到指定的datanode. 如果upgrade选项指定了, 访问这个datanode的客户端都会被指示要等这个datanode重启, 同时快速启动模式也要被激活. 当重启不够及时, 客户端就超市,并忽略这个datanode. 在这种情况下, 快速启动模式就被关闭.

请注意, 这个命令并不会等到datanode完全关闭. "hdfs dfsadmin -getDatanodeInfo"命令可以检查datanode是否被完成了关闭.

当一个滚动升级在进行中, -rollingUpgrade 启动选项可以指定不同滚动升级行为

❹ HDFS纠删码

    副本是昂贵的--在HDFS中默认的3副本机制有200%的存储空间和其它的资源(比如:网络带宽)开销。然而,相对于低 I/O 活动的暖数据集和冷数据集,在正常的操作期间对其额外的副本很少访问,但是仍然消耗与第一副本相同数量的资源。

    因此,一个自然的改进是使用纠删码(Erasure Coding)替代副本机肢滑没制,它使用更少的存储空间提供相同的容错级别,一个典型的纠删码设置,会使得存储空间的开销不超过50%;一个EC文件的副本因子是无意义的,它一直保持为1,并且不能通过命令 -setrep修改EC的副本因子的值。

    磁盘阵列(RAID)是在存储系统中,使用EC最出名的。RAID使用条 带的方式实现的EC,它提让宽供逻辑上序列的数据(比如文件)到更小的单元(比如比特、字节、或块),并存储连续的单元到不同的磁盘上。在本指南的其余部分,这种条带分布单元被称为条带单元(或者单元),对于每一个条带原始数据单元,计算并存储一定数量的奇偶校验单元,这个过程叫做编码。通过对剩余的数据和奇偶校验单元解码计算,可以恢复任意条带单元的错误。

    将EC和HDFS集成可以提高存储效率,然而同样提供传统的基于副本机制的HDFS持久化部署,例如:3副本的文件有6个块,将会消耗 6*3 = 18个块的磁盘空间,但是使用EC(6个数据,3个校验)部署,他将只消耗9个块的磁盘空间。

    在EC的环境中,条带有若干主要的优点,首先,它能在线EC(使用EC的格式直接写数据),避免转换阶段,直接节省存储空间。在线EC通过并行利用多磁盘主轴增强I/O性能;这在高性能的网络的集群中尤其需要。其次,它自然的分发小文件到多个DataNodes,消除了将多个文件绑定到一个编码组的需要,这会很大的简化文件的操作,比如删除、配额汇报和在联邦集群中不同的Namespace之间迁移数据等。在典型的HDFS集群中,小文件占总存储空间3/4以上的消耗,为了更好的支持小文件,在第一阶段工作中,HDFS支持条带的EC。在未来,HDFS也会支持连续的EC布局,查看设计文档,更多的信息在issue HDFS-7285 中讨论。

     条带的HDFS文件是由逻辑上的块组构成,每个块组包含一定数量的内部块,为了减少额外的块对NameNode内存消耗,提出了新的分层块命名协议,块组的ID可以从它的内部块的任意 ID 中推断出来,这允许块组级别的管理,而不是块级别的。

     客户端读写路径被增强,可以并行处理一个块组的多个内部块;在输出/写入路径, DFSStripedOutputStream 用于管理一组数据流,每个数据流对应一个DataNode,该DataNode在当前块组中存储一个内部块,这些数据流大多是异步工作;协调器负责操作整个块组,包括结束当前的块组、分配新的块组等等。在输入 / 读路径, DFSStripedInputStream 将请求的逻辑字节范围的数据转换为存储在DataNodes上的内部块的范围,然后并行的发布读请求,在出现故障时,它发出额外的读请求用于解码。

     DataNode会运行一个额外的 ErasureCodingWorker (ECWorker) 任务用于后台恢复失败的EC块,当NameNode检历纳测到一个失败的EC块,它会选择一个DataNode去做恢复的工作,恢复任务通过心跳响应传递至DataNode,这个过程类似于副本块重新复制失败的数据块,重建失败的块有3个主要的任务:

     使用专用的线程池并行的读取输入数据,基于EC策略,它将所有的读请求调度到所有的源节点,并且只读取最小数据量的输入块数用于重构。

     从输入数据中解码出新的数据块和奇偶校验块,所有丢失的数据块和校验块一起解码。

     解码完成后,恢复的数据块被传输到目标DataNode节点。

     为了使纠删码策略适合异构的工作方式,我们允许HDFS集群上的文件和目录具有不同的副本和纠删码策略,纠删码策略封装了如何编码/解码文件,每一个策略由以下信息部分定义:

     这个包括在EC组(比如:6+3)中数据块和校验块的数量,以及编解码器算法(比如: Reed-Solomon, XOR )

    这决定了条带读写的粒度,包括缓冲区大小和编码工作。

    策略被命名为数据块数量-校验块数量-块单元的大小,当前支持6种内置策略:RS-3-2-1024k, RS-6-3-1024k, RS-10-4-1024k, RS-LEGACY-6-3-1024k, XOR-2-1-1024k 和REPLICATION。

    REPLICATION是一种特殊的策略,它只能被设置在目录上,强制目录采用3副本策略,而不是继承它的祖先的纠删码策略,该策略使3副本目录与纠删码目录交叉成为可能。

    REPLICATION 策略是一直启用的,而其它的内置策略在默认的情况下是禁用的。

    类似于HDFS存储策略,纠删码策略是设置在目录上的,当一个文件被创建,它继承离它最近的祖先目录的EC策略。

    目录级别的EC策略只影响在该目录下创建的新文件,一旦一个文件已经被创建,它的纠删码策略可以被查询,但是不能改变,如果一个纠删码文件被重命名到一个不同的EC策略的目录中,该文件会保留它之前存在的EC策略,转换一个文件到不同的EC策略需要重写它的数据,重写数据是通过拷贝文件(比如:通过distcp)而不是重命名文件。

    我们允许用户通过XML文件的方式去定义它们自己的EC策略,该XML文件必须要有下面的3部分:

        1) layoutversion:  表示EC策略文件格式的版本。

        2) schemas: 这个包括所有用户定义的EC约束

        3) policies:  这个包括所有用户定义的EC策略,每个策略由schema id和条带单元的大小(cellsize)构成,

    在hadoop conf目录中有一个名称叫 user_ec_policies.xml.template的样本EC策略的XML文件。

     因特尔 ISA-L 代表因特尔智能存储加速库, ISA-L 是为存储应用程序优化的底层函数开源的集合,它包括在 AVX 和 AVX2 指令集上快速的块  Reed-Solomon 类型的纠删码优化,HDFS纠删码可以利用ISA-L去加速编解码计算,ISA-L支持大多数开源的操作系统,包括linux和windows,ISA-L默认是不启动的,有关如何启动ISA-L,请看下面的说明。

    纠删码在集群的CPU和网络方面提出了额外的要求。

    编码和解码工作会消耗HDFS客户端和DataNodes上额外的CPU。

    纠删码文件也分布在机架之间,用于机架容错,这意味着当读取和写入条带文件,大多数操作是在机架外的,因此,网络对分带宽非常重要的。

    对于机架容错来说,至少拥有与配置的EC条带宽度相同的机架数量也是很重要的,对于EC策略RS (6,3),这意味着至少要有9个机架,理想的情况下要有10或者11个机架用于处理计划内和计划外的停机。对于机架数量少于条带宽度的集群,HDFS不能维护机架容错,但是仍然会分散条带文件到多个节点为了节点级别的容错。

    默认情况下,所有内置的纠删码策略是被禁用的,但是定义在参数dfs.namenode.ec.system.default.policy中的除外,该策略在默认情况下是启用的。集群管理员可以根据集群的大小和希望的容错属性使用命令hdfs ec [-enablePolicy -policy <policyName>]启用一组策略;例如,对于一个拥有9个机架的集群,类似RS-10-4-1024k 这样的策略不能达到机架级别的容错,而策略RS-6-3-1024k 或者RS-3-2-1024k更适合。如果管理员只关心节点级别的容错,在至少有14个DataNodes的集群中策略RS-10-4-1024k也是适合的。

    系统默认的EC策略可以通过参数‘dfs.namenode.ec.system.default.policy’ 来配置,在这种配置下,当命令 ‘-setPolicy’没有指定策略名称的参数时,默认的策略将会被使用。

    默认情况下,参数 ‘dfs.namenode.ec.system.default.policy’ 的值为“RS-6-3-1024k”,使用Reed-Solomon和XOR实现的编解码器可以使用客户端和DataNode节点指定如下的关键字配置:io.erasurecode.codec.rs.rawcoders用来指定默认的RS编解码器,io.erasurecode.codec.rs-legacy.rawcoders用于指定legacy RS编解码器,io.erasurecode.codec.xor.rawcoders用于指定XOR编解码器;用户也可以使用类似关键字io.erasurecode.codec.self-defined-codec.rawcoders来配置自定义的编解码器。这些关键字的值是带有回退机制的编码器名称的列表。这些编解码器工厂以指定的配置的值有序的被加载,直到一个编解码器被成功的加载,默认的RS和XOR编解码器配置更喜欢本地实现,而不是纯java实现;RS-LEGACY没有本地编解码器实现,因此默认的只能是纯java的实现;所有这些编解码器都有纯java的实现;对于默认的RS编解码器,它也有一个本地实现,利用英特尔 ISA-L库提高编解码器性能;对于XOR编解码器,也支持利用英特尔 ISA-L库提升编解码的性能的本地实现;请参阅“Enable Intel ISA-L”获取更详细的信息。默认的RSLegacy的实现是纯java的,默认的RS和XOR是使用了因特尔ISA-L库本地实现的,在DataNodes上的纠删码后台恢复工作也可以使用下面的参数被调优:

     1) dfs.datanode.ec.reconstruction.stripedread.timeout.millis --条带读取超时时间,默认值 5000 ms

     2) dfs.datanode.ec.reconstruction.stripedread.buffer.size --读取服务的缓存大小,默认值 64K

     3) dfs.datanode.ec.reconstruction.threads -- DataNode用于后台重构工作的线程数量,默认值 8 个线程

     4) dfs.datanode.ec.reconstruction.xmits.weight -- 与副本块恢复 相比,EC后台恢复任务使用的xmits 的相对权重,默认值0.5,设置它的值为0去禁用计算EC恢复任务的权重,也就是说,EC任务总是1 xmits。通过计算出读数据流的数量和写数据流的数量的最大值来计算出纠删码恢复任务的xmits。例如,如果一个EC恢复任务需要从6个节点读取数据,往2个节点写入数据,它拥有的 xmits 是max(6, 2) * 0.5 = 3,复制文件的恢复任务总是计算为1xmit,NameNode利用dfs.namenode.replication.max-streams减去DataNode上总的xmitsInProgress(合并来自副本文件和EC文件的xmits) ,以便调度恢复任务到这个DataNode。

    HDFS利用因特尔ISA-L库去提高默认的RS本地实现的编解码器的编解码计算速度,开启并使用英特尔ISA-L库,需要3步:

        1)构建ISA-L库,请参阅官方的网站 “ https://github.com/01org/isa-l/ ” 获取详情信息。

        2)构建带有ISA-L支持的Hadoop,请参阅源码中BUILDING.txt文件中的 “Build instructions for Hadoop”中的“Intel ISA-L build options”部分。

        3)使用-Dbundle.isal拷贝 isal.lib 目录中的内容到最终的tar文件中。

    使用该tar文件部署Hadoop,确保ISA-L是在HDFS客户端和DataNodes端是可用的。为了验证ISA-L能够被Hadoop正确的检测到,运行命令  hadoop checknative来验证。

    HDFS提供了EC的子命令用于执行纠删码相关的管理命令。

    hdfs ec [generic options] [-setPolicy -path <path> [-policy <policyName>] [-replicate]] [-getPolicy -path <path>] [-unsetPolicy -path <path>] [-listPolicies] [-addPolicies -policyFile <file>] [-listCodecs] [-enablePolicy -policy <policyName>] [-disablePolicy -policy <policyName>] [-help [cmd ...]]

    下面是关于每个命令的详情:

    [-setPolicy -path <path> [-policy <policyName>] [-replicate]]

    在指定的目录的路径上设置纠删码策略。

    path:HDFS中的目录,这是一个强制的参数,设置一个策略只影响新创建的文件,不影响已经存在的文件。

    policyName:在这个目录下的文件上使用的纠删码策略,如果配置了参数‘dfs.namenode.ec.system.default.policy’,这个参数可以被省略,这时路径的EC策略将会被设置成配置文件中的默认值。

    -replicate:在目录上应用指定的REPLICATION策略,强制目录采用3副本复制方案。

    -replicate 和-policy <policyName>是可选的参数,它们不能同时被指定。

    [-getPolicy -path <path>]

    获取在指定路径上目录或者文件的纠删码策略的详情。

    [-unsetPolicy -path <path>]

    取消之前使用setPolicy 在目录上设置的纠删码策略。如果目录是从祖先中继承的纠删码策略,unsetPolicy 是一个空操作,即在没有明确设置策略的目录上取消策略将不会返回错误。

    [-listPolicies ]

    列出所有在HDFS中注册的纠删码策略,只有启用的策略才能使用setPolicy 命令。

    [-addPolicies -policyFile <file>]

    添加一个纠删码策略的列表,请参阅模板策略文件etc/hadoop/user_ec_policies.xml.template,最大的条带单元大小被定义在属性 ‘dfs.namenode.ec.policies.max.cellsize’ 中,默认值是4MB,当前的HDFS中总共允许用户添加64个策略,被添加的策略ID的范围是64~127,如果已经有64个策略被添加,再添加策略将会失败。

    [-listCodecs]

    获取系统中支持的纠删码编解码器和coder列表。一个coder是一个编解码器的实现,一个编解码器可以有不同的实现,因此会有不同的coder,编解码器的coders采用后备的顺序被列出。

    [-removePolicy -policy <policyName>]

    移除一个纠删码策略。

    [-enablePolicy -policy <policyName>]

    启用一个纠删码策略

    [-disablePolicy -policy <policyName>]

    禁用一个纠删码策略。

    由于大量的技术挑战,在纠删码文件上不支持某些HDFS的写操作,比如hflush, hsync 和append操作。

    在纠删码文件上使用append()将会抛出IOException。

    在DFSStripedOutputStream 上执行hflush() 和hsync()是空操作,因此,在纠删码文件上调用hflush() 或者hsync()不能保证数据被持久化。

    客户端可以使用 StreamCapabilities  提供的API去查询一个OutputStream 是否支持hflush() 和hsync(),如果客户端渴望数据通过hflush() 和hsync()持久化,当前的补救措施是在非纠删码目录中创建3副本文件,或则使用FSDataOutputStreamBuilder#replicate()提供的API在纠删码目录中创建3副本文件。

❺ 如何判断hdfs(hadoop)上的路径是文件还是目录。

先用hdfsGetPathInfo 得到一个hdfsFileInfo类型者袭答的结构体,
get_real_path(dsh, s, real_path);
hdfsFileInfo * pt_hdfs_file_info = hdfsGetPathInfo(hdfs,real_path);//
这个结构体中有个kind属性,就是来区分是文件还是目录
typedef struct {
tObjectKind mKind; /* file or directory */
char *mName; /* the name of the file */禅誉
tTime mLastMod; /* the last modification time for the file in seconds */
tOffset mSize; /首慧* the size of the file in bytes */
short mReplication; /* the count of replicas */
tOffset mBlockSize; /* the block size for the file */
char *mOwner; /* the owner of the file */
char *mGroup; /* the group associated with the file */
short mPermissions; /* the permissions associated with the file */
tTime mLastAccess; /* the last access time for the file in seconds */
} hdfsFileInfo;

❻ spark、hive、impala、hdfs的常用命令

对spark、hive、impala、hdfs的常用命令作了如下总结,欢迎大家补充!

1. Spark的使用:

以通过SecureCRT访问IP地址:10.10.234.198 为例进行说明:

先输入:ll //查询集群是否装有spark

>su - mr

>/home/mr/spark/bin/beeline -u "jdbc:hive2:/bigdata198:18000/" -n mr -p ""

>show databases; //显示其中数据库,例如

>use bigmax; //使用数据库bigmax

>show tables; //查询目录中所有的表

>desc formatted TableName; //显示表的详细信息,包括分区、字段、地址等信息

>desc TableName; //显示表中的字段和分区信息

>select count(*) from TableName; //显示表中数据数量,可以用来判断表是否为空

>drop table TableName; //删除表的信息

>drop bigmax //删除数据库bigmax

>describe database zxvmax //查询数据库zxvmax信息

创建一个表

第一步:

>create external table if not exists lte_Amaze //创建一个叫lte_Amaze的表

( //括号中每一行为表中的各个字段的名称和其所属的数据类型,并用空格隔开

DateTime String,

MilliSec int,

Network int,

eNodeBID int,

CID int,

IMSI String,

DataType int,

AoA int,

ServerRsrp int,

ServerRsrq int,

TA int,

Cqi0 Tinyint,

Cqi1 Tinyint //注意,最后一个字段结束后,没有逗号

)

partitioned by (p_date string, p_hour INT) //以p_date和p_hour作为分区

row format delimited fields terminated by ',' /*/*表中行结构是以逗号作为分隔符,与上边的表中字段以逗号结尾相一致*/

stored as textfile; //以文本格式进行保存

第二步:添加分区,指定分区的位置

>alter table lte_Amaze add partition (p_date='2015-01-27',p_hour=0) location'/lte/nds/mr/lte_nds_cdt_uedetail/p_date=2015-01-27/p_hour=0';

//添加lte_Amaze表中分区信息,进行赋值。

//并制定分区对应目录/lte/nds/mr下表lte_nds_cdt_uedetail中对应分区信息

第三步:察看添加的结果

>show partitions lte_Amaze; //显示表的分区信息

2. hdfs使用:

#su - hdfs //切换到hdfs用户下 、

#hadoop fs –ls ///查看进程
# cd /hdfs/bin //进入hdfs安装bin目录
>hadoop fs -ls /umtsd/cdt/ //查询/umtsd/cdt/文件目录
>hadoop fs -mkdir /umtsd/test //在/umtsd目录下创建test目录
>hadoop fs -put /home/data/u1002.csv /impala/data/u5002 //将home/data/u1002.csv这个文件put到hdfs文件目录上。put到hdfs上的数据文件以逗号“,”分隔符文件(csv),数据不论类型,直接是数据,没有双引号和单引号
>hadoop fs -rm /umtsd/test/test.txt //删除umtsd/test目录下的test.txt文件
>hadoop fs -cat /umtsd/test/test.txt //查看umtsd/test目录下的test.txt文件内容

3hive操作使用:
#su - mr //切换到mr用户下
#hive //进入hive查询操作界面
hive>show tables; //查询当前创建的所有表
hive>show databases; //查询当前创建的数据库
hive>describe table_name; {或者desc table_name}//查看表的字段的定义和分区信息,有明确区分(impala下该命令把分区信息以字段的形式显示出来,不怎么好区分)
hive> show partitions table_name; //查看表对应数据现有的分区信息,impala下没有该命令
hive> quit;//退出hive操作界面

hive>desc formatted table_name; 查看表结构,分隔符等信息

hive> alter table ceshi change id id int; 修改表的列数据类型 //将id数据类型修改为int 注意是两个id

hive> SHOW TABLES '.*s'; 按正条件(正则表达式)显示表,

[mr@aico ~]$ exit; 退出mr用户操作界面,到[root@aico]界面

impala操作使用:
#su - mr //切换到mr用户下
#cd impala/bin //进入impala安装bin目录
#/impala/bin> impala-shell.sh -i 10.10.234.166/localhost //进入impala查询操作界面
[10.10.234.166:21000] >show databases; //查询当前创建的数据库
[10.10.234.166:21000] >use database_name; //选择使用数据库,默认情况下是使用default数据库
[10.10.234.166:21000] > show tables; //查询当前数据库下创建的所有表
[10.10.234.166:21000] >describe table_name; //查看表的字段的定义,包括分区信息,没有明确区分
[10.10.234.166:21000] > describe formatted table_name; //查看表对应格式化信息,包括分区,所属数据库,创建用户,创建时间等详细信息。
[10.10.234.166:21000] >refresh table_name; //刷新一下,保证元数据是最新的
[10.10.234.166:21000] > alter TABLE U107 ADD PARTITION(reportDate="2013-09-27",rncid=487)LOCATION '/umts/cdt/
MREMITABLE/20130927/rncid=487' //添加分区信息,具体的表和数据的对应关系
[10.10.234.166:21000] > alter TABLE U100 drop PARTITION(reportDate="2013-09-25",rncid=487); //删除现有的分区,数据与表的关联
[10.10.234.166:21000] >quit; //退出impala操作界面

[mr@aicod bin]$ impala-shell; 得到welcome impala的信息,进入impala 查询操作界面

[aicod:21000] > 按两次tab键,查看可以用的命令

alter describe help profile shell values

connect drop history quit show version

create exit insert select unset with

desc explain load set use

❼ hdfs命令查找文件所在路径

指令
hadoop fsck /user/hadoop/filename -files -blocks -locations -racks
-files 文件分块信息,
-blocks 在带-files参数后才显示block信息
-locations 在带-blocks参数后才显示block块所在datanode的具体IP位置,

-racks 在带-files参数后显示机架位置
注意:此命令只能在namenode里输入,在datanode里输入会报错的

❽ 大数据云计算好不好学习

说一下大数据的四个典型的特征:

第一章:Hadoop

在大数据存储和计算中Hadoop可以算是开山鼻祖,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。

关于Hadoop,你至少需要搞清楚这些是什么:

自己学会如何搭建Hadoop,先让它跑起来。建议先使用安装包命令行安装,不要使用管理工具安装。现在都用Hadoop 2.0。

目录操作命令;上传、下载文件命令;提交运行MapRece示例程序;打开Hadoop WEB界面,查看Job运行状态,查看Job运行日志。知道Hadoop的系统日志在哪里。

以上完成之后,就应该去了解他们的原理了:

MapRece:如何分而治之;HDFS:数据到底在哪里,究竟什么才是副本;

Yarn到底是什么,它能干什么;NameNode到底在干些什么;Resource Manager到底在干些什么;

如果有合适的学习网站,视频就去听课,如果没有或者比较喜欢书籍,也可以啃书。当然最好的方法是先去搜索出来这些是干什么的,大概有了概念之后,然后再去听视频。

第二章:更高效的WordCount

在这里,一定要学习SQL,它会对你的工作有很大的帮助。

就像是你写(或者抄)的WordCount一共有几行代码?但是你用SQL就非常简单了,例如:

SELECT word,COUNT(1) FROM wordcount GROUP BY word;

这便是SQL的魅力,编程需要几十行,甚至上百行代码,而SQL一行搞定;使用SQL处理分析Hadoop上的数据,方便、高效、易上手、更是趋势。不论是离线计算还是实时计算,越来越多的大数据处理框架都在积极提供SQL接口。

另外就是SQL On Hadoop之Hive于大数据而言一定要学习的。

什么是Hive?

官方解释如下:The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax。

为什么说Hive是数据仓库工具,而不是数据库工具呢?

有的朋友可能不知道数据仓库,数据仓库是逻辑上的概念,底层使用的是数据库,数据仓库中的数据有这两个特点:最全的历史数据(海量)、相对稳定的;所谓相对稳定,指的是数据仓库不同于业务系统数据库,数据经常会被更新,数据一旦进入数据仓库,很少会被更新和删除,只会被大量查询。而Hive,也是具备这两个特点,因此,Hive适合做海量数据的数据仓库工具,而不是数据库工具。

了解了它的作用之后,就是安装配置Hive的环节,当可以正常进入Hive命令行是,就是安装配置成功了。

了解Hive是怎么工作的

学会Hive的基本命令:

创建、删除表;加载数据到表;下载Hive表的数据;

MapRece的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多的10个单词及次数);

HDS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据;

自己会写简单的MapRece程序,运行出现问题,知道在哪里查看日志;

会写简单的Select、Where、group by等SQL语句;

Hive SQL转换成MapRece的大致流程;

Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;

从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapRece是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapRece,提交运行。

此时,你的”大数据平台”是这样的:那么问题来了,海量数据如何到HDFS上呢?

第三章:数据采集

把各个数据源的数据采集到Hadoop上。

3.1 HDFS PUT命令

这个在前面你应该已经使用过了。put命令在实际环境中也比较常用,通常配合shell、python等脚本语言来使用。建议熟练掌握。

3.2 HDFS API

HDFS提供了写数据的API,自己用编程语言将数据写入HDFS,put命令本身也是使用API。

实际环境中一般自己较少编写程序使用API来写数据到HDFS,通常都是使用其他框架封装好的方法。比如:Hive中的INSERT语句,Spark中的saveAsTextfile等。建议了解原理,会写Demo。

3.3 Sqoop

Sqoop是一个主要用于Hadoop/Hive与传统关系型数据库,Oracle、MySQL、SQLServer等之间进行数据交换的开源框架。就像Hive把SQL翻译成MapRece一样,Sqoop把你指定的参数翻译成MapRece,提交到Hadoop运行,完成Hadoop与其他数据库之间的数据交换。

自己下载和配置Sqoop(建议先使用Sqoop1,Sqoop2比较复杂)。了解Sqoop常用的配置参数和方法。

使用Sqoop完成从MySQL同步数据到HDFS;使用Sqoop完成从MySQL同步数据到Hive表;如果后续选型确定使用Sqoop作为数据交换工具,那么建议熟练掌握,否则,了解和会用Demo即可。

3.4 Flume

Flume是一个分布式的海量日志采集和传输框架,因为“采集和传输框架”,所以它并不适合关系型数据库的数据采集和传输。Flume可以实时的从网络协议、消息系统、文件系统采集日志,并传输到HDFS上。

因此,如果你的业务有这些数据源的数据,并且需要实时的采集,那么就应该考虑使用Flume。

下载和配置Flume。使用Flume监控一个不断追加数据的文件,并将数据传输到HDFS;Flume的配置和使用较为复杂,如果你没有足够的兴趣和耐心,可以先跳过Flume。

3.5 阿里开源的DataX

现在DataX已经是3.0版本,支持很多数据源。

第四章:把Hadoop上的数据搞到别处去

Hive和MapRece进行分析了。那么接下来的问题是,分析完的结果如何从Hadoop上同步到其他系统和应用中去呢?其实,此处的方法和第三章基本一致的。

HDFS GET命令:把HDFS上的文件GET到本地。需要熟练掌握。

HDFS API:同3.2.

Sqoop:同3.3.使用Sqoop完成将HDFS上的文件同步到MySQL;使用Sqoop完成将Hive表中的数据同步到MySQL。

如果你已经按照流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:

知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集;

知道sqoop是HDFS和其他数据源之间的数据交换工具;

知道flume可以用作实时的日志采集。

从前面的学习,对于大数据平台,你已经掌握的不少的知识和技能,搭建Hadoop集群,把数据采集到Hadoop上,使用Hive和MapRece来分析数据,把分析结果同步到其他数据源。

接下来的问题来了,Hive使用的越来越多,你会发现很多不爽的地方,特别是速度慢,大多情况下,明明我的数据量很小,它都要申请资源,启动MapRece来执行。

第五章:SQL

其实大家都已经发现Hive后台使用MapRece作为执行引擎,实在是有点慢。因此SQL On Hadoop的框架越来越多,按我的了解,最常用的按照流行度依次为SparkSQL、Impala和Presto.这三种框架基于半内存或者全内存,提供了SQL接口来快速查询分析Hadoop上的数据。

我们目前使用的是SparkSQL,至于为什么用SparkSQL,原因大概有以下吧:使用Spark还做了其他事情,不想引入过多的框架;Impala对内存的需求太大,没有过多资源部署。

5.1 关于Spark和SparkSQL

什么是Spark,什么是SparkSQL。

Spark有的核心概念及名词解释。

SparkSQL和Spark是什么关系,SparkSQL和Hive是什么关系。

SparkSQL为什么比Hive跑的快。

5.2 如何部署和运行SparkSQL

Spark有哪些部署模式?

如何在Yarn上运行SparkSQL?

使用SparkSQL查询Hive中的表。Spark不是一门短时间内就能掌握的技术,因此建议在了解了Spark之后,可以先从SparkSQL入手,循序渐进。

关于Spark和SparkSQL,如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的。

第六章:数据多次利用

请不要被这个名字所诱惑。其实我想说的是数据的一次采集、多次消费。

在实际业务场景下,特别是对于一些监控日志,想即时的从日志中了解一些指标(关于实时计算,后面章节会有介绍),这时候,从HDFS上分析就太慢了,尽管是通过Flume采集的,但Flume也不能间隔很短就往HDFS上滚动文件,这样会导致小文件特别多。

为了满足数据的一次采集、多次消费的需求,这里要说的便是Kafka。

关于Kafka:什么是Kafka?Kafka的核心概念及名词解释。

如何部署和使用Kafka:使用单机部署Kafka,并成功运行自带的生产者和消费者例子。使用Java程序自己编写并运行生产者和消费者程序。Flume和Kafka的集成,使用Flume监控日志,并将日志数据实时发送至Kafka。

如果你认真完成了上面的学习和实践,此时,你的”大数据平台”应该是这样的。

这时,使用Flume采集的数据,不是直接到HDFS上,而是先到Kafka,Kafka中的数据可以由多个消费者同时消费,其中一个消费者,就是将数据同步到HDFS。

如果你已经认真完整的学习了以上的内容,那么你应该已经具备以下技能和知识点:

为什么Spark比MapRece快。

使用SparkSQL代替Hive,更快的运行SQL。

使用Kafka完成数据的一次收集,多次消费架构。

自己可以写程序完成Kafka的生产者和消费者。

从前面的学习,你已经掌握了大数据平台中的数据采集、数据存储和计算、数据交换等大部分技能,而这其中的每一步,都需要一个任务(程序)来完成,各个任务之间又存在一定的依赖性,比如,必须等数据采集任务成功完成后,数据计算任务才能开始运行。如果一个任务执行失败,需要给开发运维人员发送告警,同时需要提供完整的日志来方便查错。

第七章:越来越多的分析任务

不仅仅是分析任务,数据采集、数据交换同样是一个个的任务。这些任务中,有的是定时触发,有点则需要依赖其他任务来触发。当平台中有几百上千个任务需要维护和运行时候,仅仅靠crontab远远不够了,这时便需要一个调度监控系统来完成这件事。调度监控系统是整个数据平台的中枢系统,类似于AppMaster,负责分配和监控任务。

7.1 Apache Oozie

Oozie是什么?有哪些功能?

Oozie可以调度哪些类型的任务(程序)?

Oozie可以支持哪些任务触发方式?

安装配置Oozie。

7.2 其他开源的任务调度系统

Azkaban,light-task-scheler,Zeus,等等。另外,我这边是之前单独开发的任务调度与监控系统,具体请参考《大数据平台任务调度与监控系统》。

第八章:我的数据要实时

在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景,实时基本可以分为绝对实时和准实时,绝对实时的延迟要求一般在毫秒级,准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景,用的比较多的是Storm,对于其他准实时的业务场景,可以是Storm,也可以是Spark Streaming。当然,如果可以的话,也可以自己写程序来做。

8.1 Storm

什么是Storm?有哪些可能的应用场景?

Storm由哪些核心组件构成,各自担任什么角色?

Storm的简单安装和部署。

自己编写Demo程序,使用Storm完成实时数据流计算。

8.2 Spark Streaming

什么是Spark Streaming,它和Spark是什么关系?

Spark Streaming和Storm比较,各有什么优缺点?

使用Kafka + Spark Streaming,完成实时计算的Demo程序。

至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。

第九章:数据要对外

通常对外(业务)提供数据访问,大体上包含以下方面。


离线:比如,每天将前一天的数据提供到指定的数据源(DB、FILE、FTP)等;离线数据的提供可以采用Sqoop、DataX等离线数据交换工具。

实时:比如,在线网站的推荐系统,需要实时从数据平台中获取给用户的推荐数据,这种要求延时非常低(50毫秒以内)。根据延时要求和实时数据的查询需要,可能的方案有:HBase、Redis、MongoDB、ElasticSearch等。

OLAP分析:OLAP除了要求底层的数据模型比较规范,另外,对查询的响应速度要求也越来越高,可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模,那么Kylin是最好的选择。

即席查询:即席查询的数据比较随意,一般很难建立通用的数据模型,因此可能的方案有:Impala、Presto、SparkSQL。

这么多比较成熟的框架和方案,需要结合自己的业务需求及数据平台技术架构,选择合适的。原则只有一个:越简单越稳定的,就是最好的。

❾ 在hadoop中什么命令的功能是将一个或多个

1、启动hadoop所有进程
start-all.sh等价于start-dfs.sh + start-yarn.sh

但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。

2、单进程启动。

sbin/start-dfs.sh

---------------

sbin/hadoop-daemons.sh --config .. --hostname .. start namenode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start datanode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start sescondarynamenode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start zkfc ... //

sbin/start-yarn.sh
--------------
libexec/yarn-config.sh
sbin/yarn-daemon.sh --config $YARN_CONF_DIR start resourcemanager
sbin/yarn-daemons.sh --config $YARN_CONF_DIR start nodemanager

3、常用命令

1、查看指定目录下内容

hdfs dfs –ls [文件目录]

hdfs dfs -ls -R / //显式目录结构

eg: hdfs dfs –ls /user/wangkai.pt

2、打开某个已存在文件

hdfs dfs –cat [file_path]

eg:hdfs dfs -cat /user/wangkai.pt/data.txt

3、将本地文件存储至hadoop

hdfs dfs –put [本地地址] [hadoop目录]

hdfs dfs –put /home/t/file.txt /user/t

4、将本地文件夹存储至hadoop

hdfs dfs –put [本地目录] [hadoop目录]
hdfs dfs –put /home/t/dir_name /user/t

(dir_name是文件夹名)

5、将hadoop上某个文件down至本地已有目录下

hadoop dfs -get [文件目录] [本地目录]

hadoop dfs –get /user/t/ok.txt /home/t

6、删除hadoop上指定文件

hdfs dfs –rm [文件地址]

hdfs dfs –rm /user/t/ok.txt

7、删除hadoop上指定文件夹(包含子目录等)

hdfs dfs –rm [目录地址]

hdfs dfs –rmr /user/t

8、在hadoop指定目录内创建新目录

hdfs dfs –mkdir /user/t

hdfs dfs -mkdir - p /user/centos/hadoop

9、在hadoop指定目录下新建一个空文件

使用touchz命令:

hdfs dfs -touchz /user/new.txt

10、将hadoop上某个文件重命名

使用mv命令:

hdfs dfs –mv /user/test.txt /user/ok.txt (将test.txt重命名为ok.txt)

11、将hadoop指定目录下所有内容保存为一个文件,同时down至本地

hdfs dfs –getmerge /user /home/t

12、将正在运行的hadoop作业kill掉

hadoop job –kill [job-id]

13.查看帮助

hdfs dfs -help

4、安全模式

(1)退出安全模式

NameNode在启动时会自动进入安全模式。安全模式是NameNode的一种状态,在这个阶段,文件系统不允许有任何修改。

系统显示Name node in safe mode,说明系统正处于安全模式,这时只需要等待十几秒即可,也可通过下面的命令退出安全模式:/usr/local/hadoop$bin/hadoop dfsadmin -safemode leave

(2) 进入安全模式
在必要情况下,可以通过以下命令把HDFS置于安全模式:/usr/local/hadoop$bin/hadoop dfsadmin -safemode enter

5、节点添加

添加一个新的DataNode节点,先在新加节点上安装好Hadoop,要和NameNode使用相同的配置(可以直接从NameNode复制),修改HADOOPHOME/conf/master文件,加入NameNode主机名。然后在NameNode节点上修改HADOOPHOME/conf/master文件,加入NameNode主机名。然后在NameNode节点上修改HADOOP_HOME/conf/slaves文件,加入新节点名,再建立新加节点无密码的SSH连接,运行启动命令为:/usr/local/hadoop$bin/start-all.sh

6、负载均衡

HDFS的数据在各个DataNode中的分布可能很不均匀,尤其是在DataNode节点出现故障或新增DataNode节点时。新增数据块时NameNode对DataNode节点的选择策略也有可能导致数据块分布不均匀。用户可以使用命令重新平衡DataNode上的数据块的分布:/usr/local/hadoop$bin/start-balancer.sh

7、补充

1.对hdfs操作的命令格式是hdfs dfs
1.1 -ls 表示对hdfs下一级目录的查看
1.2 -lsr 表示对hdfs目录的递归查看
1.3 -mkdir 创建目录
1.4 -put 从Linux上传文件到hdfs
1.5 -get 从hdfs下载文件到linux
1.6 -text 查看文件内容
1.7 -rm 表示删除文件
1.7 -rmr 表示递归删除文件
2.hdfs在对数据存储进行block划分时,如果文件大小超过block,那么按照block大小进行划分;不如block size的,划分为一个块,是实际数据大小。
*****PermissionDenyException 权限不足**********
hadoop常用命令:
hdfs dfs 查看Hadoop HDFS支持的所有命令
hdfs dfs –ls 列出目录及文件信息
hdfs dfs –lsr 循环列出目录、子目录及文件信息
hdfs dfs –put test.txt /user/sunlightcs 将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下
hdfs dfs –get /user/sunlightcs/test.txt . 将HDFS中的test.txt复制到本地文件系统中,与-put命令相反
hdfs dfs –cat /user/sunlightcs/test.txt 查看HDFS文件系统里test.txt的内容
hdfs dfs –tail /user/sunlightcs/test.txt 查看最后1KB的内容
hdfs dfs –rm /user/sunlightcs/test.txt 从HDFS文件系统删除test.txt文件,rm命令也可以删除空目录
hdfs dfs –rmr /user/sunlightcs 删除/user/sunlightcs目录以及所有子目录
hdfs dfs –FromLocal test.txt /user/sunlightcs/test.txt 从本地文件系统复制文件到HDFS文件系统,等同于put命令
hdfs dfs –ToLocal /user/sunlightcs/test.txt test.txt 从HDFS文件系统复制文件到本地文件系统,等同于get命令
hdfs dfs –chgrp [-R] /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录所属群组,选项-R递归执行,跟linux命令一样
hdfs dfs –chown [-R] /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录拥有者,选项-R递归执行
hdfs dfs –chmod [-R] MODE /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录权限,MODE可以为相应权限的3位数或+/-{rwx},选项-R递归执行
hdfs dfs –count [-q] PATH 查看PATH目录下,子目录数、文件数、文件大小、文件名/目录名
hdfs dfs –cp SRC [SRC …] DST 将文件从SRC复制到DST,如果指定了多个SRC,则DST必须为一个目录
hdfs dfs – PATH 显示该目录中每个文件或目录的大小
hdfs dfs –s PATH 类似于,PATH为目录时,会显示该目录的总大小
hdfs dfs –expunge 清空回收站,文件被删除时,它首先会移到临时目录.Trash/中,当超过延迟时间之后,文件才会被永久删除
hdfs dfs –getmerge SRC [SRC …] LOCALDST [addnl] 获取由SRC指定的所有文件,将它们合并为单个文件,并写入本地文件系统中的LOCALDST,选项addnl将在每个文件的末尾处加上一个换行符
hdfs dfs –touchz PATH 创建长度为0的空文件
hdfs dfs –test –[ezd] PATH 对PATH进行如下类型的检查: -e PATH是否存在,如果PATH存在,返回0,否则返回1 -z 文件是否为空,如果长度为0,返回0,否则返回1 -d 是否为目录,如果PATH为目录,返回0,否则返回1
hdfs dfs –text PATH 显示文件的内容,当文件为文本文件时,等同于cat,文件为压缩格式(gzip以及hadoop的二进制序列文件格式)时,会先解压缩 hdfs dfs –help ls 查看某个[ls]命令的帮助文档

本文转自 https://www.cnblogs.com/LHWorldBlog/p/8514994.html

❿ 如何将hdfs上的文件存储到db2

HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点:
1、在分布式存储中,经常会出现节点失效的情况,HDFS可以持续监视,错误检查,容错处理,自动恢复;
2、分布式存储的文件都是非常巨大的,HDFS重新规定了每次I/O的块的大小;
3、对于搜索引擎的业务,大部分都只会在文件尾添加新数据,很少修改已有数据。HDFS做了优化;
4、与应用一起设计的文件系统API对整个系统的弹性和适用性有很大好处;
5、有效的支持多个客户端并行添加同一个文件。
虽然HDFS实现了这么多的功能,但是因为它已经实现为一个开源框架,所以对于程序开发者来说,并不需要了解其底层的文件操作,我们可以通过其提供的一套与linux文件命令类似的命令行工具来进行文件操作。

基本文件命令:
格式为:hadoop fs -cmd <args>
cmd的命名通常与unix对应的命令名相同。例如,文件列表命令: hadoop fs -ls
1、添加目录和文件
HDFS有一个默认的工作目录 /user/$USER,其中$USER是你的登录用户名。不过目录不会自动建立,我们现在用mkdir建立它,我使用的是chen作为用户名。
hadoop fs -mkdir /user/chen
(hadoop的mkdir命令会自动创建父目录,类似于带-p的unix命令)
我们现在放本地文件系统的一个文件进去。
hadoop fs -put example.txt .
最后一个参数是句点,相当于放入了默认的工作目录,等价于 hadoop fs -put example.txt /user/chen
当你把文件放入HDFS上后,你就可以运行Hadoop程序来处理它。

2、检索文件
get命令与put命令相反,它从HDFS复制文件回到本地文件系统。
hadoop fs -get example.txt .
复制到本地的当前工作目录中。
另一种是显示数据,用cat
hadoop fs -cat example.txt

3、删除文件
rm命令
hadoop fs -rm example.txt
也可以用来删除空目录

编程读写HDFS
利用HDFS给我们提供的API,我们同样可以访问它。
在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs软件包中。包括常见的open、read、write、close。Hadoop文件的API起点是FileSystem类,这是一个与文件系统交互的抽象类,我们通过调用factory的方法FileSystem.get(Configuration conf)来取得所需的FileSystem实例,如下我们可以获得与HDFS接口的FileSystem对象:
Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(conf);//获得HDFS的FileSystem对象
如果我们要实现HDFS与本地文件系统的交互,我们还需要获取本地文件系统的FileSystem对象
FileSystem local = FileSystem.getLocal(conf);//获得本地文件系统的FileSystem对象
以下代码讲解了一个例子,我们开发一个PutMerge程序,用于合并本地文件后放入HDFS,因为大文件HDFS处理起来比较容易,所以这个程序经常会在以后的开发中用到
[java] view plain
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class PutMerge {

public static void main(String[] args) throws IOException {
[java] view plain
Configuration conf = new Configuration();
FileSystem hdfs =FileSystem.get(conf); //获得HDFS文件系统的对象
FileSystem local = FileSystem.getLocal(conf);//获得本地文件系统的对象
[java] view plain
Path inputDir = new Path(args[0]);//设定输入目录
Path hdfsFile = new Path(args[1]);//设定输出目录

try{
FileStatus[] inputFiles = local.listStatus(inputDir);//FileStatus的listStatus()方法获得一个目录中的文件列表
FSDataOutputStream out = hdfs.create(hdfsFile);//生成HDFS输出流

for(int i = 0; i < inputFiles.length; i ++){
System.out.println(inputFiles[i].getPath().getName());
[java] view plain
FSDataInputStream in = local.open(inputFiles[i].getPath());//打开本地输入流
byte[] buffer = new byte[256];
int bytesRead = 0;
while((bytesRead = in.read(buffer))>0){
out.write(buffer,0,bytesRead);//通过一个循环来写入
}
in.close();
}
out.close();

}catch (IOException e) {
e.printStackTrace();
}
}

阅读全文

与hdfs命令get相关的资料

热点内容
pdfplus 浏览:577
汇编O命令 浏览:970
plt转pdf 浏览:364
魔兽60宏命令大全 浏览:478
php志愿者网站源码 浏览:874
贸易pdf 浏览:497
dbug命令 浏览:351
开逛app如何加好友 浏览:960
ftpdos命令下载文件 浏览:75
华为如何打开语音服务器 浏览:243
python中的idle 浏览:1000
五轴联动数控编程 浏览:965
换一台电脑如何远程云服务器 浏览:133
阿里云怎么买云服务器 浏览:665
java提取文字 浏览:97
阿里云服务器同人账号问题 浏览:421
5分钟解压轴题 浏览:341
安卓桌面二级文件夹 浏览:188
eps文档加密 浏览:261
手机怎么做pdf 浏览:162