登录hdfs命令_何时使用hadoop fshadoop dfs与hdfs dfs命令

⑴ HDFS和本地文件系统文件互导

初步了解一下情况，后续根据给出案例

一、从本地文件系统到HDFS

使用hdfs自带的命令

命令：hdfs dfs -FromLocal inputPath outputPath

inputPath：本地文件目录的路径

outputPath：hdfs文件目录路径，即存储路径

二、从HDFS到本地文件系统

命令：hdfs dfs -ToLocal inputPath outputPath

inputPath：hdfs文件目录

outputPath：本地文件文件目录，即本地存储路径

因为Hbas和Hive都在存储在HDFS中，所以可以通过该条命令可以把Hbase和Hive存储在HDFS中的文件复制出来。但是经过实践，通过这种方式复制出来的Hbase文件是乱码。Hive里的文件有时候也会乱码，这取决于Hive数据的插入方式。

三、文件在HDFS内的移动

1、从Hbase表导出数据到HDFS

命令：hbase org.apache.hadoop.hbase.maprece.Export tableName outputPaht

例子：hbase org.apache.hadoop.hbase.maprece.Export test /user/data

test为需要从Hbase中导出的表，／user/data为hdfs上的路径，即存储路径，如果最后一个参数有前缀file：// 则为本地上的文件存储系统

2、从HDFS导入到Hbase表中，需要事先建立好表结构

命令：hbase org.apache.hadoop.hbase.maprece.Export tableName inputPaht

例子：hbase org.apache.hadoop.hbase.maprece.Import test1 /temp/part-m-00000

案列：

两个不同环境数据，数据导入

过程描述：

          导出正式环境数据到hdfs中，然后从hdfs中导出到本地，本地传到测试环境主机，然后从本地导入到hdfs中，再从hdfs中导入到hbase中。

处理过程：

1、注意事项：1、权限问题使用hdfs：sudo -u hdfs ；

                      2、存放上传路径最好不要在root下

                      3、上传完成后，查看是否在使用，数据已经插入。

1、sudo -u hdfs hbase org.apache.hadoop.hbase.maprece.Export ** /hbase/**_bak （导出到hdfs中的**_bak）

2、hdfs dfs -ToLocal /hbase/sw_bak /test (导出hdfs中文件到本地test，注：提前建好目录)

3、scp -r test_bak [email protected].**:/root/test （传送目录到测试环境主机目录下，注：传到测试环境后，把文件不要放到root的目录下，换家目录下）

4、sudo -u hdfs hdfs dfs -FromLocal /chenzeng/text_bak /data （把sw传到hdfs 中，注意上传时，文件路径要对，放在data路径下比较好）

5、sudo -u hdfs hbase org.apache.hadoop.hbase.maprece.Import test /data/test_bak/part-m-0000 （注意上次文件）

6、在hbase shell 中查看test ：count 'test' 确认是否上传成功

优化：

truncate ‘’

正式环境导入至hdfs中时，

可以直接在另一个环境的执行sudo -u hdfs hbase org.apache.hadoop.hbase.maprece.Import test hdfs://server243:8020/hbase**** 可以直接加主机和对应路径进行put。

⑵ 与HDFS命令交互时如何指定文件和目录确切位

在集群模式下，如果与集群的HDFS交互时，必须指定URI中的scheme、authority、path，三个配置均不能省略。我们可以查看主节点的etc/hadoop/core-site.xml配置文件，查看fs.defaultFS属性

<property><name>fs.defaultFS</name><value>hdfs://hadoop-master-vm:9000</value></property>

同样以Hadoop的cat命令为例来显示example.txt文件内容：hadoop fs -cat hdfs://hadoop-master-vm:9000/user/hadoop/example.txt

⑶ 怎样进入hdfs的shell命令行

使用方法：hadoopfs-chgrp[-R]GROUPURI[URI…]Changegroupassociationoffiles.With-R,.Theusermustbetheowneroffiles,orelseasuper-user..–>改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。的信息请参见HDFS权限用户指南。

⑷ HDFS常用命令

hdfs dfs -linux命令操作是一样
hadoop fs 等同于 hdfs dfs

如果压缩是false，一般需要自己编译支持压缩，如果是使用CDH系列的，不用担心。
自己编译可参考： https://segmentfault.com/a/1190000038464476?utm_source=sf-similar-article

hadoop 3.2.2的版本dfs.disk.balancer.enabled默认为true，以前的老版本默认值是false，这个参数可以在hdfs-site.xml 中修改。

命令：
hdfs diskbalancer -plan hadoop001 #生成计划

hdfs diskbalancer -execute hadoop001.plan.json #执行计划

⑸ 何时使用hadoop fs，hadoop dfs与hdfs dfs命令

hadoop hdfs dfs基本操作
本文主要参考：
http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/FileSystemShell.html

根据上面官方文档的提示我们能够知道可以通过shell的方式访问hdfs中的数据，对数据进行操作。那么首先让我们看一下hdfs的版本，使用命令hdfs version。
好，下面上货：
1、查询
使用命令：
hdfs dfs -ls / 这条执行会列出/目录下的文件和目录
hdfs dfs -ls -R /这条会列出/目录下的左右文件，由于有-R参数，会在文件夹和子文件夹下执行ls操作。
2、添加文件夹
使用命令；
hdfs dfs -mkdir -p /xytest/testdata001/
这里需要注意的是，root用户是否拥有hdfs 的权限，如果有，我们可以继续操作，如果没有，我们可以直接使用hdfs用户，默认安装完cdh后，用户hdfs拥有所有的权限。如果对于权限有不明白的，推荐看一下我的另一篇文章：
http://blog.csdn.net/wild46cat/article/details/69664376

3、增加文件
使用命令：
hdfs dfs -FromLocal ~/123.txt /xytest/testdata001/
4、查看hdfs文件中的内容
使用命令：
hdfs dfs -cat /xytest/testdata001/123.txt
或者，可以把hdfs中的文件到本地
使用命令：
hdfs dfs -ToLocal /xytest/testdata001/123.txt ~/222.txt
5、删除文件
使用命令：
hdfs dfs -rm -f /xytest/testdata001/123.txt
6、删除文件夹
使用命令：
hdfs dfs -rm -r /xytest/testdata001

⑹ 大数据之HDFS

在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为 分布式文件系统 。

HDFS （Hadoop Distributed File System）是 Hadoop 的核心组件之一，非常适于存储大型数据 (比如 TB 和 PB)， HDFS 使用多台计算机存储文件，并且提供统一的访问接口，像是访问一个普通文件系统一样使用分布式文件系统。

HDFS是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的 高容错、高可靠性、高可扩展性、高获得性、高吞吐率 等特征为海量数据提供了不怕故障的存储，为超大数据集的应用处理带来了很多便利。

HDFS 具有以下优点：

当然 HDFS 也有它的劣势，并不适合以下场合：

HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。

Namenode是整个文件系统的管理节点，负责接收用户的操作请求。它维护着整个文件系统的目录树，文件的元数据信息以及文件到块的对应关系和块到节点的对应关系。

Namenode保存了两个核心的数据结构：

在NameNode启动的时候，先将fsimage中的文件系统元数据信息加载到内存，然后根据edits中的记录将内存中的元数据同步到最新状态；所以，这两个文件一旦损坏或丢失，将导致整个HDFS文件系统不可用。

为了避免edits文件过大， SecondaryNameNode会按照时间阈值或者大小阈值，周期性的将fsimage和edits合并 ，然后将最新的fsimage推送给NameNode。

并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。其主要任务是辅助 NameNode，定期合并 fsimage和fsedits。

Datanode是实际存储数据块的地方，负责执行数据块的读/写操作。

一个数据块在DataNode以文件存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据，包括数据块的长度，块数据的校验和，以及时间戳。

文件划分成块，默认大小128M，以快为单位，每个块有多个副本（默认3个）存储不同的机器上。

Hadoop2.X默认128M， 小于一个块的文件，并不会占据整个块的空间 。Block数据块大小设置较大的原因：

文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。

Client 还提供一些命令来管理 HDFS，比如启动或者关闭HDFS。

Namenode始终在内存中保存metedata，用于处理“读请求”，到有“写请求”到来时，namenode会首 先写editlog到磁盘，即向edits文件中写日志，成功返回后，才会修改内存 ，并且向客户端返回，Hadoop会维护一个fsimage文件，也就是namenode中metedata的镜像，但是fsimage不会随时与namenode内存中的metedata保持一致，而是每隔一段时间通过合并edits文件来更新内容。

HDFS HA（High Availability）是为了解决单点故障问题。

HA集群设置两个名称节点，“活跃（ Active ）”和“待命（ Standby ）”，两种名称节点的状态同步，可以借助于一个共享存储系统来实现，一旦活跃名称节点出现故障，就可以立即切换到待命名称节点。

为了保证读写数据一致性，HDFS集群设计为只能有一个状态为Active的NameNode，但这种设计存在单点故障问题，官方提供了两种解决方案：

通过增加一个Secondary NameNode节点，处于Standby的状态，与Active的NameNode同时运行。当Active的节点出现故障时，切换到Secondary节点。

为了保证Secondary节点能够随时顶替上去，Standby节点需要定时同步Active节点的事务日志来更新本地的文件系统目录树信息，同时DataNode需要配置所有NameNode的位置，并向所有状态的NameNode发送块列表信息和心跳。

同步事务日志来更新目录树由JournalNode的守护进程来完成，简称为QJM，一个NameNode对应一个QJM进程，当Active节点执行任何命名空间文件目录树修改时，它会将修改记录持久化到大多数QJM中，Standby节点从QJM中监听并读取编辑事务日志内容，并将编辑日志应用到自己的命名空间。发生故障转移时，Standby节点将确保在将自身提升为Active状态之前，从QJM读取所有编辑内容。

注意，QJM只是实现了数据的备份，当Active节点发送故障时，需要手工提升Standby节点为Active节点。如果要实现NameNode故障自动转移，则需要配套ZKFC组件来实现，ZKFC也是独立运行的一个守护进程，基于zookeeper来实现选举和自动故障转移。

虽然HDFS HA解决了“单点故障”问题，但是在系统扩展性、整体性能和隔离性方面仍然存在问题：

HDFS HA本质上还是单名称节点。HDFS联邦可以解决以上三个方面问题。

在HDFS联邦中，设计了多个相互独立的NN，使得HDFS的命名服务能够水平扩展，这些NN分别进行各自命名空间和块的管理，不需要彼此协调。每个DN要向集群中所有的NN注册，并周期性的发送心跳信息和块信息，报告自己的状态。

HDFS联邦拥有多个独立的命名空间，其中，每一个命名空间管理属于自己的一组块，这些属于同一个命名空间的块组成一个“块池”。每个DN会为多个块池提供块的存储，块池中的各个块实际上是存储在不同DN中的。

⑺ hadoop面试题之HDFS

1、简单介绍下hadoop吧？

广义上hadoop是指与hadoop相关的大数据生态圈。包含hive、spark、hbase等。

狭义上hadoop指的是apache的开源框架。有三个核心组件：

----hdfs：分布式文件存储系统

----yarn：分布式资源管理调度平台

----mr：分布式计算引擎

2、介绍下hdfs?

全称为Hadoop Distributed File System。有三个核心组件：

namenode：有三个作用，第一是负责保存集群的元数据信息，第二是负责维护整个集群节点的正常运行。

第三是负责处理客户端的请求。

datanode：负责实际保存数据。实际执行数据块的读写操作。

secondarynamenode：辅助namenode进行元数据的管理。不是namenode的备份。

3、namenode的工作机制？

namenode在内存中保存着整个内存系统的名称空间和文件数据块的地址映射。整个hdfs可存储的文件数受限于namenode的内存大小。所以hdfs不适合大量小文件的存储。

---namenode有三种元数据存储方式来管理元数据：

》内存元数据：内存中保存了完整的元数据

》保存在磁盘上的元数据镜像文件（fsimage）：该文件时hdfs存在磁盘中的元数据检查点，里面保存的是最后一次检查点之前的hdfs文件系统中所有目录和文件的序列化信息。

》数据操作日志文件（edits）：用于衔接内存meta data和持久化元数据镜像fsimage之间的操作日志文件。保存了自最后一次检查点之后所有针对hdfs文件系统的操作。如对文件的增删改查。

4、如何查看元数据信息？

因为edits和fsimage文件是经过序列化的，所以不能直接查看。hadoop2.0以上提供了查看两种文件的工具。

----命令：hdfs oiv 可以将fsimage文件转换成其他格式，如xml和文本文件。-i 表示输入fsimage文件。-o 输出文件路径，-p 指定输出文件

hdfs oev可以查看edits文件。同理需要指定相关参数。

详情查看： https://www.imooc.com/article/79705

4、datanode的工作机制？

1）以数据块的形式存储hdfs文件

2）datanode响应客户端的读写请求

3）周期性的向namenode汇报心跳信息、数据块信息、缓存数据块信息

5、secondary namenode工作机制？

当发生checkpoint机制时会触发second namenode进行工作。checkpoint：

新的edists文件不会立即和fsimage文件合并，是在edits文件大小超过（默认）64m，或者时间超过（默认）1小时，会触发checkpoint操作。当checkpoint时，namenode会新建一个edits.new的文件,此时second namenode将文件fsimage文件和edits文件（http get）到本地，然后加载到内存中进行合并，完成的文件名称为fsimage.ckpt。最后 second namenode将该文件（http post）到namenode，然后edits.new和fsimage.ckpt文件转换为fsimage和edits。

6、hdfs的文件副本机制？

所有的文件都是以块的形式保存到hdfs中。块的大小默认为128m。在hdfs-site文件中进行指定。

动态副本创建策略：默认副本数是3，可以在上传文件时，显式设定replication。也可以通过指令修改文件的副本数 hadoop fs -setrep -R 1

7、为实现高可用，hdfs采用了哪些策略？

副本机制、机架感知、心跳机制、安全模式、校验和、回收站、元数据保护、快照机制（具体介绍导航- https://www.jianshu.com/writer#/notebooks/44567747/notes/66453316 ）

8、hdfs的存储过程？

①client向hdfs发起写请求，通过RPC与namenode建立通讯。namenode检查文件是否存在等信息，返回是否可以存储。

②client将文件切割为一个个block块，client申请存储第一块block。namenode返回可以存储这个block块的datanode的地址，假设为ABC。

③A到B到C逐级构建pipeline。client向A上传第一个packet，默认为64k。A收到一个packet后会将packet传给B，再传给C。pipeline反方向返回ack信息。最终由第一个节点A将pipelineack发送给client

④一个block完成之后，再进行下一个block的存储过程。

9、hdfs的读过程？

10、hdfs的垃圾桶机制？

hdfs的垃圾桶机制默认是关闭的，需要手动开启。hdfs删除的文件不会立刻就删除，而是在设定的时间后进行删除。

11、hdfs的扩容和缩容

【

12、

⑻ hadoop常用shell命令怎么用

一、常用的hadoop命令
1、hadoop的fs命令
#查看hadoop所有的fs命令

1

hadoop fs

#上传文件（put与FromLocal都是上传命令）

1
2

hadoop fs -put jdk-7u55-linux-i586.tar.gz hdfs://hucc01:9000/jdk
hadoop fs -FromLocal jdk-7u55-linux-i586.tar.gz hdfs://hucc01:9000/jdk

#下载命令(get与ToLocal都是下载命令)

1
2

hadoop fs -get hdfs://hucc01:9000/jdk jdk1.7
hadoop fs -ToLocal hdfs://hucc01:9000/jdk jdk1.7

#将本地一个或者多个文件追加到hdfs文件中（appendToFile）

1

hadoop fs -appendToFile install.log /words

#查询hdfs的所有文件（ls）

1

hadoop fs -ls /

#帮助命令（help）

1

hadoop fs -help fs

#查看hdfs文件的内容（cat和text）

1
2

hadoop fs -cat /words
hadoop fs -text /words

#删除hdfs文件(rm)

1

hadoop fs -rm -r /words

#统计hdfs文件和文件夹的数量（count）

1

hadoop fs -count -r /

#合并hdfs某个文件夹的文件，并且下载到本地（getmerge）

1

hadoop fs -getmerge / merge

#将本地文件剪切到hdfs，相当于对本地文件上传后再删除（moveFormLocal）

1

hadoop fs -moveFromLocal words /

#查看当前文件系统的使用状态（df）

1

hadoop fs -df

二、常用的hdfs命令（这个用的比较多）
用法跟hadoop命令一样，推荐2.0之后使用hdfs命令

1

hdfs dfs

⑼ 可以使用如下哪个命令来获得hdfs状态的报告

HDFS是Hadoop生态系统的根基，也是Hadoop生态系统中的重要一员，大部分时候，我们都会使用Linux shell命令来管理HDFS，包括一些文件的创建，删除，修改，上传等等，因为使用shell命令操作HDFS的方式，相对比较简单，方便，但是有时候

⑽ spark、hive、impala、hdfs的常用命令

对spark、hive、impala、hdfs的常用命令作了如下总结，欢迎大家补充！

1. Spark的使用：

以通过SecureCRT访问IP地址：10.10.234.198 为例进行说明：

先输入：ll //查询集群是否装有spark

>su - mr

>/home/mr/spark/bin/beeline -u "jdbc:hive2:/bigdata198:18000/" -n mr -p ""

>show databases; //显示其中数据库，例如

>use bigmax; //使用数据库bigmax

>show tables; //查询目录中所有的表

>desc formatted TableName; //显示表的详细信息，包括分区、字段、地址等信息

>desc TableName; //显示表中的字段和分区信息

>select count(*) from TableName; //显示表中数据数量，可以用来判断表是否为空

>drop table TableName; //删除表的信息

>drop bigmax //删除数据库bigmax

>describe database zxvmax //查询数据库zxvmax信息

创建一个表

第一步：

>create external table if not exists lte_Amaze //创建一个叫lte_Amaze的表

( //括号中每一行为表中的各个字段的名称和其所属的数据类型，并用空格隔开

DateTime String,

MilliSec int,

Network int,

eNodeBID int,

CID int,

IMSI String,

DataType int,

AoA int,

ServerRsrp int,

ServerRsrq int,

TA int,

Cqi0 Tinyint,

Cqi1 Tinyint //注意，最后一个字段结束后，没有逗号

)

partitioned by (p_date string, p_hour INT) //以p_date和p_hour作为分区

row format delimited fields terminated by ',' /*/*表中行结构是以逗号作为分隔符，与上边的表中字段以逗号结尾相一致*/

stored as textfile; //以文本格式进行保存

第二步：添加分区，指定分区的位置

>alter table lte_Amaze add partition (p_date='2015-01-27',p_hour=0) location'/lte/nds/mr/lte_nds_cdt_uedetail/p_date=2015-01-27/p_hour=0';

//添加lte_Amaze表中分区信息，进行赋值。

//并制定分区对应目录/lte/nds/mr下表lte_nds_cdt_uedetail中对应分区信息

第三步:察看添加的结果

>show partitions lte_Amaze； //显示表的分区信息

2. hdfs使用：

#su - hdfs //切换到hdfs用户下、

#hadoop fs –ls ///查看进程
# cd /hdfs/bin //进入hdfs安装bin目录
>hadoop fs -ls /umtsd/cdt/ //查询/umtsd/cdt/文件目录
>hadoop fs -mkdir /umtsd/test //在/umtsd目录下创建test目录
>hadoop fs -put /home/data/u1002.csv /impala/data/u5002 //将home/data/u1002.csv这个文件put到hdfs文件目录上。put到hdfs上的数据文件以逗号“,”分隔符文件（csv）,数据不论类型，直接是数据，没有双引号和单引号
>hadoop fs -rm /umtsd/test/test.txt //删除umtsd/test目录下的test.txt文件
>hadoop fs -cat /umtsd/test/test.txt //查看umtsd/test目录下的test.txt文件内容

3hive操作使用：
#su - mr //切换到mr用户下
#hive //进入hive查询操作界面
hive>show tables; //查询当前创建的所有表
hive>show databases; //查询当前创建的数据库
hive>describe table_name; {或者desc table_name}//查看表的字段的定义和分区信息，有明确区分（impala下该命令把分区信息以字段的形式显示出来，不怎么好区分）
hive> show partitions table_name; //查看表对应数据现有的分区信息，impala下没有该命令
hive> quit;//退出hive操作界面

hive>desc formatted table_name; 查看表结构，分隔符等信息

hive> alter table ceshi change id id int; 修改表的列数据类型 //将id数据类型修改为int 注意是两个id

hive> SHOW TABLES '.*s'; 按正条件（正则表达式）显示表，

[mr@aico ~]$ exit; 退出mr用户操作界面，到[root@aico]界面

impala操作使用：
#su - mr //切换到mr用户下
#cd impala/bin //进入impala安装bin目录
#/impala/bin> impala-shell.sh -i 10.10.234.166/localhost //进入impala查询操作界面
[10.10.234.166:21000] >show databases; //查询当前创建的数据库
[10.10.234.166:21000] >use database_name; //选择使用数据库,默认情况下是使用default数据库
[10.10.234.166:21000] > show tables; //查询当前数据库下创建的所有表
[10.10.234.166:21000] >describe table_name; //查看表的字段的定义,包括分区信息，没有明确区分
[10.10.234.166:21000] > describe formatted table_name; //查看表对应格式化信息，包括分区，所属数据库，创建用户，创建时间等详细信息。
[10.10.234.166:21000] >refresh table_name; //刷新一下，保证元数据是最新的
[10.10.234.166:21000] > alter TABLE U107 ADD PARTITION(reportDate="2013-09-27",rncid=487)LOCATION '/umts/cdt/
MREMITABLE/20130927/rncid=487' //添加分区信息，具体的表和数据的对应关系
[10.10.234.166:21000] > alter TABLE U100 drop PARTITION(reportDate="2013-09-25",rncid=487); //删除现有的分区，数据与表的关联
[10.10.234.166:21000] >quit; //退出impala操作界面

[mr@aicod bin]$ impala-shell; 得到welcome impala的信息，进入impala 查询操作界面

[aicod:21000] > 按两次tab键，查看可以用的命令

alter describe help profile shell values

connect drop history quit show version

create exit insert select unset with

desc explain load set use

导航:首页 > 程序命令 > 登录hdfs命令

登录hdfs命令

与登录hdfs命令相关的资料