hdfs创建目录命令_hadoop内部表直接添加文件

A. 在hdfs中为hive创建目录（/user/hive/warehouse）

/user/hive/warehouse在hive的配置文件中已被定义（也就是那是呗创建的睁昌），那个州早则配置文件是hive/conf/册棚hice-site.xml中的（hive.metastore.warehouse.dir属性）

B. HDFS系统的搭建（整理详细版）

首先我这里有5台虚拟机，1台NameNode,4台DataNode

master充当着NameNode的角色，其他的salve充当着DataNode的角色，并且在这5台虚拟机上我都修改了hosts文件，配置了他们的主机名尘游他们可以通过主机名进行互相的访问。

配置完成 wq 保存退出。

加入 export PATH=$PATH:/usr/local/hadoop-2.7.3/bin:/usr/local/hadoop-2.7.3/sbin
保存后输入命令让profile文件立即生效。

输入命令:hadoop
如果出现以下内容 Hadoop环境就配置成功了

在我的master机器上也就是我192.168.56.101这台机器，这台机器将会成为我的Hadoop集群NameNode节点。
进入master这台机器的的根目录

出现提示可以不理会直接按几次回车键就行了，出现以下界面说明生成私钥id_rsa和公钥id_rsa.pub

把生成的公钥id发送到 slave1、slave2、slave3、slave4机器上

slave1会要求你输入slave1这台机器上的密码

密码输入正确后你会看到以下界面，它说已经添加了密钥,它叫你尝试登陆一下

输入命令SSH免密登陆到slave1

你发现你已经从master不用输入密码登陆到slave1上了

添加其他的slave2、slave3、slave4 也是同样的操作。

在所有有的机器上历世的上core-site.xml、和hdfs-site.xml 文件

修改core-site.xml,在configuration标签内加入以下配置

修改hdfs-site.xml,在configuration标签内加入以下配置

创建文件夹Hadoop存放数据的文件夹
mkdir /home/hadoopData

master主机是我的NameNode节点，所以我在我肢兄肢的master主机上操作，也就是192.168.56.101这台主机。
在master主机的Hadoop目录下修改slaves文件，加入DataNode的节点
注意！注意！注意！
在我hosts文件中已经绑定了域名所以可以直接通过主机的名字访问(不明白看本文章中的节点的介绍)

slave1、slave2、slave3、slave4都是DataNode的节点我把它们加入到我的NanmeNode节点中
这样我就可以一个命令启动整个集群。

在我master这台主机上输入命令HDFS格式化命令

输入启动HDFS系统命令

检查是否启动成功
在游览器中输入：http://192.168.56.101:50070/
默认你NameNode的IP+50070端口
当你见到以下界面说明你的集群已经起来了

再检查DataNode

我这里配了4个DataNode也起来了说明整个HDFS集群搭建完成了！

C. 在hdfs当前目录下创建子目录dir命令是

命令的使衫胡用者必须是文件的所有者或者没宽超级用户。
操作hdfs系统可以使用hadoopfs也可以使用hdfsdfs，两者效果一样。(hadoopdfs命令已不再建议使用)。
HadoopDistributedFileSystem，简称HDFS，是一或察拦个分布式文件系统。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。

D. HDFS笔记

1.Hadoop 分布式 文件系统。特点：性能高、效率高、速度快
2.可以在廉价的机器上运行的 可容错 文件系统。
当集群中有机器挂掉时，HDFS会自动将挂掉的机器上的任务分配给正常的机器，使任务继续保持正常工作。

2.HDFS处理更加容易。当对一个大型文件进行写操作时，如果将该文件整个写入一个节点，那么该节点的负载便会急剧增加，这样就丧失了分布式文件系统的意义。所以，应该利用HDFS将文件拆分成不同的块，然后将不同的块分配到不同的节点上去，此时，DFS就需要管理者确定文件如何进行拆分，以及每一个块应该分配到哪一个节点。对文件进行操作时，在单机情况下，首先需要知道文件被拆分成多少块，每一个块被放在了哪一个节点上，以及块之间的顺序(文件的粘连)。而HDFS的出现，使得分布式文件集群不再需要人进行管理，利用HDFS读取文件时，我们不需要关心文件如何拆分，分配，粘连。只用告诉HDFS文件的路径即可。

HDFS的指令类似于linux下的指令。
查看文件：hdfs dfs -ls /查询的文件目录
删除文件：hdfs dfs -rm r /删除的文件
创建文件夹：hdfs dfs -mkdir /文件夹名称
上传文件至HDFS：hdfs dfs -put 需要上传的文件 /上传的文件路径

为什么需要学习HDFS结构？
1.面试中，能够运用于所有分布式文件系统设计。
既然分布式系统下是多节点运行，那么节点之间是否通信？slave节点只接受来自master节点的命令，向master节点发送心跳指令，slave节点之间不会主动通信。
a.Master slaver 模式：
1.High consistency:一致性。当文件中的一个数据块写入slave节点时，当且仅当数据块被成功写入到所有备份的slave节点，slave节点向client反馈写入操作成功，否则，重传写入；
2.Simple design:易设计：不需要考虑子节点如何通信。只需要考虑主节点的工作；
3.单master节点不具有鲁棒性。
b.Peer peer 模式：
1.所有的读写操作均匀分布在每一个节点上，每一个节点的负载不会很高；
2.任意一个节点挂掉不会影响其他节点；
3.低一致性。没有数据的复制步骤。
2.更好的理解hadoop生态系统

a.master节点会传输数据吗？
不会，master节点只接收client的请求，决定哪一个slave节点进行读写操作，然后，client直接与slave节点进行通信。如果数据从master节点传输，那么master节点就会成为影响数据传输的瓶颈。
b.slave节点如何存储数据？
整个大文件？小的文件块？。HDFS借鉴GFS的设计理念，以block为传输单位，将大文件拆分成一个一个小文件，而一个小文件就是block。block的大小可以由Configuration定义，默认大小是128M。
c.谁来决定将文件拆分成块？
master?slave?。两者都不是，由HDFS client决定将大文件拆分成block(块)。HDFS的目的是将所有的节点包装起来，可以理解成将所有的节点放在一个黑箱里，我们不需要知道黑箱里到底发生了什么，只需要告诉黑箱需要做什么工作，这里的HDFS client相当于HDFS与user通信的中间媒介。HDFS client相当于一个软件包(api)，可以存放在master或者slave或者额外的一个新节点上。

写入in memory失败(ACK出现问题)时，master会重新选择3个新的slave节点。

E. spark、hive、impala、hdfs的常用命令

对spark、hive、impala、hdfs的常用命令作了如下总结，欢迎大家补充！

1. Spark的使用：

以通过SecureCRT访问IP地址：10.10.234.198 为例进行说明：

先输入：ll //查询集群是否装有spark

>su - mr

>/home/mr/spark/bin/beeline -u "jdbc:hive2:/bigdata198:18000/" -n mr -p ""

>show databases; //显示其中数据库，例如

>use bigmax; //使用数据库bigmax

>show tables; //查询目录中所有的表

>desc formatted TableName; //显示表的详细信息，包括分区、字段、地址等信息

>desc TableName; //显示表中的字段和分区信息

>select count(*) from TableName; //显示表中数据数量，可以用来判断表是否为空

>drop table TableName; //删除表的信息

>drop bigmax //删除数据库bigmax

>describe database zxvmax //查询数据库zxvmax信息

创建一个表

第一步：

>create external table if not exists lte_Amaze //创建一个叫lte_Amaze的表

( //括号中每一行为表中的各个字段的名称和其所属的数据类型，并用空格隔开

DateTime String,

MilliSec int,

Network int,

eNodeBID int,

CID int,

IMSI String,

DataType int,

AoA int,

ServerRsrp int,

ServerRsrq int,

TA int,

Cqi0 Tinyint,

Cqi1 Tinyint //注意，最后一个字段结束后，没有逗号

)

partitioned by (p_date string, p_hour INT) //以p_date和p_hour作为分区

row format delimited fields terminated by ',' /*/*表中行结构是以逗号作为分隔符，与上边的表中字段以逗号结尾相一致*/

stored as textfile; //以文本格式进行保存

第二步：添加分区，指定分区的位置

>alter table lte_Amaze add partition (p_date='2015-01-27',p_hour=0) location'/lte/nds/mr/lte_nds_cdt_uedetail/p_date=2015-01-27/p_hour=0';

//添加lte_Amaze表中分区信息，进行赋值。

//并制定分区对应目录/lte/nds/mr下表lte_nds_cdt_uedetail中对应分区信息

第三步:察看添加的结果

>show partitions lte_Amaze； //显示表的分区信息

2. hdfs使用：

#su - hdfs //切换到hdfs用户下、

#hadoop fs –ls ///查看进程
# cd /hdfs/bin //进入hdfs安装bin目录
>hadoop fs -ls /umtsd/cdt/ //查询/umtsd/cdt/文件目录
>hadoop fs -mkdir /umtsd/test //在/umtsd目录下创建test目录
>hadoop fs -put /home/data/u1002.csv /impala/data/u5002 //将home/data/u1002.csv这个文件put到hdfs文件目录上。put到hdfs上的数据文件以逗号“,”分隔符文件（csv）,数据不论类型，直接是数据，没有双引号和单引号
>hadoop fs -rm /umtsd/test/test.txt //删除umtsd/test目录下的test.txt文件
>hadoop fs -cat /umtsd/test/test.txt //查看umtsd/test目录下的test.txt文件内容

3hive操作使用：
#su - mr //切换到mr用户下
#hive //进入hive查询操作界面
hive>show tables; //查询当前创建的所有表
hive>show databases; //查询当前创建的数据库
hive>describe table_name; {或者desc table_name}//查看表的字段的定义和分区信息，有明确区分（impala下该命令把分区信息以字段的形式显示出来，不怎么好区分）
hive> show partitions table_name; //查看表对应数据现有的分区信息，impala下没有该命令
hive> quit;//退出hive操作界面

hive>desc formatted table_name; 查看表结构，分隔符等信息

hive> alter table ceshi change id id int; 修改表的列数据类型 //将id数据类型修改为int 注意是两个id

hive> SHOW TABLES '.*s'; 按正条件（正则表达式）显示表，

[mr@aico ~]$ exit; 退出mr用户操作界面，到[root@aico]界面

impala操作使用：
#su - mr //切换到mr用户下
#cd impala/bin //进入impala安装bin目录
#/impala/bin> impala-shell.sh -i 10.10.234.166/localhost //进入impala查询操作界面
[10.10.234.166:21000] >show databases; //查询当前创建的数据库
[10.10.234.166:21000] >use database_name; //选择使用数据库,默认情况下是使用default数据库
[10.10.234.166:21000] > show tables; //查询当前数据库下创建的所有表
[10.10.234.166:21000] >describe table_name; //查看表的字段的定义,包括分区信息，没有明确区分
[10.10.234.166:21000] > describe formatted table_name; //查看表对应格式化信息，包括分区，所属数据库，创建用户，创建时间等详细信息。
[10.10.234.166:21000] >refresh table_name; //刷新一下，保证元数据是最新的
[10.10.234.166:21000] > alter TABLE U107 ADD PARTITION(reportDate="2013-09-27",rncid=487)LOCATION '/umts/cdt/
MREMITABLE/20130927/rncid=487' //添加分区信息，具体的表和数据的对应关系
[10.10.234.166:21000] > alter TABLE U100 drop PARTITION(reportDate="2013-09-25",rncid=487); //删除现有的分区，数据与表的关联
[10.10.234.166:21000] >quit; //退出impala操作界面

[mr@aicod bin]$ impala-shell; 得到welcome impala的信息，进入impala 查询操作界面

[aicod:21000] > 按两次tab键，查看可以用的命令

alter describe help profile shell values

connect drop history quit show version

create exit insert select unset with

desc explain load set use

F. HDFS中根目录下创建user文件夹的命令为

HDFS中根目录下创建user文件夹的命令为hadoop dfs-mkdir。在hdfs中创建一个input文件夹：hadoopfs-mkdir/input/1、使用参数-p创建多级目录：hadoopfs-mkdir-p/input/file1。拷贝input目录到hdfs系统的时候，不是采用的hadoop用户，而是用root用户执行的拷贝命令。

hdfs的特点和目标：

1、硬件故障

硬件故障是常态，而不是异常。整个HDFS系统将由数百或数千个存储着文件数据片段的服务器组成。实际上它里面有非常巨大的组成部分，每一个组成部分都很可能出现故障，这就意味着HDFS里的总是有一些部件是失效的，因此，故障的检测和自动快速恢复是HDFS一个很核心的设计目标。

2、数据访问

运行在HDFS之上的应用程序必须流式地访问它们的数据集，它不是运行在普通文件系统之上的普通程序。HDFS被设计成适合批量处理的，而不是用户交互式的。重点是在数据吞吐量，而不是数据访问的反应时间，POSIX的很多硬性需求对于HDFS应用都是非必须的，去掉POSIX一小部分关键语义可以获得更好的数据吞吐率。

3、大数据集

运行在HDFS之上的程序有很大量的数据集。典型的HDFS文件大小是GB到TB的级别。所以，HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。

以上内容参考：网络-hdfs

G. 在hadoop中什么命令的功能是将一个或多个

1、启动hadoop所有进程
start-all.sh等价于start-dfs.sh + start-yarn.sh

但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。

2、单进程启动。

sbin/start-dfs.sh

---------------

sbin/hadoop-daemons.sh --config .. --hostname .. start namenode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start datanode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start sescondarynamenode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start zkfc ... //

sbin/start-yarn.sh
--------------
libexec/yarn-config.sh
sbin/yarn-daemon.sh --config $YARN_CONF_DIR start resourcemanager
sbin/yarn-daemons.sh --config $YARN_CONF_DIR start nodemanager

3、常用命令

1、查看指定目录下内容

hdfs dfs –ls [文件目录]

hdfs dfs -ls -R / //显式目录结构

eg: hdfs dfs –ls /user/wangkai.pt

2、打开某个已存在文件

hdfs dfs –cat [file_path]

eg:hdfs dfs -cat /user/wangkai.pt/data.txt

3、将本地文件存储至hadoop

hdfs dfs –put [本地地址] [hadoop目录]

hdfs dfs –put /home/t/file.txt /user/t

4、将本地文件夹存储至hadoop

hdfs dfs –put [本地目录] [hadoop目录]
hdfs dfs –put /home/t/dir_name /user/t

(dir_name是文件夹名)

5、将hadoop上某个文件down至本地已有目录下

hadoop dfs -get [文件目录] [本地目录]

hadoop dfs –get /user/t/ok.txt /home/t

6、删除hadoop上指定文件

hdfs dfs –rm [文件地址]

hdfs dfs –rm /user/t/ok.txt

7、删除hadoop上指定文件夹（包含子目录等）

hdfs dfs –rm [目录地址]

hdfs dfs –rmr /user/t

8、在hadoop指定目录内创建新目录

hdfs dfs –mkdir /user/t

hdfs dfs -mkdir - p /user/centos/hadoop

9、在hadoop指定目录下新建一个空文件

使用touchz命令：

hdfs dfs -touchz /user/new.txt

10、将hadoop上某个文件重命名

使用mv命令：

hdfs dfs –mv /user/test.txt /user/ok.txt （将test.txt重命名为ok.txt）

11、将hadoop指定目录下所有内容保存为一个文件，同时down至本地

hdfs dfs –getmerge /user /home/t

12、将正在运行的hadoop作业kill掉

hadoop job –kill [job-id]

13.查看帮助

hdfs dfs -help

4、安全模式

(1)退出安全模式

NameNode在启动时会自动进入安全模式。安全模式是NameNode的一种状态，在这个阶段，文件系统不允许有任何修改。

系统显示Name node in safe mode，说明系统正处于安全模式，这时只需要等待十几秒即可，也可通过下面的命令退出安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode leave

(2) 进入安全模式
在必要情况下，可以通过以下命令把HDFS置于安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode enter

5、节点添加

添加一个新的DataNode节点，先在新加节点上安装好Hadoop，要和NameNode使用相同的配置（可以直接从NameNode复制），修改HADOOPHOME/conf/master文件，加入NameNode主机名。然后在NameNode节点上修改HADOOPHOME/conf/master文件，加入NameNode主机名。然后在NameNode节点上修改HADOOP_HOME/conf/slaves文件，加入新节点名，再建立新加节点无密码的SSH连接，运行启动命令为：/usr/local/hadoop$bin/start-all.sh

6、负载均衡

HDFS的数据在各个DataNode中的分布可能很不均匀，尤其是在DataNode节点出现故障或新增DataNode节点时。新增数据块时NameNode对DataNode节点的选择策略也有可能导致数据块分布不均匀。用户可以使用命令重新平衡DataNode上的数据块的分布：/usr/local/hadoop$bin/start-balancer.sh

7、补充

1.对hdfs操作的命令格式是hdfs dfs
1.1 -ls 表示对hdfs下一级目录的查看
1.2 -lsr 表示对hdfs目录的递归查看
1.3 -mkdir 创建目录
1.4 -put 从Linux上传文件到hdfs
1.5 -get 从hdfs下载文件到linux
1.6 -text 查看文件内容
1.7 -rm 表示删除文件
1.7 -rmr 表示递归删除文件
2.hdfs在对数据存储进行block划分时，如果文件大小超过block，那么按照block大小进行划分；不如block size的，划分为一个块，是实际数据大小。
*****PermissionDenyException 权限不足**********
hadoop常用命令：
hdfs dfs 查看Hadoop HDFS支持的所有命令
hdfs dfs –ls 列出目录及文件信息
hdfs dfs –lsr 循环列出目录、子目录及文件信息
hdfs dfs –put test.txt /user/sunlightcs 将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下
hdfs dfs –get /user/sunlightcs/test.txt . 将HDFS中的test.txt复制到本地文件系统中，与-put命令相反
hdfs dfs –cat /user/sunlightcs/test.txt 查看HDFS文件系统里test.txt的内容
hdfs dfs –tail /user/sunlightcs/test.txt 查看最后1KB的内容
hdfs dfs –rm /user/sunlightcs/test.txt 从HDFS文件系统删除test.txt文件，rm命令也可以删除空目录
hdfs dfs –rmr /user/sunlightcs 删除/user/sunlightcs目录以及所有子目录
hdfs dfs –FromLocal test.txt /user/sunlightcs/test.txt 从本地文件系统复制文件到HDFS文件系统，等同于put命令
hdfs dfs –ToLocal /user/sunlightcs/test.txt test.txt 从HDFS文件系统复制文件到本地文件系统，等同于get命令
hdfs dfs –chgrp [-R] /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录所属群组，选项-R递归执行，跟linux命令一样
hdfs dfs –chown [-R] /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录拥有者，选项-R递归执行
hdfs dfs –chmod [-R] MODE /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录权限，MODE可以为相应权限的3位数或+/-{rwx}，选项-R递归执行
hdfs dfs –count [-q] PATH 查看PATH目录下，子目录数、文件数、文件大小、文件名/目录名
hdfs dfs –cp SRC [SRC …] DST 将文件从SRC复制到DST，如果指定了多个SRC，则DST必须为一个目录
hdfs dfs – PATH 显示该目录中每个文件或目录的大小
hdfs dfs –s PATH 类似于，PATH为目录时，会显示该目录的总大小
hdfs dfs –expunge 清空回收站，文件被删除时，它首先会移到临时目录.Trash/中，当超过延迟时间之后，文件才会被永久删除
hdfs dfs –getmerge SRC [SRC …] LOCALDST [addnl] 获取由SRC指定的所有文件，将它们合并为单个文件，并写入本地文件系统中的LOCALDST，选项addnl将在每个文件的末尾处加上一个换行符
hdfs dfs –touchz PATH 创建长度为0的空文件
hdfs dfs –test –[ezd] PATH 对PATH进行如下类型的检查： -e PATH是否存在，如果PATH存在，返回0，否则返回1 -z 文件是否为空，如果长度为0，返回0，否则返回1 -d 是否为目录，如果PATH为目录，返回0，否则返回1
hdfs dfs –text PATH 显示文件的内容，当文件为文本文件时，等同于cat，文件为压缩格式（gzip以及hadoop的二进制序列文件格式）时，会先解压缩 hdfs dfs –help ls 查看某个[ls]命令的帮助文档

本文转自 https://www.cnblogs.com/LHWorldBlog/p/8514994.html

H. hadoop内部表直接添加文件

方法如下：
1、添加本地文件到hdfs目录:hadoopfs-put的命令后面的第一个参数是本地路径，第二个参数是hadoopHDFS上的路径，意思就是将本地路径加载到HDFS上。
2、创建文件夹：在hadoop的HDFS上创建文件夹。
3、上面命令在HDFS的tmp目录下穿件了input文件夹。

I. 在hadoop中如何复制安装包

步骤：
创建帆信目录。在HDFS中创建一个态唯轮山雹文件目录：hadoopdfs-mkdir，查看文件结构目录：hdfsdfs-ls-R/，上传单个安装包文件。往test_dir上传一个文件，假设需要上传一个E:/hadoop/myfile/f1.txt的文件，到HDFS中的test_dir下面，则命令为：
hadoopfs-putE:/hadoop/myfile/f1.txt/test_dir。

导航:首页 > 程序命令 > hdfs创建目录命令

hdfs创建目录命令

与hdfs创建目录命令相关的资料