hdfscp命令_搭建hadoop集群常用配置文件是什么以及配置哪些属性

㈠求教如何用shell获取hadoop命令的执行返回值

调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child，或者更简单的/parent/child（假设你配置文件中的默认值是namenode:namenodeport）。大多数FS Shell命令的行为和对应的Unix Shell命令类似，不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到stderr，其他信息输出到stdout。
cat
使用方法：hadoop fs -cat URI [URI …]
将路径指定文件的内容输出到stdout。
示例：
hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2
hadoop fs -cat file:///file3 /user/hadoop/file4
返回值：
成功返回0，失败返回-1。
chgrp
使用方法：hadoop fs -chgrp [-R] GROUP URI [URI …] Change group association of files. With -R, make the change recursively through the directory structure. The user must be the owner of files, or else a super-user. Additional information is in the Permissions User Guide. -->
改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。
chmod
使用方法：hadoop fs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI …]
改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。
chown
使用方法：hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]
改变文件的拥有者。使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。更多的信息请参见HDFS权限用户指南。
FromLocal
使用方法：hadoop fs -FromLocal <localsrc> URI
除了限定源路径是一个本地文件外，和put命令相似。
ToLocal
使用方法：hadoop fs -ToLocal [-ignorecrc] [-crc] URI <localdst>
除了限定目标路径是一个本地文件外，和get命令类似。
cp
使用方法：hadoop fs -cp URI [URI …] <dest>
将文件从源路径复制到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。
示例：
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir
返回值：
成功返回0，失败返回-1。

使用方法：hadoop fs - URI [URI …]
显示目录中所有文件的大小，或者当只指定一个文件时，显示此文件的大小。
示例：
hadoop fs - /user/hadoop/dir1 /user/hadoop/file1 hdfs://host:port/user/hadoop/dir1
返回值：
成功返回0，失败返回-1。
s
使用方法：hadoop fs -s <args>
显示文件的大小。
expunge
使用方法：hadoop fs -expunge
清空回收站。请参考HDFS设计文档以获取更多关于回收站特性的信息。
get
使用方法：hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>
复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。
示例：
hadoop fs -get /user/hadoop/file localfile
hadoop fs -get hdfs://host:port/user/hadoop/file localfile
返回值：
成功返回0，失败返回-1。
getmerge
使用方法：hadoop fs -getmerge <src> <localdst> [addnl]
接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件连接成本地目标文件。addnl是可选的，用于指定在每个文件结尾添加一个换行符。
ls
使用方法：hadoop fs -ls <args>
如果是文件，则按照如下格式返回文件信息：
文件名 <副本数> 文件大小修改日期修改时间权限用户ID 组ID
如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。目录返回列表的信息如下：
目录名 <dir> 修改日期修改时间权限用户ID 组ID
示例：
hadoop fs -ls /user/hadoop/file1 /user/hadoop/file2 hdfs://host:port/user/hadoop/dir1 /nonexistentfile
返回值：
成功返回0，失败返回-1。
lsr
使用方法：hadoop fs -lsr <args>
ls命令的递归版本。类似于Unix中的ls -R。
mkdir
使用方法：hadoop fs -mkdir <paths>
接受路径指定的uri作为参数，创建这些目录。其行为类似于Unix的mkdir -p，它会创建路径中的各级父目录。
示例：
hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2
hadoop fs -mkdir hdfs://host1:port1/user/hadoop/dir hdfs://host2:port2/user/hadoop/dir
返回值：
成功返回0，失败返回-1。
movefromLocal
使用方法：dfs -moveFromLocal <src> <dst>
输出一个”not implemented“信息。
mv
使用方法：hadoop fs -mv URI [URI …] <dest>
将文件从源路径移动到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。
示例：
hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2
hadoop fs -mv hdfs://host:port/file1 hdfs://host:port/file2 hdfs://host:port/file3 hdfs://host:port/dir1
返回值：
成功返回0，失败返回-1。
put
使用方法：hadoop fs -put <localsrc> ... <dst>
从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。
hadoop fs -put localfile /user/hadoop/hadoopfile
hadoop fs -put localfile1 localfile2 /user/hadoop/hadoopdir
hadoop fs -put localfile hdfs://host:port/hadoop/hadoopfile
hadoop fs -put - hdfs://host:port/hadoop/hadoopfile
从标准输入中读取输入。
返回值：
成功返回0，失败返回-1。
rm
使用方法：hadoop fs -rm URI [URI …]
删除指定的文件。只删除非空目录和文件。请参考rmr命令了解递归删除。
示例：
hadoop fs -rm hdfs://host:port/file /user/hadoop/emptydir
返回值：
成功返回0，失败返回-1。
rmr
使用方法：hadoop fs -rmr URI [URI …]
delete的递归版本。
示例：
hadoop fs -rmr /user/hadoop/dir
hadoop fs -rmr hdfs://host:port/user/hadoop/dir
返回值：
成功返回0，失败返回-1。
setrep
使用方法：hadoop fs -setrep [-R] <path>
改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。
示例：
hadoop fs -setrep -w 3 -R /user/hadoop/dir1
返回值：
成功返回0，失败返回-1。
stat
使用方法：hadoop fs -stat URI [URI …]
返回指定路径的统计信息。
示例：
hadoop fs -stat path
返回值：
成功返回0，失败返回-1。
tail
使用方法：hadoop fs -tail [-f] URI
将文件尾部1K字节的内容输出到stdout。支持-f选项，行为和Unix中一致。
示例：
hadoop fs -tail pathname
返回值：
成功返回0，失败返回-1。
test
使用方法：hadoop fs -test -[ezd] URI
选项：
-e 检查文件是否存在。如果存在则返回0。
-z 检查文件是否是0字节。如果是则返回0。
-d 如果路径是个目录，则返回1，否则返回0。
示例：hadoop fs -test -e filename
text
使用方法：hadoop fs -text <src>
将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。
touchz
使用方法：hadoop fs -touchz URI [URI …]
创建一个0字节的空文件。
示例：
hadoop -touchz pathname
返回值：
成功返回0，失败返回-1。
大家看我的问题，我比较2个文件夹，我发现执行了第2句话程序就结束了！！！没有答应echo different.
请问，我如何才能够获取到diff -r cwjdir1 cwjdir2的返回值呢？？难道这个diff命令在他内部就直接死掉了？？
求高手解答。 1.能获取到这个命令的返回值吗？ 2.为什么打印不出echo different
#!/bin/bash -e
diff -r cwjdir1 cwjdir2
if [ $? -ne 0 ] ; th郸郸策肝匕菲察十畅姜en
echo different
exit 1
fi
echo files cmped

㈡ hiveos删除的机器如何恢复

hiveos删除后想要找回原先的数据只HBASE可以通过回退版本号查找。
首先打开yarn跳到hue页面，找到被删除数据所在的垃圾桶，trash，找到所删数据表的在垃圾桶里的路径，复制出来，在hive里根据被删的数据表重新建一个表，在xshell里连上hive，在hive脚本输入页面用cp命令将被删除数据移到已建好的表下面前面是被删除的路径，后面的是重新建表后的表路径，利用MSCKREPAIRTABLE命令来解决通过hdfsdfs-put或者hdfsapi写入hive分区表的数据在hive中无法被查询到的问题，最后验证一下数据即可。

㈢熟悉常用的 linux 操作和 Hadoop 操作

1.切换到当前目录的上一级目录
cd ..
2.切换到当前登录 Linux 系统的用户自己的主文件夹
cd ~
3.进入/tmp 目录，创建目录 a1/a2/a3/a4。
mkdir a1/a2/a3/a4 -p
4.删除目录
rmdir a
rmdir a1/a2/a3/a4 -p
5.cp 命令：复制文件或目录
(1) 将当前用户的主文件夹下的文件.bashrc 复制到目录“/usr”下，并重命名为 bashrc1
sudo cp .bashrc /usr/bashrc1
(2) 在目录“/tmp”下新建目录 test，再把这个目录复制到“/usr”目录下
cd /tmp
mkdir test
sudo cp /tmp/test /usr -r
6.mv 命令：移动文件与目录，或更名
(1) 将“/usr”目录下的文件 bashrc1 移动到“/usr/test”目录下
sudo mv /usr/bashrc1 /usr/test
(2) 将“/usr”目录下的 test 目录重命名为 test2
sudo mv /usr/test /usr/test2
7.rm 命令：移除文件或目录
(1) 将“/usr/test2”目录下的 bashrc1 文件删除
sudo rm /usr/test2/bashrc1
(2) 将“/usr”目录下的 test2 目录删除
sudo rm -rf /usr/test2
8.cat 命令：查看文件内容查看当前用户主文件夹下的.bashrc 文件内容
cat .bashrc
9.tac 命令：反向查看文件内容反向查看当前用户主文件夹下的.bashrc 文件的内容
tac .bashrc
10.more 命令：一页一页翻动查看翻页查看当前用户主文件夹下的.bashrc 文件的内容
more .bashrc
11.head 命令：取出前面几行
(1) 查看当前用户主文件夹下.bashrc 文件内容前 20 行
head -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容，后面 50 行不显示，只显示前面几行
head -n -50 .bashrc
12.tail 命令：取出后面几行
(1)查看当前用户主文件夹下.bashrc 文件内容最后 20 行
tail -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容，并且只列出 50 行以后的数据
tail -n -50 .bashrc
13.touch 命令：修改文件时间或创建新文件
(1) 在“/tmp”目录下创建一个空文件 hello，并查看文件时间
touch hello
stat hello
(2)修改 hello 文件，将文件时间整为 5 天前
touch -d "2019-3-26" hello
stat hello
14.chown 命令：修改文件所有者权限将 hello 文件所有者改为 root 帐号，并查看属性
sudo chown root hello
ls -l hello
15.find 命令：文件查找找出主文件夹下文件名为.bashrc 的文件
find .bashrc
16.tar 命令：压缩命令
(1) 在根目录“/”下新建文件夹 test，然后在根目录“/”下打包成 test.tar.gz
tar -zcvf test.tar.gz test/
(2) 把上面的 test.tar.gz 压缩包，解压缩到“/tmp”目录
tar -zxvf test.tar.gz
17.grep 命令：查找字符串从“～/.bashrc”文件中查找字符串'examples'
grep -rn "examples" .bashrc
18.使用 hadoop 用户登录 Linux 系统，启动 Hadoop（Hadoop 的安装目录为“/usr/local/hadoop”），为 hadoop 用户在 HDFS 中创建用户目录“/user/hadoop”
./bin/hadoop fs -mkdir -p /usr/hadoop
19.接着在 HDFS 的目录“/user/hadoop”下，创建 test 文件夹，并查看文件列表
./bin/hdfs dfs -mkdir test
./bin/hadoop fs -ls
20.将 Linux 系统本地的“～/.bashrc”文件上传到 HDFS 的 test 文件夹中，并查看 test

./bin/hadoop fs -put ~/.bashrc test

./bin/hadoop fs -ls test
21.将 HDFS 文件夹 test 复制到 Linux 系统本地文件系统的“/usr/local/hadoop”目录下

参考： 1

㈣如何配置Hadoop环境

资源下载

1、JDK下载：下载链接
2、hadoop：下载链接
3、下载完成后验证一下下载，将计算的MD5值与官网的进行对比已验证安装包的准确性：

md5sum ./hadoop-2.6.*.tar.gz | tr "a-z" "A-Z" # 计算md5值，并转化为大写，方便比较1

一、创建Hadoop用户

创建hadoop用户，并分配以用户名为家目录/home/hadoop，并将其加入到sudo用户组，创建好用户之后，以hadoop用户登录：

sudo useradd -m hadoop -s /bin/bash sudo adser hadoop sudo
sudo passwd hadoop # 设置hadoop用户密码123

二、安装JDK、Hadoop及配置环境变量

安装，解压JDK到/usr/lib/java/路径下，Hadoop到/usr/local/etc/hadoop/路径下：

tar zxf ./hadoop-2.6.*.tar.gz
mv ./hadoop-2.6.* /usr/local/etc/hadoop # 将 /usr/local/etc/hadoop作为Hadoop的安装路径12

解压完成之后，可验证hadoop的可用性：

cd /usr/local/etc/hadoop
./bin/hadoop version # 查看hadoop的版本信息12

若在此处，会出现类似以下的错误信息，则很有可能是该安装包有问题。

Error: Could not find or load main class org.apache.hadoop.util.VersionInfo1

配置环境，编辑“/etc/profile”文件，在其后添加如下信息：

export HADOOP_HOME=/usr/local/etc/hadoopexport JAVA_HOME=/usr/lib/java/jdk1.8.0_45export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=$PATH:${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin12345

使配置的变量生效：

source /etc/profile1

三、测试一下

在此我们可以运行一个简单的官方Demo：

cd `echo $HADOOP_HOME` # 到hadoop安装路径
mkdir ./input
cp ./etc/hadoop/*.xml ./input
hadoop jar ./share/hadoop/maprece/hadoop-maprece-examples-*.jar grep ./input ./output 'dfs[a-z.]+'1234

输出的结果应该会是：

1 dfsadmin 1

这里有一点需要注意，该Example程序运行时不能已存在output目录，否则或将无法执行！

四、Hadoop的伪分布式环境搭建

什么是伪分布式？Hadoop 伪分布式模式是在一台机器上模拟Hadoop分布式，单机上的分布式并不是真正的分布式，而是使用线程模拟的分布式。分布式和伪分布式这两种配置也很相似，唯一不同的地方是伪分布式是在一台机器上配置，也就是名字节点（namenode）和数据节点（datanode）均是同一台机器。

需要配置的文件有core-site.xml和hdfs-site.xml这两个文件他们都位于${HADOOP_HOME}/etc/hadoop/文件夹下。
其中core-site.xml：

1 <?xml version="1.0" encoding="UTF-8"?>

2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3 <!--

4 Licensed ...

19 <configuration>

20 <property>

21 <name>hadoop.tmp.dir</name>

22 <value>file:/home/hadoop/tmp</value>

23 <description>Abase for other temporary directories.</description>

24 </property>

25 <property>

26 <name>fs.default.name</name>

27 <value>hdfs://master:9000</value>

28 </property>

29 </configuration> 1234567891011121314151617

文件hdfs-site.xml的配置如下：

1 <?xml version="1.0" encoding="UTF-8"?>

2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3 <!--

4 Licensed ...

19 <configuration>

20 <property>

21 <name>dfs.replication</name>

22 <value>1</value>

23 </property>

24 <property>

25 <name>dfs.namenode.name.dir</name>

26 <value>file:/home/hadoop/tmp/dfs/name</value>

27 </property>

28 <property>

29 <name>dfs.datanode.data.dir</name>

30 <value>file:/home/hadoop/tmp/dfs/data</value>

31 </property>

32 </configuration>

配置完成后，执行格式化命令，使HDFS将制定的目录进行格式化：

hdfs namenode -format1

若格式化成功，在临近输出的结尾部分可看到如下信息：

如果发现并没有出现如上信息，则使用刷新节点命令进行刷新：

hdfs dfsadmin -refreshNodes1

八、HDFS集群实例测试

依然是之前的那个示例，首先，创建一个数据源文件夹，并添加数据：

hdfs dfs -mkdir /input

hdfs dfs -put /usr/local/etc/hadoop/etc/hadoop/*.xml /input12

运行maprece示例：

hadoop jar /usr/local/etc/hadoop/share/hadoop/maprece/hadoop-maprece-examples-*.jar grep /input /output 'dfs[a-z.]+'1

holding…

㈤ hadoop分布式部署（转载）--贼靠谱

原文地址：https://blog.csdn.net/sjmz30071360/article/details/79889055

1. 集群搭建形式

Hadoop环境搭建分为三种形式：单机模式、伪分布式模式、完全分布模式

单机模式—— 在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。

伪分布式—— 也是在一台单机上运行，但不同的是Java进程模仿分布式运行中的各类节点。即一台机器上，既当NameNode，又当DataNode，或者说既是JobTracker又是TaskTracker。没有所谓的在多台机器上进行真正的分布式计算，故称为“伪分布式”。

完全分布式—— 真正的分布式，由3个及以上的实体机或者虚拟机组成的机群。一个Hadoop集群环境中，NameNode，SecondaryName和DataNode是需要分配在不同的节点上，也就需要三台服务器。

前两种模式一般用在开发或测试环境下，生产环境下都是搭建完全分布式模式。

从分布式存储的角度来说，集群中的节点由一个NameNode和若干个DataNode组成，另有一个SecondaryNameNode作为NameNode的备份。

从分布式应用的角度来说，集群中的节点由一个JobTracker和若干个TaskTracker组成。JobTracker负责任务的调度，TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上，这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。

2. 环境

操作系统：CentOS7（红帽开源版）

机器：虚拟机3台，（master 192.168.0.104, slave1 192.168.0.102, slave2 192.168.0.101）

JDK：1.8（jdk-8u162-linux-x64.tar）

Hadoop：2.9.0（http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz）

3. 搭建步骤

3.1 每台机器安装&配置JDK（1台做好后，克隆出其它机器）

1) 创建目录 mkdir /usr/java

2) 上传jdk安装包到 /usr/java/

3) 解压 tar -xvf jdk-8u162-linux-x64.tar

4) 追加环境变量 vi /etc/profile

5) 使环境变量生效 source /etc/profile

6) 检测jdk正确安装 java -version

3.2 修改每台机器主机名(hostname)

hostnamectl set-hostname master （立即生效）

hostnamectl set-hostname slave1 （立即生效）

hostnamectl set-hostname slave2 （立即生效）

确认修改

3.3 修改每台机器/etc/hosts文件

vi /etc/hosts

修改其中1台，然后scp到其它机器

scp 文件名远程主机用户名@远程主机名或ip:存放路径

scp hosts [email protected]:/etc/

scp hosts [email protected]:/etc/

修改完之后，互ping其它机器，能互ping则说明修改OK

ping -c 3 slave1 （※ 3表示发送 3 个数据包）

3.4 配置ssh，实现无密码登录

无密码登录，效果也就是在master上，通过ssh slave1或者ssh slave2就可以登录对方机器，而不用输入密码。

1）每台机器执行ssh-keygen -t rsa，接下来一路回车即可

执行ssh-keygen -t rsa主要是生成密钥和密钥的存放路径

我们用的root用户，公钥私钥都会保存在~/.ssh下

2）在master上将公钥放到authorized_keys里，命令：cat id_rsa.pub > authorized_keys

3）将master上的authorized_keys放到其它机器上

scp authorized_keys root@slave1:~/.ssh/

scp authorized_keys root@slave2:~/.ssh/

4）测试是否成功

3.5 上传&配置hadoop（配置完master后，将/usr/hadoop/整个目录内容到其它机器）

1）创建目录 mkdir /usr/hadoop

2）上传hadoop安装包hadoop-2.9.0.tar.gz到 /usr/hadoop/

3）解压 tar -xvf hadoop-2.9.0.tar.gz

4）追加环境变量 vi /etc/profile（其它机器也要相应配置一次hadoop环境变量）

5）使环境变量生效 source /etc/profile

6）确认环境变量配置OK

7）创建HDFS存储目录

cd /usr/hadoop

mkdir hdfs

cd hdfs

mkdir name data tmp

/usr/hadoop/hdfs/name --存储namenode文件

/usr/hadoop/hdfs/data --存储数据

/usr/hadoop/hdfs/tmp --存储临时文件

8）修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/hadoop-env.sh文件，设置JAVA_HOME为实际路径

否则启动集群时，会提示路径找不到

9）修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-env.sh文件，设置JAVA_HOME为实际路径

10）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/core-site.xml

增加hadoop.tmp.dir 和 fs.default.name

11）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml

dfs.replication：默认值3

dfs.permissions：默认值为true，设置为true有时候会遇到数据因为权限访问不了；设置为false可以不要检查权限就生成dfs上的文件

12）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml

cd /usr/hadoop/hadoop-2.9.0/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

maprece.framework.name：指定maprece运行在yarn平台，默认为local

13）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-site.xml

yarn.resourcemanager.hostname：指定yarn的resourcemanager的地址

yarn.nodemanager.aux-services：recer获取数据的方式

yarn.nodemanager.vmem-check-enabled：意思是忽略虚拟内存的检查，如果安装在虚拟机上，这个配置很有用，配上去之后后续操作不容易出问题。如果是在实体机上，并且内存够多，可以将这个配置去掉

14）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/slaves文件，将里面的localhost删除，配置后内容如下：

15）整个/usr/hadoop/目录到其它机器

scp -r hadoop root@slave1:/usr/

scp -r hadoop root@slave2:/usr/

3.6 启动Hadoop

1）启动之前需要格式化一下。因为master是namenode，slave1和slave2都是datanode，所以在master上运行

hadoop namenode -format

格式化成功后，可以看到在/usr/hadoop/hdfs/name目录下多了一个current目录，而且该目录下有一系列文件，如下：

2）执行启动（namenode只能在master上启动，因为配置在master上；datanode每个节点上都可以启动）

执行 start-all.sh

master上执行jps，会看到NameNode, SecondaryNameNode, ResourceManager

其它节点上执行jps，会看到DataNode, NodeManager

3）在wins上打开网页，查看HDFS管理页面 http://192.168.0.104:50070查看，提示无法访问

在master上，执行以下命令关闭防火墙，即可访问（为了能够正常访问node节点，最好把其它机器的防火墙也stop了）

systemctl stop firewalld.service

HDFS管理首页

HDFS Datenodes页

访问Yarn管理页： http://192.168.0.104:8088

4）通过主机名也可以访问的设置

win7为例，需要将以下信息追加到C:\Windows\System32\drivers\etc\hosts文件中

192.168.0.104 master

192.168.0.102 slave1

192.168.0.101 slave2

Over！！！搭建成功！！！

4. 运行实例

cd /usr/hadoop/hadoop-2.9.0/share/hadoop/maprece

hadoop jar hadoop-maprece-examples-2.9.0.jar pi 5 10

。。。。。。

=====================================================

如果不关防火墙，子节点可能出现，输入jps后只有jps一个进程，或者是缺进程的情况，关闭防火墙就好了。

㈥ HDFS操作命令

HDFS命令基本格式：hadoop fs -cmd < args >

表格：

注意：以上表格中路径包括hdfs中的路径和linux中的路径。对于容易产生歧义的地方，会特别指出“linux路径”或者“hdfs路径”。如果没有明确指出，意味着是hdfs路径。

HDFS有一个默认的工作目录/user/$USER，其中$USER是用户的登录用户名。不过目录不会自动建立，需要mkdir建立它
命令格式：hadoop fs -mkdir

注意：支持级联创建新目录，Hadoop的mkdir命令会自动创建父目录，类似于带-p的linux命令

put命令从本地文件系统中 复制单个或多个 源路径到目标文件系统，也支持从标准输入设备中读取输入并写入目标文件系统。分为本地上传和上传到HDFS中。
命令格式：hadoop fs -put filename

最后一个参数是句点，相当于放入了默认的工作目录，等价于 hadoop fs -put example.txt /user/chen

上传文件时，文件首先复制到DataNode上，只有所有的DataNode都成功接收完数据，文件上传才是成功的。
命令格式：hadoop dfs put filename newfilename

从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从 标准输入 中读取输入写入目标文件系统。

采用-ls命令列出HDFS上的文件。在HDFS中未带参数的-ls命令没有返回任何值，它默认返回HDFS的home目录下
的内容。在HDFS中，没有当前工作目录这样一个概念，也没有cmd这样的命令。
命令格式：user@NameNode:hadoop$ bin/hadoop dfs -ls
如：

通过“-ls 文件夹名” 命令浏览HDFS下文件夹中的文件
命令格式：hadoop dfs -ls 文件夹名

通过该命令可以查看in文件夹中的所有文档文件

通过“-cat 文件名”命令查看HDFS下文件夹中某个文件的内容
命令格式：hadoop$ bin/hadoop dfs -cat 文件名

通过这个命令可以查看in文件夹中所有文件的内容

通过“-get 文件按1 文件2”命令将HDFS中某目录下的文件复制到本地系统的某文件中，并对该文件重新命名。
命令格式：hadoop dfs -get 文件名新文件名

-get 命令与-put命令一样，既可以操作目录，也可以操作文件

通过“-rmr 文件”命令删除HDFS下的文件
命令格式：hadoop$ bin/hadoop dfs -rmr 文件

-rmr 删除文档命令相当于delete的递归版本。

通过-format命令实现HDFS格式化
命令格式：user@NameNode:hadoop$ bin/hadoop NameNode -format

通过运行start-dfs.sh，就可以启动HDFS了
命令格式：user@NameNode:hadoop$ bin/ start-dfs.sh

当需要退出HDFS时，通过stop-dfs.sh 就可以关闭HDFS
命令格式：user@NameNode:hadoop$ bin/ stop-dfs.sh

HDFS的命令远不止这些，对于其他操作，可以通过-help commandName 命令列出清单。下面列举一些命令进行说明。

（1）chgrp改变文件所属的组命令
chgrp命令的用途是：更改文件或目录的组所有权。
语法格式：hadoop fs -charg [-R] GROUP URL .....
使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。

（2）chmod改变文件的权限
chmod用于改变文件或目录的访问权限，这个Linux系统管理员最常用的命令之一。
使用方法：hadoop fs -chmod [-R] ...
使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者是超级用户

（3）chown改变文件的拥有者
chown命令改变文件的拥有者。
使用方法：hadoop fs -chown [-R]....
使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。

（4）FromLocal命令
除了限定 源路径 是只能是一个 本地文件 外，其他方面和put命令相似。
使用方法：hadoop fs -FromLocal <localsrc> URI

（5）ToLocal命令
除了限定 目标路径 是一个 本地文件 外，其他方面和get命令类似。
使用方法：hadoop fs -ToLocal {-ignorecrc} {-crc} URI <localdst>

（6）cp命令
cp命令是将文件从源路径复制到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。
使用方法：hadoop fs -cp URI [URI....] <dest>

返回值：成功返回0 ，失败返回-1

（7）命令
命令显示目录中 所有文件的大小 ，或者当只指定一个文件时，显示此文件的大小
使用方法：hadoop fs - URI [URI........]

返回值
成功返回0，失败返回-1

（8）s命令
s是显示 文件大小 的命令。
使用方法：hadoop fs -s <args>

（9）expunge命令
expunge是清空回收站的命令
使用方法：hadoop fs -expunge

（10）get命令
get是复制文件到本地文件系统的命令
使用方法：hadoop fs -get [-ignorecrc] [-crc] <localdst>
可用-ignorecrc选项复制CRC校验失败的文件：使用-CRC选项复制文件以及CRC信息。

返回值
成功返回0，失败返回-1

（11）getmerge命令
getmerge命令用于接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件合并成本地目标文件。
使用方法：hadoop fs -getmerge <src> <localdst> [addnl]
参数说明：addl是可选的，用于指定在每个文件结尾添加一个换行符；

假设在你的hdfs集群上有一个/user/hadoop/output目录
里面有作业执行的结果（多个文件组成）part-000000,part-000001,part-000002

然后就可以在本地使用vi local_file查看内容了

（12）ls命令
ls命令查看当前目录下的信息
使用方法：hadoop fs -ls <args>
如果是文件，则按照如下格式返回文件信息：
文件名 <副本数>文件大小修改日期修改时间权限用户ID 组ID

如果是目录，则返回它直接子文件的一个列表，就像在UNIX中一样。目录返回i额表的信息如下：
目录名<dir>修改日期修改时间权限用户ID 组ID

返回值
成功返回0，失败返回-1

（13）lsr命令
lsr命令是-ls命令的递归版，类似于UNIX中的ls-r。
使用方法：hadoop fs -lsr <args>

（14）movefromLocal命令
复制一份本地文件到hdfs，当成功后，删除本地文件
使用方法：dfs -moveFromLocal <src> <dst>

（14.5）moveToLocal命令
类似于-get，但是当复制完成后，会删除hdfs上的文件
使用方法：moveToLocal <src> <localDest>

（15）mv命令
将文件从源路径移动到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录
使用方法：hadoop fs -mv URI [URI.....] <dest>
备注：不允许在不同的文件系统间移动文件。

返回值
成功返回0，失败返回-1

（16）put 命令
put命令从本地文件系统中复制单个或多个源路径到目标文件系统，也支持从标准输入中读取输入写入目标文件系统
使用方法：hadoop fs -put <localsrc> .... <dst>

（17）rm命令
rm命令删除指定的文件，只删除非空目录和文件。
使用方法：hadoop fs -rm URI [URI......]
请参考rmr命令了解递归删除。

（18）rmr命令
rmr命令是delete命令的递归版本
使用方法：hadoop fs -rmr URI [URI.......]

返回值
成功返回0，失败返回-1

（19）setrep命令
setrep命令可以改变一个文件的副本系数。
使用方法：hadoop fs -setrep [-R] <path>
参数说明：-R 选项用于递归改变目录下所有文件的副本系数

返回值
成功返回0，失败返回-1

（20）stat命令
stat命令用于返回指定路径的统计信息
使用方法：hadoop fs -stat URI [URI......]

返回值
成功返回0，失败返回-1

（21）tail命令
tail命令将文件尾部1KB的内容输出到stdout。支持-f选项，行为和UNIX中一致
使用方法：hadoop fs -tail [-f] URI

返回值
成功返回0，失败返回-1

（22）test命令
test命令是检查命令，可以检查文件是否存在、文件的大小等。
使用方法：hadoop fs -test -[ezd] URI

（23）text命令
text命令用于将源文件输出问文本格式
使用方法：hadoop fs -text <src>
允许的格式是zip和TextRecordInputStream。

（24）touchz 命令
touchz命令用于创建一个0字节的空文件。
使用方法： hadoop fs -touchz URI [URI....]

返回值
成功返回0，失败返回-1

㈦ Hadoop安装

创建hadoop用户

1、sudo useradd -m hadoop

2、sudo passwd hadoop

3、sudo adser hadoop sudo

4、虚拟机：最后注销当前用户（点击屏幕右上角的齿轮，选择注销），返回登陆界面。在登陆界面中选择刚创建的hadoop 用户进行登陆。

5、重新登录检查当前用户是谁：whoami 出现hadoop 成功

6、更新aptsudo apt-get update更新apt3.安装SSH，

7、配置免密登陆sudo apt-get install sshsudo apt-get install pdsh 安装ssh

8、安装Java环境sudo apt install openjdk-8-jdk 安装java

9、vim ~/.bashrc 进入之后按I 然后输入export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

10、按esc 然后按:wq! 回车完成此步骤改变环境变量source ~/.bashrc输入java -version检验

11、安装Hadoopwget https://mirrors.tuna.tsinghua.e.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz 安装命令

12、sudo tar -zxf ~/hadoop-2.9.2.tar.gz -C /usr/local 解压命令

13、cd /usr/local/ #进入用户安装目录

14、sudo mv ./hadoop-2.9.2/ ./hadoopsudo chown -R hadoop ./hadoop # 修改文件权限（hadoop-2.9.2默认拥有者是root，这里我们让hadoop也成为拥有者）

15、cd /usr/local/hadoop./bin/hadoop version # 查看hadoop版本信息，成功显示则安装成功

16、cd /usr/local/hadoop进入目录

17、mkdir ./input创建目录

18、ls查看当前目录

19、cp ./etc/hadoop/*.xml ./input

20、./bin/hadoop jar ./share/hadoop/maprece/hadoop-maprece-examples-*.jar grep ./input ./output 'dfs[a-z.]+'

21、cat ./output/*查看

22、rm -r ./output删除output文件

23、 cd /usr

24、 cd local

25、ls

26、 cd hadoop

27、 ls

28、cd /usr/local/hadoop/etc/hadoop/

29、Ls

30、vi hdfs-site.xml

31、cd /usr/local/hadoop

㈧搭建hadoop集群，常用配置文件是什么，以及配置哪些属性

一. 简介

参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础上，主要是配置文件有所不同，后边会有详细说明）

二. 准备工作

2.1 创建用户

创建用户，并为其添加root权限，经过亲自验证下面这种方法比较好。

1 sudo adser hadoop2 sudo vim /etc/sudoers3 # 修改内容如下：4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL

给hadoop用户创建目录，并添加到sudo用户组中，命令如下：

1 sudo chown hadoop /home/hadoop2 # 添加到sudo用户组3 sudo adser hadoop sudo

最后注销当前用户，使用新创建的hadoop用户登陆。

2.2安装ssh服务

ubuntu中默认是没有装ssh server的（只有ssh client），所以先运行以下命令安装openssh-server。安装过程轻松加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码：执行完下边的代码就可以直接登陆了（可以运行ssh localhost进行验证）

1 cd ~/.ssh# 如果找不到这个文件夹，先执行一下 "ssh localhost"2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys

注意：

这里实现的是无密登陆自己，只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可

三. 安装过程

3.1 下载hadoop安装包

有两种下载方式：

1. 直接去官网下载：

2. 使用wget命令下载：

3.2 配置hadoop

1. 解压下载的hadoop安装包，并修改配置文件。我的解压目录是（/home/hadoop/hadoop-2.7.1），即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件：（hadoop2.7.1/etc/hadoop/）目录下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。

至此，wordcount demo 运行结束。

六. 总结

配置过程遇到了很多问题，最后都一一解决，收获很多，特此把这次配置的经验分享出来，方便想要配置hadoop环境的各位朋友～

（Hadoop集群安装配置过程基本和单机版是一样的，主要是在配置文件方面有所区别，以及ssh无密登陆要求master和slave能够互相无密登陆。

㈨ ftp提取文件到hdfs

实际场景中，我们经常需要通过ftp协议把不同数据源的文件统一汇入到hdfs数据中心，经过实践，有以下的三种方法，分别列出其优缺点及适用场景。

1、先把文件ftp到本地，然后用命令hdfsdfs –put [local_path] [hdfs_path]

优点：文件在本地可以进行本地化的一系列操作后，再放回hdfs中

缺点：文件传输经过两层，并且从源服务器到本地提取是单机串行，比较消耗时间。

适用于文件放入hfds前需要预处理的情景，如：.zip压缩文件不被hadoop支持的，所以我们可以先在本地转压缩方式然后再放入hdfs中。

2、 hdfs dfs –cp [ftp://username:password@hostname/ftp_path] [hdfs:///hdfs_path]

优点：简单，提取速度快

缺点：CLI执行不会显示进度

适用场景：适用于小文件的ftp拷贝。

3、 hadoop distcp [ftp://username:password@hostname/ftp_path] [hdfs:///hdfs_path]

优点：简单，能显示拷贝进度，并且是分布式提取的，数据比较快。

缺点：如果拷贝的文件是不断有其他程序写入，会报错，因为该命令最后要对数据进行checksum导致两边不一致，当然，该命令是主要用于集群间拷贝的。

适用场景：大量文件或大文件的拷贝。

㈩修修改hdfs上的文件所属用户、所属组等读写执行控制权限

HDFS支持权限控制，但支持较弱。HDFS的设计是基于POSIX模型的，支持按用户、用户组、其他用户的读写执行控制权限。在linux命令行下，可以使用下面的命令修改文件的权限、文件所有者，文件所属组：

sudo addgroup Hadoop#添加一个hadoop组
sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组
sudo gedit etc/sudoers#将hadoop组加入到sudoer
在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL

修改hadoop目录的权限
sudo chown -R larry:hadoop /home/larry/hadoop<所有者：组文件>
sudo chmod -R 755 /home/larry/hadoop

修改hdfs的权限
sudo bin/hadoop dfs -chmod -R 755 /
sudo bin/hadoop dfs -ls /

修改hdfs文件的所有者
sudo bin/hadoop fs -chown -R larry /
sudo bin/hadoop dfsadmin -safemode leave #解除hadoop的安全模式
hadoop fs -FromLocal <localsrc> URI#拷贝本地文件到hdfs
hadoop fs -cat file:///file3 /user/hadoop/file4#将路径指定文件的内容输出到stdout
hadoop fs -chgrp [-R] GROUP URI#改变文件的所属组
hadoop fs -chmod [-R] 755 URI#改变用户访问权限
hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]#修改文件的所有者
hadoop fs -ToLocal URI localdst#拷贝hdfs文件到本地
hadoop fs -cp URI [URI …] <dest>#拷贝hdfs文件到其它目录
hadoop fs - URI [URI …]#显示目录中所有文件的大小
hadoop fs -getmerge <src> <localdst> [addnl]#合并文件到本地目录

如：
root@cdh3:~# hdfs dfs -ls /
Found 8 items
drwxr-xr-x   - hbase hbase               0 2017-06-24 10:05 /hbase
drwxrwxr-x   - solr solr                0 2016-12-01 22:43 /solr
drwxr-xr-x   - root supergroup          0 2017-04-24 22:58 /sparklib
drwxr-xr-x   - root supergroup          0 2017-07-19 17:44 /sparklib-2.1.0
drwxr-xr-x   - hdfs supergroup          0 2016-12-05 09:08 /system
drwxrwxrwt   - hdfs supergroup          0 2017-07-13 09:40 /tmp
drwxr-xrwx   - hdfs supergroup          0 2017-06-23 10:54 /user
drwxr-xr-x   - root supergroup          0 2017-04-13 11:12 /file

root@cdh3:~# hdfs dfs -chown Administrator /file
chown: changing ownership of '/file': Non-super user cannot change owner

root@cdh3:~# hdfs dfs -chown -R Administrator /file
chown: changing ownership of '/file': Non-super user cannot change owner

root@cdh3:~# su hdfs
hdfs@cdh3:/root$ hdfs dfs -chown -R Administrator /file
hdfs@cdh3:/root$ hdfs dfs -chgrp -R Administrator /file
hdfs@cdh3:/root$ hdfs dfs -ls /file

Found 9 items
-rw-r--r--   2 Administrator Administrator       3302 2017-04-13 11:11 /file/data-transfer.properties
-rw-r--r--   2 Administrator Administrator     313898 2017-04-13 11:00 /file/dom4j-1.6.1.jar
drwxr-xr-x   - Administrator Administrator          0 2017-04-12 10:03 /file/hangxin
-rw-r--r--   2 Administrator Administrator      24212 2017-03-17 12:06 /file/hx.jar
-rw-r--r--   2 Administrator Administrator     802721 2017-03-17 11:50 /file/mysql-connector-java-5.1.20-bin.jar
drwxr-xr-x   - Administrator Administrator          0 2017-03-22 09:46 /file/notregex
drwxr-xr-x   - Administrator Administrator          0 2017-04-25 00:01 /file/regex
-rw-r--r--   2 Administrator Administrator     106006 2017-04-13 11:12 /file/sihconfig.xml
-rw-r--r--   2 Administrator Administrator        123 2017-03-16 14:31 /file/spark-config.properties

#

导航:首页 > 程序命令 > hdfscp命令

hdfscp命令

与hdfscp命令相关的资料