㈠ 求教如何用shell获取hadoop命令的执行返回值
调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child,或者更简单的/parent/child(假设你配置文件中的默认值是namenode:namenodeport)。大多数FS Shell命令的行为和对应的Unix Shell命令类似,不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到stderr,其他信息输出到stdout。
cat
使用方法:hadoop fs -cat URI [URI …]
将路径指定文件的内容输出到stdout。
示例:
hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2
hadoop fs -cat file:///file3 /user/hadoop/file4
返回值:
成功返回0,失败返回-1。
chgrp
使用方法:hadoop fs -chgrp [-R] GROUP URI [URI …] Change group association of files. With -R, make the change recursively through the directory structure. The user must be the owner of files, or else a super-user. Additional information is in the Permissions User Guide. -->
改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。
chmod
使用方法:hadoop fs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI …]
改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。
chown
使用方法:hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]
改变文件的拥有者。使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。更多的信息请参见HDFS权限用户指南。
FromLocal
使用方法:hadoop fs -FromLocal <localsrc> URI
除了限定源路径是一个本地文件外,和put命令相似。
ToLocal
使用方法:hadoop fs -ToLocal [-ignorecrc] [-crc] URI <localdst>
除了限定目标路径是一个本地文件外,和get命令类似。
cp
使用方法:hadoop fs -cp URI [URI …] <dest>
将文件从源路径复制到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录。
示例:
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir
返回值:
成功返回0,失败返回-1。
使用方法:hadoop fs - URI [URI …]
显示目录中所有文件的大小,或者当只指定一个文件时,显示此文件的大小。
示例:
hadoop fs - /user/hadoop/dir1 /user/hadoop/file1 hdfs://host:port/user/hadoop/dir1
返回值:
成功返回0,失败返回-1。
s
使用方法:hadoop fs -s <args>
显示文件的大小。
expunge
使用方法:hadoop fs -expunge
清空回收站。请参考HDFS设计文档以获取更多关于回收站特性的信息。
get
使用方法:hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>
复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。
示例:
hadoop fs -get /user/hadoop/file localfile
hadoop fs -get hdfs://host:port/user/hadoop/file localfile
返回值:
成功返回0,失败返回-1。
getmerge
使用方法:hadoop fs -getmerge <src> <localdst> [addnl]
接受一个源目录和一个目标文件作为输入,并且将源目录中所有的文件连接成本地目标文件。addnl是可选的,用于指定在每个文件结尾添加一个换行符。
ls
使用方法:hadoop fs -ls <args>
如果是文件,则按照如下格式返回文件信息:
文件名 <副本数> 文件大小 修改日期 修改时间 权限 用户ID 组ID
如果是目录,则返回它直接子文件的一个列表,就像在Unix中一样。目录返回列表的信息如下:
目录名 <dir> 修改日期 修改时间 权限 用户ID 组ID
示例:
hadoop fs -ls /user/hadoop/file1 /user/hadoop/file2 hdfs://host:port/user/hadoop/dir1 /nonexistentfile
返回值:
成功返回0,失败返回-1。
lsr
使用方法:hadoop fs -lsr <args>
ls命令的递归版本。类似于Unix中的ls -R。
mkdir
使用方法:hadoop fs -mkdir <paths>
接受路径指定的uri作为参数,创建这些目录。其行为类似于Unix的mkdir -p,它会创建路径中的各级父目录。
示例:
hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2
hadoop fs -mkdir hdfs://host1:port1/user/hadoop/dir hdfs://host2:port2/user/hadoop/dir
返回值:
成功返回0,失败返回-1。
movefromLocal
使用方法:dfs -moveFromLocal <src> <dst>
输出一个”not implemented“信息。
mv
使用方法:hadoop fs -mv URI [URI …] <dest>
将文件从源路径移动到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。
示例:
hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2
hadoop fs -mv hdfs://host:port/file1 hdfs://host:port/file2 hdfs://host:port/file3 hdfs://host:port/dir1
返回值:
成功返回0,失败返回-1。
put
使用方法:hadoop fs -put <localsrc> ... <dst>
从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。
hadoop fs -put localfile /user/hadoop/hadoopfile
hadoop fs -put localfile1 localfile2 /user/hadoop/hadoopdir
hadoop fs -put localfile hdfs://host:port/hadoop/hadoopfile
hadoop fs -put - hdfs://host:port/hadoop/hadoopfile
从标准输入中读取输入。
返回值:
成功返回0,失败返回-1。
rm
使用方法:hadoop fs -rm URI [URI …]
删除指定的文件。只删除非空目录和文件。请参考rmr命令了解递归删除。
示例:
hadoop fs -rm hdfs://host:port/file /user/hadoop/emptydir
返回值:
成功返回0,失败返回-1。
rmr
使用方法:hadoop fs -rmr URI [URI …]
delete的递归版本。
示例:
hadoop fs -rmr /user/hadoop/dir
hadoop fs -rmr hdfs://host:port/user/hadoop/dir
返回值:
成功返回0,失败返回-1。
setrep
使用方法:hadoop fs -setrep [-R] <path>
改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。
示例:
hadoop fs -setrep -w 3 -R /user/hadoop/dir1
返回值:
成功返回0,失败返回-1。
stat
使用方法:hadoop fs -stat URI [URI …]
返回指定路径的统计信息。
示例:
hadoop fs -stat path
返回值:
成功返回0,失败返回-1。
tail
使用方法:hadoop fs -tail [-f] URI
将文件尾部1K字节的内容输出到stdout。支持-f选项,行为和Unix中一致。
示例:
hadoop fs -tail pathname
返回值:
成功返回0,失败返回-1。
test
使用方法:hadoop fs -test -[ezd] URI
选项:
-e 检查文件是否存在。如果存在则返回0。
-z 检查文件是否是0字节。如果是则返回0。
-d 如果路径是个目录,则返回1,否则返回0。
示例:hadoop fs -test -e filename
text
使用方法:hadoop fs -text <src>
将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。
touchz
使用方法:hadoop fs -touchz URI [URI …]
创建一个0字节的空文件。
示例:
hadoop -touchz pathname
返回值:
成功返回0,失败返回-1。
大家看我的问题,我比较2个文件夹,我发现执行了第2句话程序就结束了!!!没有答应echo different.
请问,我如何才能够获取到diff -r cwjdir1 cwjdir2的返回值呢??难道这个diff命令在他内部就直接死掉了??
求高手解答。 1.能获取到这个命令的返回值吗 ? 2.为什么打印不出echo different
#!/bin/bash -e
diff -r cwjdir1 cwjdir2
if [ $? -ne 0 ] ; th郸郸策肝匕菲察十畅姜en
echo different
exit 1
fi
echo files cmped
㈡ hiveos删除的机器如何恢复
hiveos删除后想要找回原先的数据只HBASE可以通过回退版本号查找。
首先打开yarn跳到hue页面,找到被删除数据所在的垃圾桶,trash,找到所删数据表的在垃圾桶里的路径,复制出来,在hive里根据被删的数据表重新建一个表,在xshell里连上hive,在hive脚本输入页面用cp命令将被删除数据移到已建好的表下面前面是被删除的路径,后面的是重新建表后的表路径,利用MSCKREPAIRTABLE命令来解决通过hdfsdfs-put或者hdfsapi写入hive分区表的数据在hive中无法被查询到的问题,最后验证一下数据即可。
㈢ 熟悉常用的 linux 操作和 Hadoop 操作
1.切换到当前目录的上一级目录
cd ..
2.切换到当前登录 Linux 系统的用户自己的主文件夹
cd ~
3.进入/tmp 目录,创建目录 a1/a2/a3/a4。
mkdir a1/a2/a3/a4 -p
4.删除目录
rmdir a
rmdir a1/a2/a3/a4 -p
5.cp 命令:复制文件或目录
(1) 将当前用户的主文件夹下的文件.bashrc 复制到目录“/usr”下,并重命名为 bashrc1
sudo cp .bashrc /usr/bashrc1
(2) 在目录“/tmp”下新建目录 test,再把这个目录复制到“/usr”目录下
cd /tmp
mkdir test
sudo cp /tmp/test /usr -r
6.mv 命令:移动文件与目录,或更名
(1) 将“/usr”目录下的文件 bashrc1 移动到“/usr/test”目录下
sudo mv /usr/bashrc1 /usr/test
(2) 将“/usr”目录下的 test 目录重命名为 test2
sudo mv /usr/test /usr/test2
7.rm 命令:移除文件或目录
(1) 将“/usr/test2”目录下的 bashrc1 文件删除
sudo rm /usr/test2/bashrc1
(2) 将“/usr”目录下的 test2 目录删除
sudo rm -rf /usr/test2
8.cat 命令:查看文件内容查看当前用户主文件夹下的.bashrc 文件内容
cat .bashrc
9.tac 命令:反向查看文件内容反向查看当前用户主文件夹下的.bashrc 文件的内容
tac .bashrc
10.more 命令:一页一页翻动查看翻页查看当前用户主文件夹下的.bashrc 文件的内容
more .bashrc
11.head 命令:取出前面几行
(1) 查看当前用户主文件夹下.bashrc 文件内容前 20 行
head -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容,后面 50 行不显示,只显示前面几行
head -n -50 .bashrc
12.tail 命令:取出后面几行
(1)查看当前用户主文件夹下.bashrc 文件内容最后 20 行
tail -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容,并且只列出 50 行以后的数据
tail -n -50 .bashrc
13.touch 命令:修改文件时间或创建新文件
(1) 在“/tmp”目录下创建一个空文件 hello,并查看文件时间
touch hello
stat hello
(2)修改 hello 文件,将文件时间整为 5 天前
touch -d "2019-3-26" hello
stat hello
14.chown 命令:修改文件所有者权限将 hello 文件所有者改为 root 帐号,并查看属性
sudo chown root hello
ls -l hello
15.find 命令:文件查找找出主文件夹下文件名为.bashrc 的文件
find .bashrc
16.tar 命令:压缩命令
(1) 在根目录“/”下新建文件夹 test,然后在根目录“/”下打包成 test.tar.gz
tar -zcvf test.tar.gz test/
(2) 把上面的 test.tar.gz 压缩包,解压缩到“/tmp”目录
tar -zxvf test.tar.gz
17.grep 命令:查找字符串从“~/.bashrc”文件中查找字符串'examples'
grep -rn "examples" .bashrc
18.使用 hadoop 用户登录 Linux 系统,启动 Hadoop(Hadoop 的安装目录为“/usr/local/hadoop”),为 hadoop 用户在 HDFS 中创建用户目录“/user/hadoop”
./bin/hadoop fs -mkdir -p /usr/hadoop
19.接着在 HDFS 的目录“/user/hadoop”下,创建 test 文件夹,并查看文件列表
./bin/hdfs dfs -mkdir test
./bin/hadoop fs -ls
20.将 Linux 系统本地的“~/.bashrc”文件上传到 HDFS 的 test 文件夹中,并查看 test
./bin/hadoop fs -put ~/.bashrc test
./bin/hadoop fs -ls test
21.将 HDFS 文件夹 test 复制到 Linux 系统本地文件系统的“/usr/local/hadoop”目录下
参考: 1
㈣ 如何配置Hadoop环境
资源下载
1、JDK下载:下载链接
2、hadoop:下载链接
3、下载完成后验证一下下载,将计算的MD5值与官网的进行对比已验证安装包的准确性:
md5sum ./hadoop-2.6.*.tar.gz | tr "a-z" "A-Z" # 计算md5值,并转化为大写,方便比较1
一、创建Hadoop用户
创建hadoop用户,并分配以用户名为家目录/home/hadoop,并将其加入到sudo用户组,创建好用户之后,以hadoop用户登录:
sudo useradd -m hadoop -s /bin/bash sudo adser hadoop sudo
sudo passwd hadoop # 设置hadoop用户密码123
二、安装JDK、Hadoop及配置环境变量
安装,解压JDK到/usr/lib/java/路径下,Hadoop到/usr/local/etc/hadoop/路径下:
tar zxf ./hadoop-2.6.*.tar.gz
mv ./hadoop-2.6.* /usr/local/etc/hadoop # 将 /usr/local/etc/hadoop作为Hadoop的安装路径12
解压完成之后,可验证hadoop的可用性:
cd /usr/local/etc/hadoop
./bin/hadoop version # 查看hadoop的版本信息12
若在此处,会出现类似以下的错误信息,则很有可能是该安装包有问题。
Error: Could not find or load main class org.apache.hadoop.util.VersionInfo1
配置环境,编辑“/etc/profile”文件,在其后添加如下信息:
export HADOOP_HOME=/usr/local/etc/hadoopexport JAVA_HOME=/usr/lib/java/jdk1.8.0_45export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=$PATH:${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin12345
使配置的变量生效:
source /etc/profile1
三、测试一下
在此我们可以运行一个简单的官方Demo:
cd `echo $HADOOP_HOME` # 到hadoop安装路径
mkdir ./input
cp ./etc/hadoop/*.xml ./input
hadoop jar ./share/hadoop/maprece/hadoop-maprece-examples-*.jar grep ./input ./output 'dfs[a-z.]+'1234
输出的结果应该会是:
1 dfsadmin 1
这里有一点需要注意,该Example程序运行时不能已存在output目录,否则或将无法执行!
四、Hadoop的伪分布式环境搭建
什么是伪分布式?Hadoop 伪分布式模式是在一台机器上模拟Hadoop分布式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。分布式和伪分布式这两种配置也很相似,唯一不同的地方是伪分布式是在一台机器上配置,也就是名字节点(namenode)和数据节点(datanode)均是同一台机器。
需要配置的文件有core-site.xml和hdfs-site.xml这两个文件他们都位于${HADOOP_HOME}/etc/hadoop/文件夹下。
其中core-site.xml:
文件hdfs-site.xml的配置如下:
配置完成后,执行格式化命令,使HDFS将制定的目录进行格式化:
若格式化成功,在临近输出的结尾部分可看到如下信息:
如果发现并没有出现如上信息,则使用刷新节点命令进行刷新:
八、HDFS集群实例测试
依然是之前的那个示例,首先,创建一个数据源文件夹,并添加数据:
运行maprece示例:
holding…
㈤ hadoop分布式部署(转载)--贼靠谱
原文地址:https://blog.csdn.net/sjmz30071360/article/details/79889055
1. 集群搭建形式
Hadoop环境搭建分为三种形式:单机模式、伪分布式模式、完全分布模式
单机模式—— 在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。
伪分布式—— 也是在一台单机上运行,但不同的是Java进程模仿分布式运行中的各类节点。即一台机器上,既当NameNode,又当DataNode,或者说既是JobTracker又是TaskTracker。没有所谓的在多台机器上进行真正的分布式计算,故称为“伪分布式”。
完全分布式—— 真正的分布式,由3个及以上的实体机或者虚拟机组成的机群。一个Hadoop集群环境中,NameNode,SecondaryName和DataNode是需要分配在不同的节点上,也就需要三台服务器。
前两种模式一般用在开发或测试环境下,生产环境下都是搭建完全分布式模式。
从分布式存储的角度来说,集群中的节点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode的备份。
从分布式应用的角度来说,集群中的节点由一个JobTracker和若干个TaskTracker组成。JobTracker负责任务的调度,TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上,这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。
2. 环境
操作系统:CentOS7(红帽开源版)
机器:虚拟机3台,(master 192.168.0.104, slave1 192.168.0.102, slave2 192.168.0.101)
JDK:1.8(jdk-8u162-linux-x64.tar)
Hadoop:2.9.0(http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz)
3. 搭建步骤
3.1 每台机器安装&配置JDK(1台做好后,克隆出其它机器)
1) 创建目录 mkdir /usr/java
2) 上传jdk安装包到 /usr/java/
3) 解压 tar -xvf jdk-8u162-linux-x64.tar
4) 追加环境变量 vi /etc/profile
5) 使环境变量生效 source /etc/profile
6) 检测jdk正确安装 java -version
3.2 修改每台机器主机名(hostname)
hostnamectl set-hostname master (立即生效)
hostnamectl set-hostname slave1 (立即生效)
hostnamectl set-hostname slave2 (立即生效)
确认修改
3.3 修改每台机器/etc/hosts文件
vi /etc/hosts
修改其中1台,然后scp到其它机器
scp 文件名 远程主机用户名@远程主机名或ip:存放路径
scp hosts [email protected]:/etc/
scp hosts [email protected]:/etc/
修改完之后,互ping其它机器,能互ping则说明修改OK
ping -c 3 slave1 (※ 3表示发送 3 个数据包)
3.4 配置ssh,实现无密码登录
无密码登录,效果也就是在master上,通过ssh slave1或者ssh slave2就可以登录对方机器,而不用输入密码。
1) 每台机器执行ssh-keygen -t rsa,接下来一路回车即可
执行ssh-keygen -t rsa主要是生成 密钥 和 密钥的存放路径
我们用的root用户,公钥私钥都会保存在~/.ssh下
2) 在master上将公钥放到authorized_keys里,命令:cat id_rsa.pub > authorized_keys
3) 将master上的authorized_keys放到其它机器上
scp authorized_keys root@slave1:~/.ssh/
scp authorized_keys root@slave2:~/.ssh/
4) 测试是否成功
3.5 上传&配置hadoop(配置完master后,将/usr/hadoop/整个目录内容到其它机器)
1) 创建目录 mkdir /usr/hadoop
2) 上传hadoop安装包hadoop-2.9.0.tar.gz到 /usr/hadoop/
3) 解压 tar -xvf hadoop-2.9.0.tar.gz
4) 追加环境变量 vi /etc/profile(其它机器也要相应配置一次hadoop环境变量)
5) 使环境变量生效 source /etc/profile
6) 确认环境变量配置OK
7) 创建HDFS存储目录
cd /usr/hadoop
mkdir hdfs
cd hdfs
mkdir name data tmp
/usr/hadoop/hdfs/name --存储namenode文件
/usr/hadoop/hdfs/data --存储数据
/usr/hadoop/hdfs/tmp --存储临时文件
8) 修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/hadoop-env.sh文件,设置JAVA_HOME为实际路径
否则启动集群时,会提示路径找不到
9) 修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-env.sh文件,设置JAVA_HOME为实际路径
10) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/core-site.xml
增加hadoop.tmp.dir 和 fs.default.name
11) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml
dfs.replication:默认值3
dfs.permissions:默认值为true,设置为true有时候会遇到数据因为权限访问不了;设置为false可以不要检查权限就生成dfs上的文件
12) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml
cd /usr/hadoop/hadoop-2.9.0/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
maprece.framework.name:指定maprece运行在yarn平台,默认为local
13) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-site.xml
yarn.resourcemanager.hostname:指定yarn的resourcemanager的地址
yarn.nodemanager.aux-services:recer获取数据的方式
yarn.nodemanager.vmem-check-enabled:意思是忽略虚拟内存的检查,如果安装在虚拟机上,这个配置很有用,配上去之后后续操作不容易出问题。如果是在实体机上,并且内存够多,可以将这个配置去掉
14) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/slaves文件,将里面的localhost删除,配置后内容如下:
15) 整个/usr/hadoop/目录到其它机器
scp -r hadoop root@slave1:/usr/
scp -r hadoop root@slave2:/usr/
3.6 启动Hadoop
1) 启动之前需要格式化一下。因为master是namenode,slave1和slave2都是datanode,所以在master上运行
hadoop namenode -format
格式化成功后,可以看到在/usr/hadoop/hdfs/name目录下多了一个current目录,而且该目录下有一系列文件,如下:
2) 执行启动(namenode只能在master上启动,因为配置在master上;datanode每个节点上都可以启动)
执行 start-all.sh
master上执行jps,会看到NameNode, SecondaryNameNode, ResourceManager
其它节点上执行jps,会看到DataNode, NodeManager
3) 在wins上打开网页,查看HDFS管理页面 http://192.168.0.104:50070查看,提示无法访问
在master上,执行以下命令关闭防火墙,即可访问(为了能够正常访问node节点,最好把其它机器的防火墙也stop了)
systemctl stop firewalld.service
HDFS管理首页
HDFS Datenodes页
访问Yarn管理页: http://192.168.0.104:8088
4)通过主机名也可以访问的设置
win7为例,需要将以下信息追加到C:\Windows\System32\drivers\etc\hosts文件中
192.168.0.104 master
192.168.0.102 slave1
192.168.0.101 slave2
Over!!!搭建成功!!!
4. 运行实例
cd /usr/hadoop/hadoop-2.9.0/share/hadoop/maprece
hadoop jar hadoop-maprece-examples-2.9.0.jar pi 5 10
。。。。。。
=====================================================
如果不关防火墙,子节点可能出现,输入jps后只有jps一个进程,或者是缺进程的情况,关闭防火墙就好了。
㈥ HDFS操作命令
HDFS命令基本格式:hadoop fs -cmd < args >
表格:
注意:以上表格中路径包括hdfs中的路径和linux中的路径。对于容易产生歧义的地方,会特别指出“linux路径”或者“hdfs路径”。如果没有明确指出,意味着是hdfs路径。
HDFS有一个默认的工作目录/user/$USER,其中$USER是用户的登录用户名。不过目录不会自动建立,需要mkdir建立它
命令格式:hadoop fs -mkdir
注意:支持级联创建新目录,Hadoop的mkdir命令会自动创建父目录,类似于带-p的linux命令
put命令从本地文件系统中 复制单个或多个 源路径到目标文件系统,也支持从标准输入设备中读取输入并写入目标文件系统。分为本地上传和上传到HDFS中。
命令格式:hadoop fs -put filename
最后一个参数是句点,相当于放入了默认的工作目录,等价于 hadoop fs -put example.txt /user/chen
上传文件时,文件首先复制到DataNode上,只有所有的DataNode都成功接收完数据,文件上传才是成功的。
命令格式:hadoop dfs put filename newfilename
从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从 标准输入 中读取输入写入目标文件系统。
采用-ls命令列出HDFS上的文件。在HDFS中未带参数的-ls命令没有返回任何值,它默认返回HDFS的home目录下
的内容。在HDFS中,没有当前工作目录这样一个概念,也没有cmd这样的命令。
命令格式:user@NameNode:hadoop$ bin/hadoop dfs -ls
如:
通过“-ls 文件夹名” 命令浏览HDFS下文件夹中的文件
命令格式:hadoop dfs -ls 文件夹名
通过该命令可以查看in文件夹中的所有文档文件
通过“-cat 文件名”命令查看HDFS下文件夹中某个文件的内容
命令格式:hadoop$ bin/hadoop dfs -cat 文件名
通过这个命令可以查看in文件夹中所有文件的内容
通过“-get 文件按1 文件2”命令将HDFS中某目录下的文件复制到本地系统的某文件中,并对该文件重新命名。
命令格式:hadoop dfs -get 文件名 新文件名
-get 命令与-put命令一样,既可以操作目录,也可以操作文件
通过“-rmr 文件”命令删除HDFS下的文件
命令格式:hadoop$ bin/hadoop dfs -rmr 文件
-rmr 删除文档命令相当于delete的递归版本。
通过-format命令实现HDFS格式化
命令格式:user@NameNode:hadoop$ bin/hadoop NameNode -format
通过运行start-dfs.sh,就可以启动HDFS了
命令格式:user@NameNode:hadoop$ bin/ start-dfs.sh
当需要退出HDFS时,通过stop-dfs.sh 就可以关闭HDFS
命令格式:user@NameNode:hadoop$ bin/ stop-dfs.sh
HDFS的命令远不止这些,对于其他操作,可以通过-help commandName 命令列出清单。下面列举一些命令进行说明。
(1)chgrp改变文件所属的组命令
chgrp命令的用途是:更改文件或目录的组所有权。
语法格式:hadoop fs -charg [-R] GROUP URL .....
使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。
(2)chmod改变文件的权限
chmod用于改变文件或目录的访问权限,这个Linux系统管理员最常用的命令之一。
使用方法:hadoop fs -chmod [-R] ...
使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者是超级用户
(3)chown改变文件的拥有者
chown命令改变文件的拥有者。
使用方法:hadoop fs -chown [-R]....
使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。
(4)FromLocal命令
除了限定 源路径 是只能是一个 本地文件 外,其他方面和put命令相似。
使用方法:hadoop fs -FromLocal <localsrc> URI
(5)ToLocal命令
除了限定 目标路径 是一个 本地文件 外,其他方面和get命令类似。
使用方法:hadoop fs -ToLocal {-ignorecrc} {-crc} URI <localdst>
(6)cp命令
cp命令是将文件从源路径复制到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录。
使用方法:hadoop fs -cp URI [URI....] <dest>
返回值:成功返回0 ,失败返回-1
(7)命令
命令显示目录中 所有文件的大小 ,或者当只指定一个文件时,显示此文件的大小
使用方法:hadoop fs - URI [URI........]
返回值
成功返回0,失败返回-1
(8)s命令
s是显示 文件大小 的命令。
使用方法:hadoop fs -s <args>
(9)expunge命令
expunge是清空回收站的命令
使用方法:hadoop fs -expunge
(10)get命令
get是复制文件到本地文件系统的命令
使用方法:hadoop fs -get [-ignorecrc] [-crc] <localdst>
可用-ignorecrc选项复制CRC校验失败的文件:使用-CRC选项复制文件以及CRC信息。
返回值
成功返回0,失败返回-1
(11)getmerge命令
getmerge命令用于接受一个源目录和一个目标文件作为输入,并且将源目录中所有的文件合并成本地目标文件。
使用方法:hadoop fs -getmerge <src> <localdst> [addnl]
参数说明:addl是可选的,用于指定在每个文件结尾添加一个换行符;
假设在你的hdfs集群上有一个/user/hadoop/output目录
里面有作业执行的结果(多个文件组成)part-000000,part-000001,part-000002
然后就可以在本地使用vi local_file查看内容了
(12)ls命令
ls命令查看当前目录下的信息
使用方法:hadoop fs -ls <args>
如果是 文件 ,则按照如下格式返回文件信息:
文件名 <副本数>文件大小 修改日期 修改时间 权限 用户ID 组ID
如果是 目录 ,则返回它直接子文件的一个列表,就像在UNIX中一样。目录返回i额表的信息如下:
目录名<dir>修改日期 修改时间 权限 用户ID 组ID
返回值
成功返回0,失败返回-1
(13)lsr命令
lsr命令是-ls命令的递归版,类似于UNIX中的ls-r。
使用方法:hadoop fs -lsr <args>
(14)movefromLocal命令
复制一份本地文件到hdfs,当成功后,删除本地文件
使用方法:dfs -moveFromLocal <src> <dst>
(14.5)moveToLocal命令
类似于-get,但是当复制完成后,会删除hdfs上的文件
使用方法:moveToLocal <src> <localDest>
(15)mv命令
将文件从源路径移动到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录
使用方法:hadoop fs -mv URI [URI.....] <dest>
备注:不允许在不同的文件系统间移动文件。
返回值
成功返回0,失败返回-1
(16)put 命令
put命令从本地文件系统中复制单个或多个源路径到目标文件系统,也支持从标准输入中读取输入写入目标文件系统
使用方法:hadoop fs -put <localsrc> .... <dst>
(17)rm命令
rm命令删除指定的文件,只删除非空目录和文件。
使用方法:hadoop fs -rm URI [URI......]
请参考rmr命令了解递归删除。
(18)rmr命令
rmr命令是delete命令的递归版本
使用方法:hadoop fs -rmr URI [URI.......]
返回值
成功返回0,失败返回-1
(19)setrep命令
setrep命令可以改变一个文件的副本系数。
使用方法:hadoop fs -setrep [-R] <path>
参数说明:-R 选项用于递归改变目录下所有文件的副本系数
返回值
成功返回0,失败返回-1
(20)stat命令
stat命令用于返回指定路径的统计信息
使用方法:hadoop fs -stat URI [URI......]
返回值
成功返回0,失败返回-1
(21)tail命令
tail命令将文件尾部1KB的内容输出到stdout。支持-f选项,行为和UNIX中一致
使用方法:hadoop fs -tail [-f] URI
返回值
成功返回0,失败返回-1
(22)test命令
test命令是检查命令,可以检查文件是否存在、文件的大小等。
使用方法:hadoop fs -test -[ezd] URI
(23)text命令
text命令用于将源文件输出问文本格式
使用方法:hadoop fs -text <src>
允许的格式是zip和TextRecordInputStream。
(24)touchz 命令
touchz命令用于创建一个0字节的空文件。
使用方法: hadoop fs -touchz URI [URI....]
返回值
成功返回0,失败返回-1
㈦ Hadoop安装
创建hadoop用户
1、sudo useradd -m hadoop
2、sudo passwd hadoop
3、sudo adser hadoop sudo
4、虚拟机:最后注销当前用户(点击屏幕右上角的齿轮,选择注销),返回登陆界面。在登陆界面中选择刚创建的hadoop 用户进行登陆。
5、重新登录检查当前用户是谁:whoami 出现hadoop 成功
6、更新aptsudo apt-get update更新apt3.安装SSH,
7、配置免密登陆sudo apt-get install sshsudo apt-get install pdsh 安装ssh
8、安装Java环境sudo apt install openjdk-8-jdk 安装java
9、vim ~/.bashrc 进入之后按I 然后输入export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
10、按esc 然后按:wq! 回车 完成 此步骤改变环境变量source ~/.bashrc输入java -version检验
11、安装Hadoopwget https://mirrors.tuna.tsinghua.e.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz 安装命令
12、sudo tar -zxf ~/hadoop-2.9.2.tar.gz -C /usr/local 解压命令
13、cd /usr/local/ #进入用户安装目录
14、sudo mv ./hadoop-2.9.2/ ./hadoopsudo chown -R hadoop ./hadoop # 修改文件权限(hadoop-2.9.2默认拥有者是root,这里我们让hadoop也成为拥有者)
15、cd /usr/local/hadoop./bin/hadoop version # 查看hadoop版本信息,成功显示则安装成功
16、cd /usr/local/hadoop进入目录
17、mkdir ./input创建目录
18、ls查看当前目录
19、cp ./etc/hadoop/*.xml ./input
20、./bin/hadoop jar ./share/hadoop/maprece/hadoop-maprece-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
21、cat ./output/*查看
22、rm -r ./output删除output文件
23、 cd /usr
24、 cd local
25、ls
26、 cd hadoop
27、 ls
28、cd /usr/local/hadoop/etc/hadoop/
29、Ls
30、vi hdfs-site.xml
31、cd /usr/local/hadoop
㈧ 搭建hadoop集群,常用配置文件是什么,以及配置哪些属性
一. 简介
参考了网上许多教程,最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境:两台ubuntu 14.04 64位的台式机,hadoop选择2.7.1版本。(前边主要介绍单机版的配置,集群版是在单机版的基础上,主要是配置文件有所不同,后边会有详细说明)
二. 准备工作
2.1 创建用户
创建用户,并为其添加root权限,经过亲自验证下面这种方法比较好。
1 sudo adser hadoop2 sudo vim /etc/sudoers3 # 修改内容如下:4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL
给hadoop用户创建目录,并添加到sudo用户组中,命令如下:
1 sudo chown hadoop /home/hadoop2 # 添加到sudo用户组3 sudo adser hadoop sudo
最后注销当前用户,使用新创建的hadoop用户登陆。
2.2安装ssh服务
ubuntu中默认是没有装ssh server的(只有ssh client),所以先运行以下命令安装openssh-server。安装过程轻松加愉快~
sudo apt-get install ssh openssh-server
2.3 配置ssh无密码登陆
直接上代码:执行完下边的代码就可以直接登陆了(可以运行ssh localhost进行验证)
1 cd ~/.ssh# 如果找不到这个文件夹,先执行一下 "ssh localhost"2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys
注意:
这里实现的是无密登陆自己,只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可
三. 安装过程
3.1 下载hadoop安装包
有两种下载方式:
1. 直接去官网下载:
2. 使用wget命令下载:
3.2 配置hadoop
1. 解压下载的hadoop安装包,并修改配置文件。我的解压目录是(/home/hadoop/hadoop-2.7.1),即进入/home/hadoop/文件夹下执行下面的解压缩命令。
tar -zxvf hadoop-2.7.1.tar.gz
2. 修改配置文件:(hadoop2.7.1/etc/hadoop/)目录下,hadoop-env.sh,core-site.xml,mapred-site.xml.template,hdfs-site.xml。
(1). core-site.xml 配置:其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。
至此,wordcount demo 运行结束。
六. 总结
配置过程遇到了很多问题,最后都一一解决,收获很多,特此把这次配置的经验分享出来,方便想要配置hadoop环境的各位朋友~
(Hadoop集群安装配置过程基本和单机版是一样的,主要是在配置文件方面有所区别,以及ssh无密登陆要求master和slave能够互相无密登陆。
㈨ ftp提取文件到hdfs
实际场景中,我们经常需要通过ftp协议把不同数据源的文件统一汇入到hdfs数据中心,经过实践,有以下的三种方法,分别列出其优缺点及适用场景。
1、 先把文件ftp到本地,然后用命令hdfsdfs –put [local_path] [hdfs_path]
优点:文件在本地可以进行本地化的一系列操作后,再放回hdfs中
缺点:文件传输经过两层,并且从源服务器到本地提取是单机串行,比较消耗时间。
适用于文件放入hfds前需要预处理的情景,如:.zip压缩文件不被hadoop支持的,所以我们可以先在本地转压缩方式然后再放入hdfs中。
2、 hdfs dfs –cp [ftp://username:password@hostname/ftp_path] [hdfs:///hdfs_path]
优点:简单,提取速度快
缺点:CLI执行不会显示进度
适用场景:适用于小文件的ftp拷贝。
3、 hadoop distcp [ftp://username:password@hostname/ftp_path] [hdfs:///hdfs_path]
优点:简单,能显示拷贝进度,并且是分布式提取的,数据比较快。
缺点: 如果拷贝的文件是不断有其他程序写入,会报错,因为该命令最后要对数据进行checksum导致两边不一致,当然,该命令是主要用于集群间拷贝的。
适用场景:大量文件或大文件的拷贝。
㈩ 修修改hdfs上的文件所属用户、所属组等读写执行控制权限
HDFS支持权限控制,但支持较弱。HDFS的设计是基于POSIX模型的,支持按用户、用户组、其他用户的读写执行控制权限。在linux命令行下,可以使用下面的命令修改文件的权限、文件所有者,文件所属组:
sudo addgroup Hadoop#添加一个hadoop组
sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组
sudo gedit etc/sudoers#将hadoop组加入到sudoer
在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL
修改hadoop目录的权限
sudo chown -R larry:hadoop /home/larry/hadoop<所有者:组 文件>
sudo chmod -R 755 /home/larry/hadoop
修改hdfs的权限
sudo bin/hadoop dfs -chmod -R 755 /
sudo bin/hadoop dfs -ls /
修改hdfs文件的所有者
sudo bin/hadoop fs -chown -R larry /
sudo bin/hadoop dfsadmin -safemode leave #解除hadoop的安全模式
hadoop fs -FromLocal <localsrc> URI#拷贝本地文件到hdfs
hadoop fs -cat file:///file3 /user/hadoop/file4#将路径指定文件的内容输出到stdout
hadoop fs -chgrp [-R] GROUP URI#改变文件的所属组
hadoop fs -chmod [-R] 755 URI#改变用户访问权限
hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]#修改文件的所有者
hadoop fs -ToLocal URI localdst#拷贝hdfs文件到本地
hadoop fs -cp URI [URI …] <dest>#拷贝hdfs文件到其它目录
hadoop fs - URI [URI …]#显示目录中所有文件的大小
hadoop fs -getmerge <src> <localdst> [addnl]#合并文件到本地目录
如:
root@cdh3:~# hdfs dfs -ls /
Found 8 items
drwxr-xr-x - hbase hbase 0 2017-06-24 10:05 /hbase
drwxrwxr-x - solr solr 0 2016-12-01 22:43 /solr
drwxr-xr-x - root supergroup 0 2017-04-24 22:58 /sparklib
drwxr-xr-x - root supergroup 0 2017-07-19 17:44 /sparklib-2.1.0
drwxr-xr-x - hdfs supergroup 0 2016-12-05 09:08 /system
drwxrwxrwt - hdfs supergroup 0 2017-07-13 09:40 /tmp
drwxr-xrwx - hdfs supergroup 0 2017-06-23 10:54 /user
drwxr-xr-x - root supergroup 0 2017-04-13 11:12 /file
root@cdh3:~# hdfs dfs -chown Administrator /file
chown: changing ownership of '/file': Non-super user cannot change owner
root@cdh3:~# hdfs dfs -chown -R Administrator /file
chown: changing ownership of '/file': Non-super user cannot change owner
root@cdh3:~# su hdfs
hdfs@cdh3:/root$ hdfs dfs -chown -R Administrator /file
hdfs@cdh3:/root$ hdfs dfs -chgrp -R Administrator /file
hdfs@cdh3:/root$ hdfs dfs -ls /file
Found 9 items
-rw-r--r-- 2 Administrator Administrator 3302 2017-04-13 11:11 /file/data-transfer.properties
-rw-r--r-- 2 Administrator Administrator 313898 2017-04-13 11:00 /file/dom4j-1.6.1.jar
drwxr-xr-x - Administrator Administrator 0 2017-04-12 10:03 /file/hangxin
-rw-r--r-- 2 Administrator Administrator 24212 2017-03-17 12:06 /file/hx.jar
-rw-r--r-- 2 Administrator Administrator 802721 2017-03-17 11:50 /file/mysql-connector-java-5.1.20-bin.jar
drwxr-xr-x - Administrator Administrator 0 2017-03-22 09:46 /file/notregex
drwxr-xr-x - Administrator Administrator 0 2017-04-25 00:01 /file/regex
-rw-r--r-- 2 Administrator Administrator 106006 2017-04-13 11:12 /file/sihconfig.xml
-rw-r--r-- 2 Administrator Administrator 123 2017-03-16 14:31 /file/spark-config.properties
#