hdfs的shell命令_何时使用hadoop fshadoop dfs与hdfs dfs命令

‘壹’ 可以使用如下哪个命令来获得hdfs状态的报告

HDFS是Hadoop生态系统的根基，也是Hadoop生态系统中的重要一员，大部分时候，我们都会使用linux shell命令来管理HDFS，包括一些文件的创建，删除，修改，上传等等，因为使用shell命令操作HDFS的方式，相对比较简单，方便，但是有时候

‘贰’ 何时使用hadoop fs，hadoop dfs与hdfs dfs命令

hadoop hdfs dfs基本操作
本文主要参考：
http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/FileSystemShell.html

根据上面官方文档的提示我们能够知道可以通过shell的方式访问hdfs中的数据，对数据进行操作。那么首先让我们看一下hdfs的版本，使用命令hdfs version。
好，下面上货：
1、查询
使用命令：
hdfs dfs -ls / 这条执行会列出/目录下的文件和目录
hdfs dfs -ls -R /这条会列出/目录下的左右文件，由于有-R参数，会在文件夹和子文件夹下执行ls操作。
2、添加文件夹
使用命令；
hdfs dfs -mkdir -p /xytest/testdata001/
这里需要注意的是，root用户是否拥有hdfs 的权限，如果有，我们可以继续操作，如果没有，我们可以直接使用hdfs用户，默认安装完cdh后，用户hdfs拥有所有的权限。如果对于权限有不明白的，推荐看一下我的另一篇文章：
http://blog.csdn.net/wild46cat/article/details/69664376

3、增加文件
使用命令：
hdfs dfs -FromLocal ~/123.txt /xytest/testdata001/
4、查看hdfs文件中的内容
使用命令：
hdfs dfs -cat /xytest/testdata001/123.txt
或者，可以把hdfs中的文件到本地
使用命令：
hdfs dfs -ToLocal /xytest/testdata001/123.txt ~/222.txt
5、删除文件
使用命令：
hdfs dfs -rm -f /xytest/testdata001/123.txt
6、删除文件夹
使用命令：
hdfs dfs -rm -r /xytest/testdata001

‘叁’ 如何向 hadoop 导入数据

1.2
使用Hadoop
shell命令导入和导出数据到HDFS
实验准备
实例需要用到的数据-weblog_entries.txt
在namenode创建2个文件夹用来存放实验用的数据
mkdir
/home/data
1
mkdir
/home/data_download1
将weblog_entries.txt上传到namenode里的/home/data文件夹（我使用SecureFXPortable.exe
工具）
注：以下命令都是在namenode节点运行的
实验过程
1.在HDFS中创建一个新的文件夹，用于保存weblog_entries.txt
hadoop
fs
-mkdir
/data/weblogs1
2.将weblog_entries.txt文件从本地文件系统复制到HDFS刚创建的新文件夹下
cd
/home/data1
hadoop
fs
-FromLocal
weblog_entries.txt
/data/weblogs1
3.列出HDFS上weblog_entries.txt文件的信息：
hadoop
fs
–ls
/data/weblogs/weblog_entries.txt
1
4.将HDFS上的weblog_entries.txt文件复制到本地系统的当前文件夹下
cd
/home/data_download1
hadoop
fs
-ToLocal
/data/weblogs/weblog_entries.txt
./weblog_entries.txt
1
最后用
ls
命令检验下时候将weblog_entries.txt
下载到本地

‘肆’ HDFS Shell可以在非集群节点上运行

HDFSShell可以在非集群节点上运行。
HDFSShell的具体命令具有使用面最广的优势，因此HDFSShell可以操作任何文件系统，也就意味着它可以在非集群节点上运行。
HDFSShell本地与集群的运行操作包括集群内文件的复制和剪切，将本地的文件上传到集群或者将集群的文件下载到本地，将本地的文件追加到集群等等。

‘伍’ 在ubuntu中如何使用hadoop shell命令

调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child，或者更简单的/parent/child（假设你配置文件中的默认值是namenode:namenodeport）。大多数FS Shell命令的行为和对应的Unix Shell命令类似，不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到stderr，其他信息输出到stdout。
cat
使用方法：hadoop fs -cat URI [URI …]
将路径指定文件的内容输出到stdout。
示例：
hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2
hadoop fs -cat file:///file3 /user/hadoop/file4
返回值：
成功返回0，失败返回-1。
chgrp
使用方法：hadoop fs -chgrp [-R] GROUP URI [URI …] Change group association of files. With -R, make the change recursively through the directory structure. The user must be the owner of files, or else a super-user. Additional information is in the Permissions User Guide. -->
改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。
chmod
使用方法：hadoop fs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI …]
改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。
chown
使用方法：hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]
改变文件的拥有者。使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。更多的信息请参见HDFS权限用户指南。
FromLocal
使用方法：hadoop fs -FromLocal <localsrc> URI
除了限定源路径是一个本地文件外，和put命令相似。
ToLocal
使用方法：hadoop fs -ToLocal [-ignorecrc] [-crc] URI <localdst>
除了限定目标路径是一个本地文件外，和get命令类似。
cp
使用方法：hadoop fs -cp URI [URI …] <dest>
将文件从源路径复制到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。
示例：
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir
返回值：
成功返回0，失败返回-1。

使用方法：hadoop fs - URI [URI …]
显示目录中所有文件的大小，或者当只指定一个文件时，显示此文件的大小。
示例：
hadoop fs - /user/hadoop/dir1 /user/hadoop/file1 hdfs://host:port/user/hadoop/dir1
返回值：
成功返回0，失败返回-1。
s
使用方法：hadoop fs -s <args>
显示文件的大小。
expunge
使用方法：hadoop fs -expunge
清空回收站。请参考HDFS设计文档以获取更多关于回收站特性的信息。
get
使用方法：hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>
复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。
示例：
hadoop fs -get /user/hadoop/file localfile
hadoop fs -get hdfs://host:port/user/hadoop/file localfile
返回值：
成功返回0，失败返回-1。
getmerge
使用方法：hadoop fs -getmerge <src> <localdst> [addnl]
接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件连接成本地目标文件。addnl是可选的，用于指定在每个文件结尾添加一个换行符。
ls
使用方法：hadoop fs -ls <args>
如果是文件，则按照如下格式返回文件信息：
文件名 <副本数> 文件大小修改日期修改时间权限用户ID 组ID
如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。目录返回列表的信息如下：
目录名 <dir> 修改日期修改时间权限用户ID 组ID
示例：
hadoop fs -ls /user/hadoop/file1 /user/hadoop/file2 hdfs://host:port/user/hadoop/dir1 /nonexistentfile
返回值：
成功返回0，失败返回-1。
lsr
使用方法：hadoop fs -lsr <args>
ls命令的递归版本。类似于Unix中的ls -R。
mkdir
使用方法：hadoop fs -mkdir <paths>
接受路径指定的uri作为参数，创建这些目录。其行为类似于Unix的mkdir -p，它会创建路径中的各级父目录。
示例：
hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2
hadoop fs -mkdir hdfs://host1:port1/user/hadoop/dir hdfs://host2:port2/user/hadoop/dir
返回值：
成功返回0，失败返回-1。
movefromLocal
使用方法：dfs -moveFromLocal <src> <dst>
输出一个”not implemented“信息。
mv
使用方法：hadoop fs -mv URI [URI …] <dest>
将文件从源路径移动到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。
示例：
hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2
hadoop fs -mv hdfs://host:port/file1 hdfs://host:port/file2 hdfs://host:port/file3 hdfs://host:port/dir1
返回值：
成功返回0，失败返回-1。
put
使用方法：hadoop fs -put <localsrc> ... <dst>
从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。
hadoop fs -put localfile /user/hadoop/hadoopfile
hadoop fs -put localfile1 localfile2 /user/hadoop/hadoopdir
hadoop fs -put localfile hdfs://host:port/hadoop/hadoopfile
hadoop fs -put - hdfs://host:port/hadoop/hadoopfile
从标准输入中读取输入。
返回值：
成功返回0，失败返回-1。
rm
使用方法：hadoop fs -rm URI [URI …]
删除指定的文件。只删除非空目录和文件。请参考rmr命令了解递归删除。
示例：
hadoop fs -rm hdfs://host:port/file /user/hadoop/emptydir
返回值：
成功返回0，失败返回-1。
rmr
使用方法：hadoop fs -rmr URI [URI …]
delete的递归版本。
示例：
hadoop fs -rmr /user/hadoop/dir
hadoop fs -rmr hdfs://host:port/user/hadoop/dir
返回值：
成功返回0，失败返回-1。
setrep
使用方法：hadoop fs -setrep [-R] <path>
改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。
示例：
hadoop fs -setrep -w 3 -R /user/hadoop/dir1
返回值：
成功返回0，失败返回-1。
stat
使用方法：hadoop fs -stat URI [URI …]
返回指定路径的统计信息。
示例：
hadoop fs -stat path
返回值：
成功返回0，失败返回-1。
tail
使用方法：hadoop fs -tail [-f] URI
将文件尾部1K字节的内容输出到stdout。支持-f选项，行为和Unix中一致。
示例：
hadoop fs -tail pathname
返回值：
成功返回0，失败返回-1。
test
使用方法：hadoop fs -test -[ezd] URI
选项：
-e 检查文件是否存在。如果存在则返回0。
-z 检查文件是否是0字节。如果是则返回0。
-d 如果路径是个目录，则返回1，否则返回0。
示例：hadoop fs -test -e filename
text
使用方法：hadoop fs -text <src>
将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。
touchz
使用方法：hadoop fs -touchz URI [URI …]
创建一个0字节的空文件。
示例：
hadoop -touchz pathname
返回值：
成功返回0，失败返回-1。

‘陆’ 发现公司里的大数据开发挣得很多，想转行，

转行这个词汇，一直是职场上此起彼伏的一个热门话题，相信很多朋友都想过或已经经历过转行。工作可谓是我们生存乃至生活的主要收入来源，谁都希望拥有一份高薪又稳定的工作，以此来改善自己的生活和实现自己的大大小小的梦想!但又担心转行后的工作待遇达不到自己的预期，顾虑重重……

不少想进入大数据分析行业的零基础学员经常会有这样一些疑问：大数据分析零基础应该怎么学习?自己适合学习大数据分析吗?人生，就是在不断地做选择，然后在这个选择过程中成长，让自己从一棵小树苗变成参天大树。就是我们每个对大数据充满幻想终于下定决心行动的学员的选择，我们给了自己4个月的时间，想要在大数据分析这个领域汲取养分，让自己壮大成长。

【明确方向】

通过国家的战略规划，看到BAT的大牛们都在大数据行业布局，新闻媒体追捧这大数据分析行业的项目和热点，我想如果我还没有能力独立判断的时候，跟着国家政策和互联网大佬们的步调走，这应该是错不了的。

【付诸行动】

明确了方向之后，我就整装待发，刚开始是在网络上购买了很多的视频教程，也买了很多书籍，但是最大的问题就在于，我不知道怎么入手，没关系，有信心有耐心肯定能战胜困难，我坚持了一个月，学习的节奏越来越乱，陆陆续续出现了很多的问题，没人指导，请教了几个业内的朋友，但对方工作繁忙，问了几次之后就不好意思了，自学陷入了死循环。

意识到我学习效率的低下，以及无人指导的问题想想未来的康庄大道，咬咬牙告诉自己，一定好好好学，不然就浪费太多时间最后还会是一无所获。最后找到组织(AAA教育)一起学习进步!

大数据分析零基础学习路线，有信心能坚持学习的话，那就当下开始行动吧!

一、大数据技术基础

1、linux操作基础

linux系统简介与安装

linux常用命令–文件操作

linux常用命令–用户管理与权限

linux常用命令–系统管理

linux常用命令–免密登陆配置与网络管理

linux上常用软件安装

linux本地yum源配置及yum软件安装

linux防火墙配置

linux高级文本处理命令cut、sed、awk

linux定时任务crontab

2、shell编程

shell编程–基本语法

shell编程–流程控制

shell编程–函数

shell编程–综合案例–自动化部署脚本

3、内存数据库redis

redis和nosql简介

redis客户端连接

redis的string类型数据结构操作及应用-对象缓存

redis的list类型数据结构操作及应用案例-任务调度队列

redis的hash及set数据结构操作及应用案例-购物车

redis的sortedset数据结构操作及应用案例-排行榜

4、布式协调服务zookeeper

zookeeper简介及应用场景

zookeeper集群安装部署

zookeeper的数据节点与命令行操作

zookeeper的java客户端基本操作及事件监听

zookeeper核心机制及数据节点

zookeeper应用案例–分布式共享资源锁

zookeeper应用案例–服务器上下线动态感知

zookeeper的数据一致性原理及leader选举机制

5、java高级特性增强

Java多线程基本知识

Java同步关键词详解

java并发包线程池及在开源软件中的应用

Java并发包消息队里及在开源软件中的应用

Java JMS技术

Java动态代理反射

6、轻量级RPC框架开发

RPC原理学习

Nio原理学习

Netty常用API学习

轻量级RPC框架需求分析及原理分析

轻量级RPC框架开发

二、离线计算系统

1、hadoop快速入门

hadoop背景介绍

分布式系统概述

离线数据分析流程介绍

集群搭建

集群使用初步

2、HDFS增强

HDFS的概念和特性

HDFS的shell(命令行客户端)操作

HDFS的工作机制

NAMENODE的工作机制

java的api操作

案例1：开发shell采集脚本

3、MAPREDUCE详解

自定义hadoop的RPC框架

Maprece编程规范及示例编写

Maprece程序运行模式及debug方法

maprece程序运行模式的内在机理

maprece运算框架的主体工作流程

自定义对象的序列化方法

MapRece编程案例

4、MAPREDUCE增强

Maprece排序

自定义partitioner

Maprece的combiner

maprece工作机制详解

5、MAPREDUCE实战

maptask并行度机制-文件切片

maptask并行度设置

倒排索引

共同好友

6、federation介绍和hive使用

Hadoop的HA机制

HA集群的安装部署

集群运维测试之Datanode动态上下线

集群运维测试之Namenode状态切换管理

集群运维测试之数据块的balance

HA下HDFS-API变化

hive简介

hive架构

hive安装部署

hvie初使用

7、hive增强和flume介绍

HQL-DDL基本语法

HQL-DML基本语法

HIVE的join

HIVE 参数配置

HIVE 自定义函数和Transform

HIVE 执行HQL的实例分析

HIVE最佳实践注意点

HIVE优化策略

HIVE实战案例

Flume介绍

Flume的安装部署

案例：采集目录到HDFS

案例：采集文件到HDFS

三、流式计算

1、Storm从入门到精通

Storm是什么

Storm架构分析

Storm编程模型、Tuple源码、并发度分析

Storm WordCount案例及常用Api分析

Storm集群部署实战

Storm+Kafka+Redis业务指标计算

Storm源码下载编译

Strom集群启动及源码分析

Storm任务提交及源码分析

Storm数据发送流程分析

Storm通信机制分析

Storm消息容错机制及源码分析

Storm多stream项目分析

编写自己的流式任务执行框架

2、Storm上下游及架构集成

消息队列是什么

Kakfa核心组件

Kafka集群部署实战及常用命令

Kafka配置文件梳理

Kakfa JavaApi学习

Kafka文件存储机制分析

Redis基础及单机环境部署

Redis数据结构及典型案例

Flume快速入门

Flume+Kafka+Storm+Redis整合

四、内存计算体系Spark

1、scala编程

scala编程介绍

scala相关软件安装

scala基础语法

scala方法和函数

scala函数式编程特点

scala数组和集合

scala编程练习(单机版WordCount)

scala面向对象

scala模式匹配

actor编程介绍

option和偏函数

实战：actor的并发WordCount

柯里化

隐式转换

2、AKKA与RPC

Akka并发编程框架

实战：RPC编程实战

3、Spark快速入门

spark介绍

spark环境搭建

RDD简介

RDD的转换和动作

实战：RDD综合练习

RDD高级算子

自定义Partitioner

实战：网站访问次数

广播变量

实战：根据IP计算归属地

自定义排序

利用JDBC RDD实现数据导入导出

WorldCount执行流程详解

4、RDD详解

RDD依赖关系

RDD缓存机制

RDD的Checkpoint检查点机制

Spark任务执行过程分析

RDD的Stage划分

5、Spark-Sql应用

Spark-SQL

Spark结合Hive

DataFrame

实战：Spark-SQL和DataFrame案例

6、SparkStreaming应用实战

Spark-Streaming简介

Spark-Streaming编程

实战：StageFulWordCount

Flume结合Spark Streaming

Kafka结合Spark Streaming

窗口函数

ELK技术栈介绍

ElasticSearch安装和使用

Storm架构分析

Storm编程模型、Tuple源码、并发度分析

Storm WordCount案例及常用Api分析

7、Spark核心源码解析

Spark源码编译

Spark远程debug

Spark任务提交行流程源码分析

Spark通信流程源码分析

SparkContext创建过程源码分析

DriverActor和ClientActor通信过程源码分析

Worker启动Executor过程源码分析

Executor向DriverActor注册过程源码分析

Executor向Driver注册过程源码分析

DAGScheler和TaskScheler源码分析

Shuffle过程源码分析

Task执行过程源码分析

五、机器学习算法

1、python及numpy库

机器学习简介

机器学习与python

python语言–快速入门

python语言–数据类型详解

python语言–流程控制语句

python语言–函数使用

python语言–模块和包

phthon语言–面向对象

python机器学习算法库–numpy

机器学习必备数学知识–概率论

2、常用算法实现

knn分类算法–算法原理

knn分类算法–代码实现

knn分类算法–手写字识别案例

lineage回归分类算法–算法原理

lineage回归分类算法–算法实现及demo

朴素贝叶斯分类算法–算法原理

朴素贝叶斯分类算法–算法实现

朴素贝叶斯分类算法–垃圾邮件识别应用案例

kmeans聚类算法–算法原理

kmeans聚类算法–算法实现

kmeans聚类算法–地理位置聚类应用

决策树分类算法–算法原理

决策树分类算法–算法实现

时下的大数据分析时代与人工智能热潮，相信有许多对大数据分析师非常感兴趣、跃跃欲试想着转行的朋友，但面向整个社会，最不缺的其实就是人才，对于是否转行大数据分析行列，对于能否勇敢一次跳出自己的舒适圈，不少人还是踌躇满志啊!毕竟好多决定，一旦做出了就很难再回头了。不过如果你已经转行到大数据分析领域，就不要后悔，做到如何脱颖而出才是关键。因此本文给出一些建议，针对想要转行大数据分析行列且是零基础转行的小伙伴们，希望对你们有所裨益，也希望你们将来学有所成，不后悔，更不灰心!

导航:首页 > 程序命令 > hdfs的shell命令

hdfs的shell命令

与hdfs的shell命令相关的资料