A. hadoop中常用的命令
1、查看指定目录下内容
hadoop dfs –ls [文件目录]
eg: hadoop dfs –ls /user/wangkai.pt
2、打开某个已存在文件
hadoop dfs –cat [file_path]
eg:hadoop dfs -cat /user/wangkai.pt/data.txt
3、将本地文件存储至hadoop
hadoop fs –put [本地地址] [hadoop目录]
hadoop fs –put /home/t/file.txt /user/t
(file.txt是文件名)
4、将本地文件夹存储至hadoop
hadoop fs –put [本地目录] [hadoop目录]
hadoop fs –put /home/t/dir_name /user/t
(dir_name是文件夹名)
5、将hadoop上某个文件down至本地已有目录下
hadoop fs -get [文件目录] [本地目录]
hadoop fs –get /user/t/ok.txt /home/t
6、删除hadoop上指定文件
hadoop fs –rm [文件地址]
hadoop fs –rm /user/t/ok.txt
7、删除hadoop上指定文件夹(包含子目录等)
hadoop fs –rm [目录地址]
hadoop fs –rmr /user/t
8、在hadoop指定目录内创建新目录
hadoop fs –mkdir /user/t
9、在hadoop指定目录下新建一个空文件
使用touchz命令:
hadoop fs -touchz /user/new.txt
10、将hadoop上某个文件重命名
使用mv命令:
hadoop fs –mv /user/test.txt /user/ok.txt (将test.txt重命名为ok.txt)
11、将hadoop指定目录下所有内容保存为一个文件,同时down至本地
hadoop dfs –getmerge /user /home/t
12、将正在运行的hadoop作业kill掉
hadoop job –kill [job-id]
B. hadoop中命令经常含有-fs,-dfs,fs和dfs有什么区别作用是什么
You can see definitions of the two commands (hadoop fs & hadoop dfs) in
可以看一下hadoop的源代码
$HADOOP_HOME/bin/hadoop
...elif [ "$COMMAND" = "datanode" ] ; then CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode' HADOOP_OPTS="$HADOOP_OPTS $HADOOP_DATANODE_OPTS"elif [ "$COMMAND" = "fs" ] ; then CLASS=org.apache.hadoop.fs.FsShell HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"elif [ "$COMMAND" = "dfs" ] ; then CLASS=org.apache.hadoop.fs.FsShell HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"elif [ "$COMMAND" = "dfsadmin" ] ; then CLASS=org.apache.hadoop.hdfs.tools.DFSAdmin HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"...
So, they are exactly the same.
所以,发现两者是完全一样的功能。
谢谢
C. hadoop如何执行命令
hadoop 执行命令有两种方法:1. 使用 hdfs 命令行(如 hdfs dfs ls)执行文件系统操作;2. 使用 hadoop 流处理框架(maprece)执行并行计算,包括编写 maprece 作业并使用 hadoop jar 命令执行。
Hadoop 如何执行命令
在 Hadoop 集群中执行命令有两种主要方法:
1. Hadoop 文件系统 (HDFS) 命令行
Hadoop 提供了一个命令行界面 (CLI),称为 HDFS 命令行,用于与 HDFS 进行交互并执行命令。要使用 HDFS 命令行,请打开终端或命令提示符,然后输入以下命令:
hdfs dfs
常见的 HDFS 命令包括:
ls:列出目录中的文件和目录mkdir:创建目录put:将文件从本地系统复制到 HDFSget:将文件从 HDFS 复制到本地系统rm:删除文件或目录
2. Hadoop 流处理框架(MapRece)
Hadoop 流处理框架 MapRece 提供了一个 API,用于在分布式环境中执行并行计算。MapRece 允许您将复杂任务分解为较小的子任务,这些子任务可以并行执行。要使用 MapRece 执行命令,请编写一个 MapRece 作业,然后使用 Hadoop Streaming 命令执行作业。
hadoop jar /path/to/streaming.jar \ -mapper mapper.py \ -recer recer.py \ -input /input/path \ -output /output/path
其中:
mapper.py:定义映射阶段的 Python 脚本recer.py:定义归约阶段的 Python 脚本/input/path:输入数据的路径/output/path:输出数据的路径