A. hadoop中常用的命令
1、查看指定目錄下內容
hadoop dfs –ls [文件目錄]
eg: hadoop dfs –ls /user/wangkai.pt
2、打開某個已存在文件
hadoop dfs –cat [file_path]
eg:hadoop dfs -cat /user/wangkai.pt/data.txt
3、將本地文件存儲至hadoop
hadoop fs –put [本地地址] [hadoop目錄]
hadoop fs –put /home/t/file.txt /user/t
(file.txt是文件名)
4、將本地文件夾存儲至hadoop
hadoop fs –put [本地目錄] [hadoop目錄]
hadoop fs –put /home/t/dir_name /user/t
(dir_name是文件夾名)
5、將hadoop上某個文件down至本地已有目錄下
hadoop fs -get [文件目錄] [本地目錄]
hadoop fs –get /user/t/ok.txt /home/t
6、刪除hadoop上指定文件
hadoop fs –rm [文件地址]
hadoop fs –rm /user/t/ok.txt
7、刪除hadoop上指定文件夾(包含子目錄等)
hadoop fs –rm [目錄地址]
hadoop fs –rmr /user/t
8、在hadoop指定目錄內創建新目錄
hadoop fs –mkdir /user/t
9、在hadoop指定目錄下新建一個空文件
使用touchz命令:
hadoop fs -touchz /user/new.txt
10、將hadoop上某個文件重命名
使用mv命令:
hadoop fs –mv /user/test.txt /user/ok.txt (將test.txt重命名為ok.txt)
11、將hadoop指定目錄下所有內容保存為一個文件,同時down至本地
hadoop dfs –getmerge /user /home/t
12、將正在運行的hadoop作業kill掉
hadoop job –kill [job-id]
B. hadoop中命令經常含有-fs,-dfs,fs和dfs有什麼區別作用是什麼
You can see definitions of the two commands (hadoop fs & hadoop dfs) in
可以看一下hadoop的源代碼
$HADOOP_HOME/bin/hadoop
...elif [ "$COMMAND" = "datanode" ] ; then CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode' HADOOP_OPTS="$HADOOP_OPTS $HADOOP_DATANODE_OPTS"elif [ "$COMMAND" = "fs" ] ; then CLASS=org.apache.hadoop.fs.FsShell HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"elif [ "$COMMAND" = "dfs" ] ; then CLASS=org.apache.hadoop.fs.FsShell HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"elif [ "$COMMAND" = "dfsadmin" ] ; then CLASS=org.apache.hadoop.hdfs.tools.DFSAdmin HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"...
So, they are exactly the same.
所以,發現兩者是完全一樣的功能。
謝謝
C. hadoop如何執行命令
hadoop 執行命令有兩種方法:1. 使用 hdfs 命令行(如 hdfs dfs ls)執行文件系統操作;2. 使用 hadoop 流處理框架(maprece)執行並行計算,包括編寫 maprece 作業並使用 hadoop jar 命令執行。
Hadoop 如何執行命令
在 Hadoop 集群中執行命令有兩種主要方法:
1. Hadoop 文件系統 (HDFS) 命令行
Hadoop 提供了一個命令行界面 (CLI),稱為 HDFS 命令行,用於與 HDFS 進行交互並執行命令。要使用 HDFS 命令行,請打開終端或命令提示符,然後輸入以下命令:
hdfs dfs
常見的 HDFS 命令包括:
ls:列出目錄中的文件和目錄mkdir:創建目錄put:將文件從本地系統復制到 HDFSget:將文件從 HDFS 復制到本地系統rm:刪除文件或目錄
2. Hadoop 流處理框架(MapRece)
Hadoop 流處理框架 MapRece 提供了一個 API,用於在分布式環境中執行並行計算。MapRece 允許您將復雜任務分解為較小的子任務,這些子任務可以並行執行。要使用 MapRece 執行命令,請編寫一個 MapRece 作業,然後使用 Hadoop Streaming 命令執行作業。
hadoop jar /path/to/streaming.jar \ -mapper mapper.py \ -recer recer.py \ -input /input/path \ -output /output/path
其中:
mapper.py:定義映射階段的 Python 腳本recer.py:定義歸約階段的 Python 腳本/input/path:輸入數據的路徑/output/path:輸出數據的路徑