使用命令啟動hdfs_如何在linux腳本中執行hdfs命令

1. 如何初始化，啟動及停止Hadoop集群

第一步，在Hadoop01機器上啟動Zookeeper：
[root@hadoop01 ~]# /root/apps/zookeeper/bin/zkServer.sh start

第二步，在Hadoop02機器上啟動Zookeeper：
[root@hadoop02 ~]# /root/apps/zookeeper/bin/zkServer.sh start

第三步，在Hadoop03機器上啟動Zookeeper：
[root@hadoop03 ~]# /root/apps/zookeeper/bin/zkServer.sh start

啟動Zookeeper之後，可以分別在3台機器上使用如下命令查看Zookeeper的啟動狀態：
/root/apps/zookeeper/bin/zkServer.sh status

第四步，在Hadoop01機器上啟動HDFS：
[root@hadoop01 ~]# /root/apps/hadoop/sbin/start-dfs.sh

第五步，在Hadoop01機器上啟動YARN：
[root@hadoop01 ~]# /root/apps/hadoop/sbin/start-yarn.sh

第六步，在Hadoop02機器上單獨啟動一個ResourceManager：
（注意這里使用的是「yarn-daemon.sh」命令，而不是「hadoop-daemon.sh」，不知道為什麼使用「hadoop-daemon.sh」無法啟動ResourceManager）
[root@hadoop02 ~]# /root/apps/hadoop/sbin/yarn-daemon.sh start resourcemanager！

2. spark、hive、impala、hdfs的常用命令

對spark、hive、impala、hdfs的常用命令作了如下總結，歡迎大家補充！

1. Spark的使用：

以通過SecureCRT訪問IP地址：10.10.234.198 為例進行說明：

先輸入：ll //查詢集群是否裝有spark

>su - mr

>/home/mr/spark/bin/beeline -u "jdbc:hive2:/bigdata198:18000/" -n mr -p ""

>show databases; //顯示其中資料庫，例如

>use bigmax; //使用資料庫bigmax

>show tables; //查詢目錄中所有的表

>desc formatted TableName; //顯示表的詳細信息，包括分區、欄位、地址等信息

>desc TableName; //顯示表中的欄位和分區信息

>select count(*) from TableName; //顯示表中數據數量，可以用來判斷表是否為空

>drop table TableName; //刪除表的信息

>drop bigmax //刪除資料庫bigmax

>describe database zxvmax //查詢資料庫zxvmax信息

創建一個表

第一步：

>create external table if not exists lte_Amaze //創建一個叫lte_Amaze的表

( //括弧中每一行為表中的各個欄位的名稱和其所屬的數據類型，並用空格隔開

DateTime String,

MilliSec int,

Network int,

eNodeBID int,

CID int,

IMSI String,

DataType int,

AoA int,

ServerRsrp int,

ServerRsrq int,

TA int,

Cqi0 Tinyint,

Cqi1 Tinyint //注意，最後一個欄位結束後，沒有逗號

)

partitioned by (p_date string, p_hour INT) //以p_date和p_hour作為分區

row format delimited fields terminated by ',' /*/*表中行結構是以逗號作為分隔符，與上邊的表中欄位以逗號結尾相一致*/

stored as textfile; //以文本格式進行保存

第二步：添加分區，指定分區的位置

>alter table lte_Amaze add partition (p_date='2015-01-27',p_hour=0) location'/lte/nds/mr/lte_nds_cdt_uedetail/p_date=2015-01-27/p_hour=0';

//添加lte_Amaze表中分區信息，進行賦值。

//並制定分區對應目錄/lte/nds/mr下表lte_nds_cdt_uedetail中對應分區信息

第三步:察看添加的結果

>show partitions lte_Amaze； //顯示表的分區信息

2. hdfs使用：

#su - hdfs //切換到hdfs用戶下、

#hadoop fs –ls ///查看進程
# cd /hdfs/bin //進入hdfs安裝bin目錄
>hadoop fs -ls /umtsd/cdt/ //查詢/umtsd/cdt/文件目錄
>hadoop fs -mkdir /umtsd/test //在/umtsd目錄下創建test目錄
>hadoop fs -put /home/data/u1002.csv /impala/data/u5002 //將home/data/u1002.csv這個文件put到hdfs文件目錄上。put到hdfs上的數據文件以逗號「,」分隔符文件（csv）,數據不論類型，直接是數據，沒有雙引號和單引號
>hadoop fs -rm /umtsd/test/test.txt //刪除umtsd/test目錄下的test.txt文件
>hadoop fs -cat /umtsd/test/test.txt //查看umtsd/test目錄下的test.txt文件內容

3hive操作使用：
#su - mr //切換到mr用戶下
#hive //進入hive查詢操作界面
hive>show tables; //查詢當前創建的所有表
hive>show databases; //查詢當前創建的資料庫
hive>describe table_name; {或者desc table_name}//查看錶的欄位的定義和分區信息，有明確區分（impala下該命令把分區信息以欄位的形式顯示出來，不怎麼好區分）
hive> show partitions table_name; //查看錶對應數據現有的分區信息，impala下沒有該命令
hive> quit;//退出hive操作界面

hive>desc formatted table_name; 查看錶結構，分隔符等信息

hive> alter table ceshi change id id int; 修改表的列數據類型 //將id數據類型修改為int 注意是兩個id

hive> SHOW TABLES '.*s'; 按正條件（正則表達式）顯示表，

[mr@aico ~]$ exit; 退出mr用戶操作界面，到[root@aico]界面

impala操作使用：
#su - mr //切換到mr用戶下
#cd impala/bin //進入impala安裝bin目錄
#/impala/bin> impala-shell.sh -i 10.10.234.166/localhost //進入impala查詢操作界面
[10.10.234.166:21000] >show databases; //查詢當前創建的資料庫
[10.10.234.166:21000] >use database_name; //選擇使用資料庫,默認情況下是使用default資料庫
[10.10.234.166:21000] > show tables; //查詢當前資料庫下創建的所有表
[10.10.234.166:21000] >describe table_name; //查看錶的欄位的定義,包括分區信息，沒有明確區分
[10.10.234.166:21000] > describe formatted table_name; //查看錶對應格式化信息，包括分區，所屬資料庫，創建用戶，創建時間等詳細信息。
[10.10.234.166:21000] >refresh table_name; //刷新一下，保證元數據是最新的
[10.10.234.166:21000] > alter TABLE U107 ADD PARTITION(reportDate="2013-09-27",rncid=487)LOCATION '/umts/cdt/
MREMITABLE/20130927/rncid=487' //添加分區信息，具體的表和數據的對應關系
[10.10.234.166:21000] > alter TABLE U100 drop PARTITION(reportDate="2013-09-25",rncid=487); //刪除現有的分區，數據與表的關聯
[10.10.234.166:21000] >quit; //退出impala操作界面

[mr@aicod bin]$ impala-shell; 得到welcome impala的信息，進入impala 查詢操作界面

[aicod:21000] > 按兩次tab鍵，查看可以用的命令

alter describe help profile shell values

connect drop history quit show version

create exit insert select unset with

desc explain load set use

3. 啟動hadoop中have命令

Hadoop集群啟動命令。
1、啟動NameNode，DataNode。
2、啟動JournalNode，JournalNode在hdfs-site.xml中指定editslog存儲的位置，主備NameNode共享數據，方便同步。
3)、啟動DFSZKFailoverController，HA會啟用ZooKeeperFailoverController。
4、啟動YARN守護進程ResourceManager，NodeManager。

4. 何時使用hadoop fs，hadoop dfs與hdfs dfs命令

hadoop hdfs dfs基本操作
本文主要參考：
http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/FileSystemShell.html

根據上面官方文檔的提示我們能夠知道可以通過shell的方式訪問hdfs中的數據，對數據進行操作。那麼首先讓我們看一下hdfs的版本，使用命令hdfs version。
好，下面上貨：
1、查詢
使用命令：
hdfs dfs -ls / 這條執行會列出/目錄下的文件和目錄
hdfs dfs -ls -R /這條會列出/目錄下的左右文件，由於有-R參數，會在文件夾和子文件夾下執行ls操作。
2、添加文件夾
使用命令；
hdfs dfs -mkdir -p /xytest/testdata001/
這里需要注意的是，root用戶是否擁有hdfs 的許可權，如果有，我們可以繼續操作，如果沒有，我們可以直接使用hdfs用戶，默認安裝完cdh後，用戶hdfs擁有所有的許可權。如果對於許可權有不明白的，推薦看一下我的另一篇文章：
http://blog.csdn.net/wild46cat/article/details/69664376

3、增加文件
使用命令：
hdfs dfs -FromLocal ~/123.txt /xytest/testdata001/
4、查看hdfs文件中的內容
使用命令：
hdfs dfs -cat /xytest/testdata001/123.txt
或者，可以把hdfs中的文件到本地
使用命令：
hdfs dfs -ToLocal /xytest/testdata001/123.txt ~/222.txt
5、刪除文件
使用命令：
hdfs dfs -rm -f /xytest/testdata001/123.txt
6、刪除文件夾
使用命令：
hdfs dfs -rm -r /xytest/testdata001

5. 啟動HDFS後,正常情況下,使用________命令可以查看到已經啟動的進程有

摘要 jps

6. 為什麼啟動hadoop後在hdfs上系統里創建input的文件夾的命令沒有用命令為hadoop

首先hadoop2以後命令有所變化啟動hdfs服務後
建立文件夾應該使用dfs
例如 hdfs dfs -mkdir /filename
其次需要在文件前加 / 代表建立在根目錄，也可以加其他目錄，比如、/usr/local/

不加 / 會報錯

7. 大數據：Hadoop入門

什麼是大數據：
（1.）大數據是指在一定時間內無法用常規軟體對其內容進行抓取，管理和處理的數據集合，簡而言之就是數據量非常大，大到無法用常規工具進行處理，如關系型資料庫，數據倉庫等。這里「大」是一個什麼量級呢？如在阿里巴巴每天處理數據達到20PB（即20971520GB）.
2.大數據的特點：
（1.）體量巨大。按目前的發展趨勢來看，大數據的體量已經到達PB級甚至EB級。
（2.）大數據的數據類型多樣，以非結構化數據為主，如網路雜志，音頻，視屏，圖片，地理位置信息，交易數據，社交數據等。
（3.）價值密度低。有價值的數據僅佔到總數據的一小部分。比如一段視屏中，僅有幾秒的信息是有價值的。
（4.）產生和要求處理速度快。這是大數據區與傳統數據挖掘最顯著的特徵。
3.除此之外還有其他處理系統可以處理大數據。
Hadoop （開源）
Spark（開源）
Storm（開源）
MongoDB（開源）
IBM PureDate（商用）
Oracle Exadata（商用）
SAP Hana（商用）
Teradata AsterData（商用）
EMC GreenPlum（商用）
HP Vertica（商用）
註：這里我們只介紹Hadoop。
二：Hadoop體系結構
Hadoop來源：
Hadoop源於Google在2003到2004年公布的關於GFS（Google File System），MapRece和BigTable的三篇論文，創始人Doug Cutting。Hadoop現在是Apache基金會頂級項目，「
Hadoop」一個虛構的名字。由Doug Cutting的孩子為其黃色玩具大象所命名。
Hadoop的核心：
（1.）HDFS和MapRece是Hadoop的兩大核心。通過HDFS來實現對分布式儲存的底層支持，達到高速並行讀寫與大容量的儲存擴展。
（2.）通過MapRece實現對分布式任務進行處理程序支持，保證高速分區處理數據。
3.Hadoop子項目：
（1.）HDFS：分布式文件系統，整個Hadoop體系的基石。
（2.）MapRece/YARN：並行編程模型。YARN是第二代的MapRece框架，從Hadoop 0.23.01版本後，MapRece被重構，通常也稱為MapRece V2，老MapRece也稱為 MapRece V1。
（3.）Hive：建立在Hadoop上的數據倉庫，提供類似SQL語音的查詢方式，查詢Hadoop中的數據，
（5.）HBase:全稱Hadoop Database，Hadoop的分布式的，面向列的資料庫，來源於Google的關於BigTable的論文，主要用於隨機訪問，實時讀寫的大數據。
（6.）ZooKeeper：是一個為分布式應用所設計的協調服務，主要為用戶提供同步，配置管理，分組和命名等服務，減輕分布式應用程序所承擔的協調任務。
還有其它特別多其它項目這里不做一一解釋了。
三：安裝Hadoop運行環境
用戶創建：
（1.）創建Hadoop用戶組，輸入命令：
groupadd hadoop
（2.）創建hser用戶，輸入命令：
useradd –p hadoop hser
（3.）設置hser的密碼，輸入命令：
passwd hser
按提示輸入兩次密碼
（4.）為hser用戶添加許可權，輸入命令：
#修改許可權
chmod 777 /etc/sudoers
#編輯sudoers
Gedit /etc/sudoers
#還原默認許可權
chmod 440 /etc/sudoers
先修改sudoers 文件許可權，並在文本編輯窗口中查找到行「root ALL=（ALL）」，緊跟後面更新加行「hser ALL=（ALL） ALL」，將hser添加到sudoers。添加完成後切記還原默認許可權，否則系統將不允許使用sudo命令。
（5.）設置好後重啟虛擬機，輸入命令：
Sudo reboot
重啟後切換到hser用戶登錄
安裝JDK
（1.）下載jdk-7u67-linux-x64.rpm,並進入下載目錄。
（2.）運行安裝命令:
Sudo rpm –ivh jdk-7u67-linux-x64.rpm
完成後查看安裝路徑，輸入命令：
Rpm –qa jdk –l
記住該路徑，
（3.）配置環境變數，輸入命令：
Sudo gedit /etc/profile
打開profile文件在文件最下面加入如下內容
export java_HOME=/usr/java/jdk.7.0.67
export CLASSPATH=$ JAVA_HOME/lib:$ CLASSPATH
export PATH=$ JAVA_HOME/bin:$PATH
保存後關閉文件，然後輸入命令使環境變數生效：
Source /etc/profile
（4.）驗證JDK，輸入命令：
Java –version
若出現正確的版本則安裝成功。
配置本機SSH免密碼登錄：
（1.）使用ssh-keygen 生成私鑰與公鑰文件，輸入命令：
ssh-keygen –t rsa
（2.）私鑰留在本機，公鑰發給其它主機（現在是localhost）。輸入命令：
ssh--id localhost
（3.）使用公鑰來登錄輸入命令：
ssh localhost
配置其它主機SSH免密登錄
（1.）克隆兩次。在VMware左側欄中選中虛擬機右擊，在彈出的快捷鍵菜單中選中管理---克隆命令。在克隆類型時選中「創建完整克隆」，單擊「下一步」，按鈕直到完成。
（2.）分別啟動並進入三台虛擬機，使用ifconfig查詢個主機IP地址。
（3.）修改每台主機的hostname及hosts文件。
步驟1：修改hostname，分別在各主機中輸入命令。
Sudo gedit /etc/sysconfig/network
步驟2：修改hosts文件：
sudo gedit /etc/hosts
步驟3：修改三台虛擬機的IP
第一台對應node1虛擬機的IP：192.168.1.130
第二台對應node2虛擬機的IP：192.168.1.131
第三台對應node3虛擬機的IP：192.168.1.132
（4.）由於已經在node1上生成過密鑰對，所有現在只要在node1上輸入命令：
ssh--id node2
ssh--id node3
這樣就可以將node1的公鑰發布到node2，node3。
（5.）測試SSH,在node1上輸入命令：
ssh node2
#退出登錄
exit
ssh node3
exit
四：Hadoop完全分布式安裝
1. Hadoop有三種運行方式：
（1.）單機模式：無須配置，Hadoop被視為一個非分布式模式運行的獨立Java進程
（2.）偽分布式：只有一個節點的集群，這個節點即是Master（主節點，主伺服器）也是Slave（從節點，從伺服器），可在此單節點上以不同的java進程模擬分布式中的各類節點
（3.）完全分布式：對於Hadoop,不同的系統會有不同的節點劃分方式。
2.安裝Hadoop
（1.）獲取Hadoop壓縮包hadoop-2.6.0.tar.gz,下載後可以使用VMWare Tools通過共享文件夾，或者使用Xftp工具傳到node1。進入node1 將壓縮包解壓到/home/hser目錄下，輸入命令： #進入HOME目錄即：「/home/hser」
cd ~
tar –zxvf hadoop-2.6.0.tar.gz
（2.）重命名hadoop輸入命令：
mv hadoop-2.6.0 hadoop
（3.）配置Hadoop環境變數，輸入命令：
Sudo gedit /etc/profile
將以下腳本加到profile內：
#hadoop
export HADOOP_HOME=/home/hser/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
保存關閉，最後輸入命令使配置生效
source /etc/profile
註：node2，和node3都要按照以上配置進行配置。
3.配置Hadoop
（1.）hadoop-env.sh文件用於指定JDK路徑。輸入命令：
[hser@node1 ~]$ cd ~/hadoop/etc/hadoop
[hser@node1 hadoop]$ gedit hadoop-env.sh
然後增加如下內容指定jDK路徑。
export JAVA_HOME=/usr/java/jdk1.7.0_67
（2.）打開指定JDK路徑,輸入命令：
export JAVA_HOME=/usr/java/jdk1.7.0_67
（4.）core-site.xml:該文件是Hadoop全局配置，打開並在元素中增加配置屬性如下：

fs.defaultFs hdfs://node1:9000 hadoop.tmp.dir file:/home/hser/hadoop/tmp 這里給出了兩個常用的配置屬性，fs.defaultFS表示客戶端連接HDFS時，默認路徑前綴，9000是HDFS工作的埠。Hadoop.tmp.dir如不指定會保存到系統的默認臨時文件目錄/tmp中。（5.）hdfs-site.xml:該文件是hdfs的配置。打開並在元素中增加配置屬性。（6.）mapred-site.xml:該文件是MapRece的配置，可從模板文件mapred-site.xml.template中復制打開並在元素中增加配置。（7.）yarn-site.xml:如果在mapred-site.xml配置了使用YARN框架，那麼YARN框架就使用此文件中的配置，打開並在元素中增加配置屬性。（8.）復制這七個命令到node2,node3。輸入命令如下： scp –r /home/hser/hadoop/etc/hadoop/ hser@node2:/home/hser/hadoop/etc/ scp –r /home/hser/hadoop/etc/hadoop/ hser@node3:/home/hser/hadoop/etc/ 4.驗證：下面驗證hadoop是否正確（1.）在Master主機（node1）上格式化NameNode。輸入命令： [hser@node1 ~]$ cd ~/hadoop [hser@node1 hadoop]$ bin/hdfs namenode –format （2）關閉node1,node2 ,node3,系統防火牆並重啟虛擬機。輸入命令： service iptables stop sudo chkconfig iptables off reboot （3.）輸入以下啟動HDFS： [hser@node1 ~]$ cd ~/hadoop （4.）啟動所有 [hser@node1 hadoop]$ sbin/start-all.sh （5.）查看集群狀態： [hser@node1 hadoop]$ bin/hdfs dfsadmin –report （6.）在瀏覽器中查看hdfs運行狀態，網址：http://node1:50070 （7.）停止Hadoop。輸入命令： [hser@node1 hadoop]$ sbin/stop-all.sh 五：Hadoop相關的shell操作（1.）在操作系統中/home/hser/file目錄下創建file1.txt,file2.txt可使用圖形界面創建。 file1.txt輸入內容： Hello World hi HADOOP file2.txt輸入內容 Hello World hi CHIAN （2.）啟動hdfs後創建目錄/input2 [hser@node1 hadoop]$ bin/hadoop fs –mkdir /input2 （3.）將file1.txt.file2.txt保存到hdfs中: [hser@node1 hadoop]$ bin/hadoop fs –put -/file/file*.txt /input2/ （4.）[hser@node1 hadoop]$ bin/hadoop fs –ls /input2

8. 如何在linux腳本中執行hdfs命令

首先腳本需要有執行許可權
chmod u+x file.sh
執行腳本有三種方法：
1. ./file.sh
特點：開啟bash子進程來執行，也就是開啟額外的進程來進行，不影響原進程的變數、配置等
2. bash file.sh
特點：和./file.sh相同
3. source file.sh 或者 . file.sh
特點：在原bash進程中執行腳本。

第三種方法主要用於在腳本中切換用戶su、切換目錄cd等命令。
source 和 . 命令是相同的。
你可以搜索 source

9. hdfs的高級命令行使用

在多人共用HDFS的環境下，配置設置非常重要。特別是在Hadoop處理大量資料的環境，如果沒有配額管理，很容易把所有的空間用完造成別人無法存取。Hdfs的配額設定是針對目錄而不是針對賬號，可以讓每個賬號僅操作某一個目錄，然後對目錄設置配置。

hdfs文件的限額配置允許我們以文件個數，或者文件大小來限制我們在某個目錄下上傳的文件數量或者文件內容總量，以便達到我們類似網路網盤網盤等限制每個用戶允許上傳的最大的文件的量。

注意，設置的配額最後只能上傳N-1個文件，因為系統默認認為創建的文件夾已經為1個配額。

在設置空間配額時，設置的空間至少是 block_size * 3 大小

如果默認文件夾大小為128M那麼要上傳文件需要配置文件夾大小為128m * 3 = 384m大小。

清除空間配額限制

安全模式是hadoop的一種保護機制，用於保證集群中的數據塊的安全性。當集群啟動的時候，會首先進入安全模式。當系統處於安全模式時會檢查數據塊的完整性。

假設我們設置的副本數（即參數dfs.replication）是3，那麼在datanode上就應該有3個副本存在，假設只存在2個副本，那麼比例就是2/3=0.666。hdfs默認的副本率0.999。我們的副本率 0.666明顯小於0.999，因此系統會自動的復制副本到其他dataNode，使得副本率不小於0.999。如果系統中有5個副本，超過我們設定的3個副本，那麼系統也會刪除多於的2個副本。

在安全模式狀態下，文件系統只接受讀數據請求，而不接受刪除、修改等變更請求。當整個系統達到安全標准時，HDFS自動離開安全模式。

安全模式操作命令

實際生產環境當中，hadoop的環境搭建完成之後，第一件事情就是進行壓力測試，測試我們的集群的讀取和寫入速度，測試我們的網路帶寬是否足夠等一些基準測試

向HDFS文件系統中寫入數據,10個文件,每個文件10MB,文件存放到/benchmarks/TestDFSIO中

完成之後查看寫入速度結果

這個結果也可以在網頁端/benchmarks目錄下查看

測試hdfs的讀取文件性能,在HDFS文件系統中讀入10個文件,每個文件10M

查看讀取果

10. hadoop集群中hadoop需要啟動哪些進程

啟動Hadoop
啟動Hadoop集群需要啟動HDFS集群和Map/Rece集群。
格式化一個新的分布式文件系統：
$ bin/hadoop namenode -format
在分配的NameNode上，運行下面的命令啟動HDFS：
$ bin/start-dfs.sh
bin/start-dfs.sh腳本會參照NameNode上${HADOOP_CONF_DIR}/slaves文件的內容，在所有列出的slave上啟動DataNode守護進程。
在分配的JobTracker上，運行下面的命令啟動Map/Rece：
$ bin/start-mapred.sh
bin/start-mapred.sh腳本會參照JobTracker上${HADOOP_CONF_DIR}/slaves文件的內容，在所有列出的slave上啟動TaskTracker守護進程。
-----來自官方文檔

導航:首頁 > 程序命令 > 使用命令啟動hdfs

使用命令啟動hdfs

與使用命令啟動hdfs相關的資料