hadoop壓縮命令_搭建hadoop集群常用配置文件是什麼以及配置哪些屬性

Ⅰ 大數據 hadoop 要不要raid5

大數據 hadoop 要不要raid5

單詞計數是最簡單也是最能體現MapRece思想的程序之一，可以稱為MapRece版」Hello World」，該程序的完整代碼可以在Hadoop安裝包的」src/examples」目錄下找到。

大數據探秘：到底要不要考研

想好你考研的原因是什麼？或許你就會給自己找到答案了.......於和平

raid5數據問題

不能，就像新磁碟在磁碟管理里要重分區格式化才能識別，但是那樣的話，RAID模式下寫進的數據也沒了，因為RAID寫進的數據在一塊磁碟上是零散了，甚至這塊磁碟的文件系統都是零散的，不完整的。及時運氣好正好這塊磁碟上有較完整的文件系統的元數據，是你在別的電腦上能看到了文件，但是這些文件常識打開，絕對匯報錯的。或許你運氣好到極點，看到了一個文本文檔能打開，不過那估計也是4KB以下的內容。。。文件大小小於 RAID條帶大小除以RAID磁碟數量，並且跟文件系統簇大小也有關系的。意思就是基本上你無法在另一台電腦上去讀取這塊磁碟。說了這么多就是希望你能深入的了解下，大概的情況。

大數據告訴你要不要當公務員

做不完題是正常的。行測考試時間為120分鍾，除去塗答題卡的時間，平均每道題算下來只有50多秒的時間來答。對於我們考生而言，應當首先集中優勢兵力，把能做、會做、好做的題都做好，保證正確率

什麼是RAID5 RAID5數據恢復原理

這種問題是比較復雜的，伺服器硬碟，結構都是比較復雜的，簡單講下，RAID5至少需要3塊硬碟組合的，需要同型號，同容量的硬碟組合的，如果伺服器壞了，那就需要標記硬碟在存儲器中的位置的，以便後期恢復數據使用的
伺服器壞了，至少是2塊硬碟出問題了，所以，壞了，就不要操作的，保護好現場，找專業數據恢復人員恢復數據，一般數據都是可以恢復的，推薦西安軍王數據，專業數據恢復機構，如果只是伺服器磁碟整列壞了，恢復的希望很大的

大數據一定需要Hadoop嗎

是的。目前還沒有什麼技術可以代替Hadoop。

使用HDFS的mand命令去查看hdfs上的文件，或者使用默認的Hadoop的web管理器查看，從hadoop0.2.23後，hadoop設計了一套Rest風格的介面，通過協議訪問的方式，去瀏覽和操作HDFS上的數據。

大數據告訴你大學期間要不要考駕照

關於大學畢業生需不需要考駕照這個問題，一般來說，極少有找工作時要求有駕照的工作單位，所以考駕照並不是必須的。但是，總的來說，尤其是男生，肯定是想自己開車的。因此考駕照的最佳時間莫過於大學期間，隨便找個寒暑假學上一兩個月，基本上都能拿到駕照。如果在校期間不及時考到駕照，恐怕以後工作了的話，就沒有那麼多時間來考了。所以能在大學時候考到駕照就盡量考，不能的話也不要太勉強自己。
當然，還有一個問題就是大學畢業前要修夠課外學分，如果你的課外學分修不夠的話，可以考個駕照，這個可以作為2分的課外學分，為你的畢業加學分的，所以大學期間最好考一個駕照。

大數據：Hadoop入門

什麼是大數據：
（1.）大數據是指在一定時間內無法用常規軟體對其內容進行抓取，管理和處理的數據 *** ，簡而言之就是數據量非常大，大到無法用常規工具進行處理，如關系型資料庫，數據倉庫等。這里「大」是一個什麼量級呢？如在阿里巴巴每天處理數據達到20PB（即20971520GB）.
2.大數據的特點：
（1.）體量巨大。按目前的發展趨勢來看，大數據的體量已經到達PB級甚至EB級。
（2.）大數據的數據類型多樣，以非結構化數據為主，如網路雜志，音頻，視屏，圖片，地理位置信息，交易數據，社交數據等。
（3.）價值密度低。有價值的數據僅佔到總數據的一小部分。比如一段視屏中，僅有幾秒的信息是有價值的。
（4.）產生和要求處理速度快。這是大數據區與傳統數據挖掘最顯著的特徵。
3.除此之外還有其他處理系統可以處理大數據。
Hadoop （開源）
Spark（開源）
Storm（開源）
MongoDB（開源）
IBM PureDate（商用）
Oracle Exadata（商用）
SAP Hana（商用）
Teradata AsterData（商用）
EMC GreenPlum（商用）
HP Vertica（商用）
註：這里我們只介紹Hadoop。
二：Hadoop體系結構
Hadoop來源：
Hadoop源於Google在2003到2004年公布的關於GFS（Google File System），MapRece和BigTable的三篇論文，創始人Doug Cutting。Hadoop現在是Apache基金會頂級項目，「
Hadoop」一個虛構的名字。由Doug Cutting的孩子為其黃色玩具大象所命名。
Hadoop的核心：
（1.）HDFS和MapRece是Hadoop的兩大核心。通過HDFS來實現對分布式儲存的底層支持，達到高速並行讀寫與大容量的儲存擴展。
（2.）通過MapRece實現對分布式任務進行處理程序支持，保證高速分區處理數據。
3.Hadoop子項目：
（1.）HDFS：分布式文件系統，整個Hadoop體系的基石。
（2.）MapRece/YARN：並行編程模型。YARN是第二代的MapRece框架，從Hadoop 0.23.01版本後，MapRece被重構，通常也稱為MapRece V2，老MapRece也稱為 MapRece V1。
（3.）Hive：建立在Hadoop上的數據倉庫，提供類似SQL語音的查詢方式，查詢Hadoop中的數據，
（5.）HBase:全稱Hadoop Database，Hadoop的分布式的，面向列的資料庫，來源於Google的關於BigTable的論文，主要用於隨機訪問，實時讀寫的大數據。
（6.）ZooKeeper：是一個為分布式應用所設計的協調服務，主要為用戶提供同步，配置管理，分組和命名等服務，減輕分布式應用程序所承擔的協調任務。
還有其它特別多其它項目這里不做一一解釋了。
三：安裝Hadoop運行環境
用戶創建：
（1.）創建Hadoop用戶組，輸入命令：
groupadd hadoop
（2.）創建hser用戶，輸入命令：
useradd –p hadoop hser
（3.）設置hser的密碼，輸入命令：
passwd hser
按提示輸入兩次密碼
（4.）為hser用戶添加許可權，輸入命令：
#修改許可權
chmod 777 /etc/sudoers
#編輯sudoers
Gedit /etc/sudoers
#還原默認許可權
chmod 440 /etc/sudoers
先修改sudoers 文件許可權，並在文本編輯窗口中查找到行「root ALL=（ALL）」，緊跟後面更新加行「hser ALL=（ALL） ALL」，將hser添加到sudoers。添加完成後切記還原默認許可權，否則系統將不允許使用sudo命令。
（5.）設置好後重啟虛擬機，輸入命令：
Sudo reboot
重啟後切換到hser用戶登錄
安裝JDK
（1.）下載jdk-7u67-linux-x64.rpm,並進入下載目錄。
（2.）運行安裝命令:
Sudo rpm –ivh jdk-7u67-linux-x64.rpm
完成後查看安裝路徑，輸入命令：
Rpm –qa jdk –l
記住該路徑，
（3.）配置環境變數，輸入命令：
Sudo gedit /etc/profile
打開profile文件在文件最下面加入如下內容
export java_HOME=/usr/java/jdk.7.0.67
export CLASSPATH=$ JAVA_HOME/lib:$ CLASSPATH
export PATH=$ JAVA_HOME/bin:$PATH
保存後關閉文件，然後輸入命令使環境變數生效：
Source /etc/profile
（4.）驗證JDK，輸入命令：
Java –version
若出現正確的版本則安裝成功。
配置本機SSH免密碼登錄：
（1.）使用ssh-keygen 生成私鑰與公鑰文件，輸入命令：
ssh-keygen –t rsa
（2.）私鑰留在本機，公鑰發給其它主機（現在是localhost）。輸入命令：
ssh--id localhost
（3.）使用公鑰來登錄輸入命令：
ssh localhost
配置其它主機SSH免密登錄
（1.）克隆兩次。在VMware左側欄中選中虛擬機右擊，在彈出的快捷鍵菜單中選中管理---克隆命令。在克隆類型時選中「創建完整克隆」，單擊「下一步」，按鈕直到完成。
（2.）分別啟動並進入三台虛擬機，使用ifconfig查詢個主機IP地址。
（3.）修改每台主機的hostname及hosts文件。
步驟1：修改hostname，分別在各主機中輸入命令。
Sudo gedit /etc/sysconfig/neork
步驟2：修改hosts文件：
sudo gedit /etc/hosts
步驟3：修改三台虛擬機的IP
第一台對應node1虛擬機的IP：192.168.1.130
第二台對應node2虛擬機的IP：192.168.1.131
第三台對應node3虛擬機的IP：192.168.1.132
（4.）由於已經在node1上生成過密鑰對，所有現在只要在node1上輸入命令：
ssh--id node2
ssh--id node3
這樣就可以將node1的公鑰發布到node2，node3。
（5.）測試SSH,在node1上輸入命令：
ssh node2
#退出登錄
exit
ssh node3
exit
四：Hadoop完全分布式安裝
1. Hadoop有三種運行方式：
（1.）單機模式：無須配置，Hadoop被視為一個非分布式模式運行的獨立Java進程
（2.）偽分布式：只有一個節點的集群，這個節點即是Master（主節點，主伺服器）也是Slave（從節點，從伺服器），可在此單節點上以不同的java進程模擬分布式中的各類節點
（3.）完全分布式：對於Hadoop,不同的系統會有不同的節點劃分方式。
2.安裝Hadoop
（1.）獲取Hadoop壓縮包hadoop-2.6.0.tar.gz,下載後可以使用VMWare Tools通過共享文件夾，或者使用Xftp工具傳到node1。進入node1 將壓縮包解壓到/home/hser目錄下，輸入命令： #進入HOME目錄即：「/home/hser」
cd ~
tar –zxvf hadoop-2.6.0.tar.gz
（2.）重命名hadoop輸入命令：
mv hadoop-2.6.0 hadoop
（3.）配置Hadoop環境變數，輸入命令：
Sudo gedit /etc/profile
將以下腳本加到profile內：
#hadoop
export HADOOP_HOME=/home/hser/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
保存關閉，最後輸入命令使配置生效
source /etc/profile
註：node2，和node3都要按照以上配置進行配置。
3.配置Hadoop
（1.）hadoop-env.sh文件用於指定JDK路徑。輸入命令：
[hser@node1 ~]$ cd ~/hadoop/etc/hadoop
[hser@node1 hadoop]$ gedit hadoop-env.sh
然後增加如下內容指定jDK路徑。
export JAVA_HOME=/usr/java/jdk1.7.0_67
（2.）打開指定JDK路徑,輸入命令：
export JAVA_HOME=/usr/java/jdk1.7.0_67
（4.）core-site.xml:該文件是Hadoop全局配置，打開並在元素中增加配置屬性如下：

fs.defaultFs hdfs:node1:9000 hadoop.tmp.dir file:/home/hser/hadoop/tmp 這里給出了兩個常用的配置屬性，fs.defaultFS表示客戶端連接HDFS時，默認路徑前綴，9000是HDFS工作的埠。Hadoop.tmp.dir如不指定會保存到系統的默認臨時文件目錄/tmp中。（5.）hdfs-site.xml:該文件是hdfs的配置。打開並在元素中增加配置屬性。（6.）mapred-site.xml:該文件是MapRece的配置，可從模板文件mapred-site.xml.template中復制打開並在元素中增加配置。（7.）yarn-site.xml:如果在mapred-site.xml配置了使用YARN框架，那麼YARN框架就使用此文件中的配置，打開並在元素中增加配置屬性。（8.）復制這七個命令到node2,node3。輸入命令如下： scp –r /home/hser/hadoop/etc/hadoop/ hser@node2:/home/hser/hadoop/etc/ scp –r /home/hser/hadoop/etc/hadoop/ hser@node3:/home/hser/hadoop/etc/ 4.驗證：下面驗證hadoop是否正確（1.）在Master主機（node1）上格式化NameNode。輸入命令： [hser@node1 ~]$ cd ~/hadoop [hser@node1 hadoop]$ bin/hdfs namenode –format （2）關閉node1,node2 ,node3,系統防火牆並重啟虛擬機。輸入命令： service iptables s sudo chkconfig iptables off reboot （3.）輸入以下啟動HDFS： [hser@node1 ~]$ cd ~/hadoop （4.）啟動所有 [hser@node1 hadoop]$ *** in/start-all.sh （5.）查看集群狀態： [hser@node1 hadoop]$ bin/hdfs dfsadmin –report （6.）在瀏覽器中查看hdfs運行狀態，網址：:node1:50070 （7.）停止Hadoop。輸入命令： [hser@node1 hadoop]$ *** in/s-all.sh 五：Hadoop相關的shell操作（1.）在操作系統中/home/hser/file目錄下創建file1.txt,file2.txt可使用圖形界面創建。 file1.txt輸入內容： Hello World hi HADOOP file2.txt輸入內容 Hello World hi CHIAN （2.）啟動hdfs後創建目錄/input2 [hser@node1 hadoop]$ bin/hadoop fs –mkdir /input2 （3.）將file1.txt.file2.txt保存到hdfs中: [hser@node1 hadoop]$ bin/hadoop fs –put -/file/file*.txt /input2/ （4.）[hser@node1 hadoop]$ bin/hadoop fs –ls /input2

RAID5 數據恢復費用要多少

具體我也不知道，之前到愛特數據恢復機構恢復過，花錢2000不到，貌似具體也要看什麼問題。我那問題比較復雜，花2000能搞定，也是很出乎意料

Ⅱ Hadoop系列之HDFS架構

本篇文章翻譯了Hadoop系列下的 HDFS Architecture ，原文最初經過筆者翻譯後大概有6000字，之後筆者對內容進行了精簡化壓縮，從而使筆者自己和其他讀者們閱讀本文時能夠更加高效快速的完成對Hadoop的學習或復習。本文主要介紹了Hadoop的整體架構，包括但不限於節點概念、命名空間、數據容錯機制、數據管理方式、簡單的腳本命令和垃圾回收概念。

PS：筆者新手一枚，如果看出哪裡存在問題，歡迎下方留言！

Hadoop Distributed File System（HDFS）是高容錯、高吞吐量、用於處理海量數據的分布式文件系統。

HDFS一般由成百上千的機器組成，每個機器存儲整個數據集的一部分數據，機器故障的快速發現與恢復是HDFS的核心目標。

HDFS對介面的核心目標是高吞吐量而非低延遲。

HDFS支持海量數據集合，一個集群一般能夠支持千萬以上數量級的文件。

HDFS應用需要對文件寫一次讀多次的介面模型，文件變更只支持尾部添加和截斷。

HDFS的海量數據與一致性介面特點，使得遷移計算以適應文件內容要比遷移數據從而支持計算更加高效。

HDFS支持跨平台使用。

HDFS使用主從架構。一個HDFS集群由一個NameNode、一個主伺服器（用於管理系統命名空間和控制客戶端文件介面）、大量的DataNode（一般一個節點一個，用於管理該節點數據存儲）。HDFS對外暴露了文件系統命名空間並允許在文件中存儲用戶數據。一個文件被分成一個或多個塊，這些塊存儲在一組DataNode中。NameNode執行文件系統命名空間的打開關閉重命名等命令並記錄著塊和DataNode之間的映射。DataNode用於處理客戶端的讀寫請求和塊的相關操作。NameNode和DataNode一般運行在GNU/Linux操作系統上，HDFS使用Java語言開發的，因此NameNode和DataNode可以運行在任何支持Java的機器上，再加上Java語言的高度可移植性，使得HDFS可以發布在各種各樣的機器上。一個HDFS集群中運行一個NameNode，其他機器每個運行一個（也可以多個，非常少見）DataNode。NameNode簡化了系統的架構，只用於存儲所有HDFS元數據，用戶數據不會進入該節點。下圖為HDFS架構圖：

HDFS支持傳統的分層文件管理，用戶或者應用能夠在目錄下創建目錄或者文件。文件系統命名空間和其他文件系統是相似的，支持創建、刪除、移動和重命名文件。HDFS支持用戶數量限制和訪問許可權控制，不支持軟硬鏈接，用戶可以自己實現軟硬鏈接。NameNode控制該命名空間，命名空間任何變動幾乎都要記錄到NameNode中。應用可以在HDFS中對文件聲明復制次數，這個次數叫做復制系數，會被記錄到NameNode中。

HDFS將每個文件存儲為一個或多個塊，並為文件設置了塊的大小和復制系數從而支持文件容錯。一個文件所有的塊（除了最後一個塊）大小相同，後來支持了可變長度的塊。復制系數在創建文件時賦值，後續可以更改。文件在任何時候只能有一個writer。NameNode負責塊復制，它周期性收到每個數據節點的心跳和塊報告，心跳錶示數據節點的正常運作，塊報告包含了這個DataNode的所有塊。

副本存儲方案對於HDFS的穩定性和性能至關重要。為了提升數據可靠性、靈活性和充分利用網路帶寬，HDFS引入了機架感知的副本存儲策略，該策略只是副本存儲策略的第一步，為後續優化打下基礎。大型HDFS集群一般運行於橫跨許多支架的計算機集群中，一般情況下同一支架中兩個節點數據傳輸快於不同支架。一種簡單的方法是將副本存放在單獨的機架上，從而防止丟失數據並提高帶寬，但是增加了數據寫入的負擔。一般情況下，復制系數是3，HDFS存儲策略是將第一份副本存儲到本地機器或者同一機架下一個隨機DataNode，另外兩份副本存儲到同一個遠程機架的不同DataNode。NameNode不允許同一DataNode存儲相同副本多次。在機架感知的策略基礎上，後續支持了存儲類型和機架感知相結合的策略，簡單來說就是在機架感知基礎上判斷DataNode是否支持該類型的文件，不支持則尋找下一個。

HDFS讀取數據使用就近原則，首先尋找相同機架上是否存在副本，其次本地數據中心，最後遠程數據中心。

啟動時，NameNode進入安全模式，該模式下不會發生數據塊復制，NameNode接收來自DataNode的心跳和塊報告，每個塊都有一個最小副本數量n，數據塊在NameNode接受到該塊n次後，認為這個數據塊完成安全復制。當完成安全復制的數據塊比例達到一個可配的百分比值並再過30s後，NameNode退出安全模式，最後判斷是否仍然存在未達到最小復制次數的數據塊，並對這些塊進行復制操作。

NameNode使用名為EditLog的事務日誌持續記錄文件系統元數據的每一次改動（如創建文件、改變復制系數），使用名為FsImage的文件存儲全部的文件系統命名空間（包括塊到文件的映射關系和文件系統的相關屬性），EditLog和FsImage都存儲在NameNode本地文件系統中。NameNode在內存中保存著元數據和塊映射的快照，當NameNode啟動後或者某個配置項達到閾值時，會從磁碟中讀取EditLog和FsImage，通過EditLog新的記錄更新內存中的FsImage，再講新版本的FsImage刷新到磁碟中，然後截斷EditLog中已經處理的記錄，這個過程就是一個檢查點。檢查點的目的是確保文件系統通過在內存中使用元數據的快照從而持續的觀察元數據的變更並將快照信息存儲到磁碟FsImage中。檢查點通過下面兩個配置參數出發，時間周期（dfs.namenode.checkpoint.period）和文件系統事務數量（dfs.namenode.checkpoint.txns），二者同時配置時，滿足任意一個條件就會觸發檢查點。

所有的HDFS網路協議都是基於TCP/IP的，客戶端建立一個到NameNode機器的可配置的TCP埠，用於二者之間的交互。DataNode使用DataNode協議和NameNode交互，RPC包裝了客戶端協議和DataNode協議，通過設計，NameNode不會發起RPC，只負責響應來自客戶端或者DataNode的RPC請求。

HDFS的核心目標是即使在失敗或者錯誤情況下依然能夠保證數據可靠性，三種常見失敗情況包括NameNode故障、DataNode故障和network partitions。

網路分區可能會導致部分DataNode市區和NameNode的連接，NameNode通過心跳包判斷並將失去連接的DataNode標記為掛掉狀態，於是所有注冊到掛掉DataNode的數據都不可用了，可能會導致部分數據塊的復制數量低於了原本配置的復制系數。NameNode不斷地追蹤哪些需要復制的塊並在必要時候進行復制，觸發條件包含多種情況：DataNode不可用、復制亂碼、硬體磁碟故障或者認為增大負值系數。為了避免DataNode的狀態不穩定導致的復制風暴，標記DataNode掛掉的超時時間設置比較長（默認10min），用戶可以設置更短的時間間隔來標記DataNode為陳舊狀態從而避免在對讀寫性能要求高的請求上使用這些陳舊節點。

HDFS架構兼容數據各種重新平衡方案，一種方案可以在某個DataNode的空閑空間小於某個閾值時將數據移動到另一個DataNode上；在某個特殊文件突然有高的讀取需求時，一種方式是積極創建額外副本並且平衡集群中的其他數據。這些類型的平衡方案暫時還未實現（不太清楚現有方案是什麼...）。

存儲設備、網路或者軟體的問題都可能導致從DataNode獲取的數據發生亂碼，HDFS客戶端實現了對文件內容的校驗，客戶端在創建文件時，會計算文件中每個塊的校驗值並存儲到命名空間，當客戶端取回數據後會使用校驗值對每個塊進行校驗，如果存在問題，客戶端就會去另一個DataNode獲取這個塊的副本。

FsImage和EditLog是HDFS的核心數據結構，他們的錯誤會導致整個HDFS掛掉，因此，NameNode應該支持時刻維持FsImage和EditLog的多分復制文件，它們的任何改變所有文件應該同步更新。另一個選擇是使用 shared storage on NFS 或者 distributed edit log 支持多個NameNode，官方推薦 distributed edit log 。

快照能夠存儲某一特殊時刻的數據副本，從而支持HDFS在發生錯誤時會滾到上一個穩定版本。

HDFS的應用場景是大的數據集下，且數據只需要寫一次但是要讀取一到多次並且支持流速讀取數據。一般情況下一個塊大小為128MB，因此一個文件被切割成128MB的大塊，且每個快可能分布在不同的DataNode。

當客戶端在復制系數是3的條件下寫數據時，NameNode通過目標選擇演算法收到副本要寫入的DataNode的集合，第1個DataNode開始一部分一部分的獲取數據，把每個部分存儲到本地並轉發給第2個DataNode，第2個DataNode同樣的把每個部分存儲到本地並轉發給第3個DataNode，第3個DataNode將數據存儲到本地，這就是管道復制。

HDFS提供了多種訪問方式，比如 FileSystem Java API 、 C language wrapper for this Java API 和 REST API ，而且還支持瀏覽器直接瀏覽。通過使用 NFS gateway ，客戶端可以在本地文件系統上安裝HDFS。

HDFS使用目錄和文件的方式管理數據，並提供了叫做 FS shell 的命令行介面，下面有一些簡單的命令：

DFSAdmin命令集合用於管理HDFS集群，這些命令只有集群管理員可以使用，下面有一些簡單的命令：

正常的HDFS安裝都會配置一個web服務，通過可配的TCP埠對外暴露命名空間，從而使得用戶可以通過web瀏覽器查看文件內容。

如果垃圾回收配置打開，通過FS shell移除的文件不會立刻刪除，而是會移動到一個垃圾文件專用的目錄（/user/<username>/.Trash），類似回收站，只要文件還存在於那個目錄下，則隨時可以被回復。絕大多數最近刪除的文件都被移動到了垃圾目錄（/user/<username>/.Trash/Current），並且HDFS每個一段時間在這個目錄下創建一個檢查點用於刪除已經過期的舊的檢查點，詳情見 expunge command of FS shell 。在垃圾目錄中的文件過期後，NameNode會刪除這個文件，文件刪除會引起這個文件的所有塊的空間空閑，需要注意的是在文件被刪除之後和HDFS的可用空間變多之間會有一些時間延遲（個人認為是垃圾回收機制佔用的時間）。下面是一些簡單的理解刪除文件的例子：

當文件復制系數減小時，NameNode會選擇多餘的需要刪除的副本，在收到心跳包時將刪除信息發送給DataNode。和上面一樣，這個刪除操作也是需要一些時間後，才能在集群上展現空閑空間的增加。

HDFS Architecture

Ⅲ 在hadoop中什麼命令的功能是將一個或多個

1、啟動hadoop所有進程
start-all.sh等價於start-dfs.sh + start-yarn.sh

但是一般不推薦使用start-all.sh(因為開源框架中內部命令啟動有很多問題)。

2、單進程啟動。

sbin/start-dfs.sh

---------------

sbin/hadoop-daemons.sh --config .. --hostname .. start namenode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start datanode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start sescondarynamenode ...
sbin/hadoop-daemons.sh --config .. --hostname .. start zkfc ... //

sbin/start-yarn.sh
--------------
libexec/yarn-config.sh
sbin/yarn-daemon.sh --config $YARN_CONF_DIR start resourcemanager
sbin/yarn-daemons.sh --config $YARN_CONF_DIR start nodemanager

3、常用命令

1、查看指定目錄下內容

hdfs dfs –ls [文件目錄]

hdfs dfs -ls -R / //顯式目錄結構

eg: hdfs dfs –ls /user/wangkai.pt

2、打開某個已存在文件

hdfs dfs –cat [file_path]

eg:hdfs dfs -cat /user/wangkai.pt/data.txt

3、將本地文件存儲至hadoop

hdfs dfs –put [本地地址] [hadoop目錄]

hdfs dfs –put /home/t/file.txt /user/t

4、將本地文件夾存儲至hadoop

hdfs dfs –put [本地目錄] [hadoop目錄]
hdfs dfs –put /home/t/dir_name /user/t

(dir_name是文件夾名)

5、將hadoop上某個文件down至本地已有目錄下

hadoop dfs -get [文件目錄] [本地目錄]

hadoop dfs –get /user/t/ok.txt /home/t

6、刪除hadoop上指定文件

hdfs dfs –rm [文件地址]

hdfs dfs –rm /user/t/ok.txt

7、刪除hadoop上指定文件夾（包含子目錄等）

hdfs dfs –rm [目錄地址]

hdfs dfs –rmr /user/t

8、在hadoop指定目錄內創建新目錄

hdfs dfs –mkdir /user/t

hdfs dfs -mkdir - p /user/centos/hadoop

9、在hadoop指定目錄下新建一個空文件

使用touchz命令：

hdfs dfs -touchz /user/new.txt

10、將hadoop上某個文件重命名

使用mv命令：

hdfs dfs –mv /user/test.txt /user/ok.txt （將test.txt重命名為ok.txt）

11、將hadoop指定目錄下所有內容保存為一個文件，同時down至本地

hdfs dfs –getmerge /user /home/t

12、將正在運行的hadoop作業kill掉

hadoop job –kill [job-id]

13.查看幫助

hdfs dfs -help

4、安全模式

(1)退出安全模式

NameNode在啟動時會自動進入安全模式。安全模式是NameNode的一種狀態，在這個階段，文件系統不允許有任何修改。

系統顯示Name node in safe mode，說明系統正處於安全模式，這時只需要等待十幾秒即可，也可通過下面的命令退出安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode leave

(2) 進入安全模式
在必要情況下，可以通過以下命令把HDFS置於安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode enter

5、節點添加

添加一個新的DataNode節點，先在新加節點上安裝好Hadoop，要和NameNode使用相同的配置（可以直接從NameNode復制），修改HADOOPHOME/conf/master文件，加入NameNode主機名。然後在NameNode節點上修改HADOOPHOME/conf/master文件，加入NameNode主機名。然後在NameNode節點上修改HADOOP_HOME/conf/slaves文件，加入新節點名，再建立新加節點無密碼的SSH連接，運行啟動命令為：/usr/local/hadoop$bin/start-all.sh

6、負載均衡

HDFS的數據在各個DataNode中的分布可能很不均勻，尤其是在DataNode節點出現故障或新增DataNode節點時。新增數據塊時NameNode對DataNode節點的選擇策略也有可能導致數據塊分布不均勻。用戶可以使用命令重新平衡DataNode上的數據塊的分布：/usr/local/hadoop$bin/start-balancer.sh

7、補充

1.對hdfs操作的命令格式是hdfs dfs
1.1 -ls 表示對hdfs下一級目錄的查看
1.2 -lsr 表示對hdfs目錄的遞歸查看
1.3 -mkdir 創建目錄
1.4 -put 從Linux上傳文件到hdfs
1.5 -get 從hdfs下載文件到linux
1.6 -text 查看文件內容
1.7 -rm 表示刪除文件
1.7 -rmr 表示遞歸刪除文件
2.hdfs在對數據存儲進行block劃分時，如果文件大小超過block，那麼按照block大小進行劃分；不如block size的，劃分為一個塊，是實際數據大小。
*****PermissionDenyException 許可權不足**********
hadoop常用命令：
hdfs dfs 查看Hadoop HDFS支持的所有命令
hdfs dfs –ls 列出目錄及文件信息
hdfs dfs –lsr 循環列出目錄、子目錄及文件信息
hdfs dfs –put test.txt /user/sunlightcs 將本地文件系統的test.txt復制到HDFS文件系統的/user/sunlightcs目錄下
hdfs dfs –get /user/sunlightcs/test.txt . 將HDFS中的test.txt復制到本地文件系統中，與-put命令相反
hdfs dfs –cat /user/sunlightcs/test.txt 查看HDFS文件系統里test.txt的內容
hdfs dfs –tail /user/sunlightcs/test.txt 查看最後1KB的內容
hdfs dfs –rm /user/sunlightcs/test.txt 從HDFS文件系統刪除test.txt文件，rm命令也可以刪除空目錄
hdfs dfs –rmr /user/sunlightcs 刪除/user/sunlightcs目錄以及所有子目錄
hdfs dfs –FromLocal test.txt /user/sunlightcs/test.txt 從本地文件系統復制文件到HDFS文件系統，等同於put命令
hdfs dfs –ToLocal /user/sunlightcs/test.txt test.txt 從HDFS文件系統復制文件到本地文件系統，等同於get命令
hdfs dfs –chgrp [-R] /user/sunlightcs 修改HDFS系統中/user/sunlightcs目錄所屬群組，選項-R遞歸執行，跟linux命令一樣
hdfs dfs –chown [-R] /user/sunlightcs 修改HDFS系統中/user/sunlightcs目錄擁有者，選項-R遞歸執行
hdfs dfs –chmod [-R] MODE /user/sunlightcs 修改HDFS系統中/user/sunlightcs目錄許可權，MODE可以為相應許可權的3位數或+/-{rwx}，選項-R遞歸執行
hdfs dfs –count [-q] PATH 查看PATH目錄下，子目錄數、文件數、文件大小、文件名/目錄名
hdfs dfs –cp SRC [SRC …] DST 將文件從SRC復制到DST，如果指定了多個SRC，則DST必須為一個目錄
hdfs dfs – PATH 顯示該目錄中每個文件或目錄的大小
hdfs dfs –s PATH 類似於，PATH為目錄時，會顯示該目錄的總大小
hdfs dfs –expunge 清空回收站，文件被刪除時，它首先會移到臨時目錄.Trash/中，當超過延遲時間之後，文件才會被永久刪除
hdfs dfs –getmerge SRC [SRC …] LOCALDST [addnl] 獲取由SRC指定的所有文件，將它們合並為單個文件，並寫入本地文件系統中的LOCALDST，選項addnl將在每個文件的末尾處加上一個換行符
hdfs dfs –touchz PATH 創建長度為0的空文件
hdfs dfs –test –[ezd] PATH 對PATH進行如下類型的檢查： -e PATH是否存在，如果PATH存在，返回0，否則返回1 -z 文件是否為空，如果長度為0，返回0，否則返回1 -d 是否為目錄，如果PATH為目錄，返回0，否則返回1
hdfs dfs –text PATH 顯示文件的內容，當文件為文本文件時，等同於cat，文件為壓縮格式（gzip以及hadoop的二進制序列文件格式）時，會先解壓縮 hdfs dfs –help ls 查看某個[ls]命令的幫助文檔

本文轉自 https://www.cnblogs.com/LHWorldBlog/p/8514994.html

Ⅳ Linux命令中，請問下tar -vxzf hadoop-2.7.0.tar.gz是什麼意思尤其是-vxzf

v : 顯示動作，即解壓任何文件時均顯示其文件名及相對路徑
x : 解壓縮
z : 表名該壓縮文件是以gzip格式壓縮的
f : 該參數後面跟著被解壓的文件名

註：在Linux中解壓tar.gz包可以不加z參數，tar命令會自動識別其支持的任何壓縮格式，即該命令也可寫成如下形式
tar -vxf hadoop-2.7.0.tar.gz

Ⅳ 搭建hadoop集群，常用配置文件是什麼，以及配置哪些屬性

一. 簡介

參考了網上許多教程，最終把hadoop在ubuntu14.04中安裝配置成功。下面就把詳細的安裝步驟敘述一下。我所使用的環境：兩台ubuntu 14.04 64位的台式機，hadoop選擇2.7.1版本。（前邊主要介紹單機版的配置，集群版是在單機版的基礎上，主要是配置文件有所不同，後邊會有詳細說明）

二. 准備工作

2.1 創建用戶

創建用戶，並為其添加root許可權，經過親自驗證下面這種方法比較好。

1 sudo adser hadoop2 sudo vim /etc/sudoers3 # 修改內容如下：4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL

給hadoop用戶創建目錄，並添加到sudo用戶組中，命令如下：

1 sudo chown hadoop /home/hadoop2 # 添加到sudo用戶組3 sudo adser hadoop sudo

最後注銷當前用戶，使用新創建的hadoop用戶登陸。

2.2安裝ssh服務

ubuntu中默認是沒有裝ssh server的（只有ssh client），所以先運行以下命令安裝openssh-server。安裝過程輕松加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh無密碼登陸

直接上代碼：執行完下邊的代碼就可以直接登陸了（可以運行ssh localhost進行驗證）

1 cd ~/.ssh# 如果找不到這個文件夾，先執行一下 "ssh localhost"2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys

注意：

這里實現的是無密登陸自己，只適用與hadoop單機環境。如果配置Hadoop集群設置Master與Slave的SSH無密登陸可

三. 安裝過程

3.1 下載hadoop安裝包

有兩種下載方式：

1. 直接去官網下載：

2. 使用wget命令下載：

3.2 配置hadoop

1. 解壓下載的hadoop安裝包，並修改配置文件。我的解壓目錄是（/home/hadoop/hadoop-2.7.1），即進入/home/hadoop/文件夾下執行下面的解壓縮命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件：（hadoop2.7.1/etc/hadoop/）目錄下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路徑可以根據自己的習慣進行設置。

至此，wordcount demo 運行結束。

六. 總結

配置過程遇到了很多問題，最後都一一解決，收獲很多，特此把這次配置的經驗分享出來，方便想要配置hadoop環境的各位朋友～

（Hadoop集群安裝配置過程基本和單機版是一樣的，主要是在配置文件方面有所區別，以及ssh無密登陸要求master和slave能夠互相無密登陸。

Ⅵ 怎麼搭建兩個hadoop集群的測試環境

環境配置：
虛擬機：
vmware workstation 12
系統：
ubuntu 16.04 LTS（推薦使用原版，不要用kylin）
節點： 192.168.159.132 master 192.168.159.134 node1 192.168.159.137 node2
jdk-8u101-Linux-x64.gz (Java)hadoop-2.7.3.tar.gz (Hadoop 包)
安裝步驟：
1、安裝虛擬機系統，並進行准備工作（可安裝一個然後克隆）
2.修改各個虛擬機的hostname和host
3.創建用戶組和用戶
4、配置虛擬機網路，使虛擬機系統之間以及和host主機之間可以通過相互ping通。
5.安裝jdk和配置環境變數，檢查是否配置成功
6、配置ssh，實現節點間的無密碼登錄 ssh node1/2指令驗證時候成功
7、master配置hadoop，並將hadoop文件傳輸到node節點
8、配置環境變數，並啟動hadoop，檢查是否安裝成功，執行wordcount檢查是否成功。

1.安裝虛擬機

在VM上安裝下載好的Ubuntu的系統，具體過程自行網路。可以安裝完一個以後克隆，但是本人安裝過程中遇到很多問題，經常需要刪除虛擬機，重新安裝，而被克隆的虛擬機不能刪除，所以本人就用了很長時候，一個一個安裝。

一共3台虛擬機：分配情況和IP地址如下：

（註：查看ip地址的指令 ifconfig）

安裝虛擬機時可以設置靜態IP，因為過程中常常遇到網路連接問題,ifconfig找不到IPV4地址。當然，也可以不設，默認分配。

192.168.159.132 master 192.168.159.134 node1 192.168.159.137 node2

2.修改虛擬機的hostname和hosts文件

以master上機器為例，打開終端，執行如下的操作，把hostname修改成master，hosts修改成如下所示的樣子：

#修改hostname的指令：sudo gedit /etc/hostname
#修改hosts指令：sudo gedit /etc/hosts
#將以下內容添加到hosts中192.168.159.132 master192.168.159.134 node1192.168.159.137 node2

如下圖所示:

自此，hadoop集群搭建成功！

導航:首頁 > 文件處理 > hadoop壓縮命令

hadoop壓縮命令