hadoop2源碼分析_hadoop hdfs 源碼怎麼看

A. hadoop家族先學什麼

優先學習hadoop，總體架構先了解清楚，有助於以後細節的具體學習。劉鵬的基本書寫的很入門，推薦看一看。煉數成金的hadoop視頻教程很不錯，值得入門看看。然後就可以學習hadoop權威指南。hadoop源碼分析，這個地方有張鑫寫的《深入雲計算：hadoop源代碼分析》，和《hadoop源碼分析》，之後就可以學習hive和pig，habse，zookeeper，這時候你如果有一定的資料庫知識，會簡單一點，如果不知道，那可以去了解一下資料庫的知識。等你把這些學會了，新的項目，我想hadoop源碼都會的人，應該不難了吧！歡迎採納，交流。——支持開源!熱愛學習！吼吼。

B. 如何編譯Apache Hadoop2.4.0源代碼

安裝JDK

hadoop是java寫的，編譯hadoop必須安裝jdk。

從oracle官網下載jdk，下載地址是http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html，選擇 jdk-7u45-linux-x64.tar.gz下載。

執行以下命令解壓縮jdk

tar -zxvfjdk-7u45-linux-x64.tar.gz

會生成一個文件夾jdk1.7.0_45，然後設置環境變數中。

執行命令 vi/etc/profile，增加以下內容到配置文件中，結果顯示如下

export JAVA_HOME=/usr/java/jdk1.7.0_45

export JAVA_OPTS="-Xms1024m-Xmx1024m"

exportCLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$CLASSPATH

export PATH=$JAVA_HOME/bin:$PATH

保存退出文件後，執行以下命令

source /etc/profile

java –version 看到顯示的版本信息即正確。

安裝maven

hadoop源碼是使用maven組織管理的，必須下載maven。從maven官網下載，下載地址是http://maven.apache.org/download.cgi，選擇 apache-maven-3.1.0-bin.tar.gz 下載，不要選擇3.1下載。

執行以下命令解壓縮jdk

tar -zxvf apache-maven-3.1.0-bin.tar.gz

會生成一個文件夾apache-maven-3.1.0，然後設置環境變數中。

執行命令vi /etc/profile，編輯結果如下所示

MAVEN_HOME=/usr/maven/apache-maven-3.1.0

export MAVEN_HOME

export PATH=${PATH}:${MAVEN_HOME}/bin

保存退出文件後，執行以下命令

source /etc/profile

mvn -version

如果看到下面的顯示信息，證明配置正確了。

C. hadoop2.x採用什麼技術構建源代碼

首先，不得不說，hadoop發展到現在這個階段，代碼已經變得非常龐大臃腫，如果你直接閱讀最新版本的源代碼，難度比較大，需要足夠的耐心和時間，所以，如果你覺得認真一次，認真閱讀一次hadoop源代碼，一定要有足夠的心理准備和時間預期。其次，

D. hadoop hdfs 源碼怎麼看

在使用Hadoop的過程中，很容易通過FileSystem類的API來讀取HDFS中的文件內容，讀取內容的過程是怎樣的呢？今天來分析客戶端讀取HDFS文件的過程，下面的一個小程序完成的功能是讀取HDFS中某個目錄下的文件內容，然後輸出到控制台，代碼如下：

[java] view plain
public class LoadDataFromHDFS {
public static void main(String[] args) throws IOException {
new LoadDataFromHDFS().loadFromHdfs("hdfs://localhost:9000/user/wordcount/");
}

public void loadFromHdfs(String hdfsPath) throws IOException {
Configuration conf = new Configuration();

Path hdfs = new Path(hdfsPath);

FileSystem in = FileSystem.get(conf);
//in = FileSystem.get(URI.create(hdfsPath), conf);//這兩行都會創建一個DistributedFileSystem對象

FileStatus[] status = in.listStatus(hdfs);
for(int i = 0; i < status.length; i++) {
byte[] buff = new byte[1024];
FSDataInputStream inputStream = in.open(status[i].getPath());
while(inputStream.read(buff) > 0) {
System.out.print(new String(buff));
}
inputStream.close();
}
}
}

FileSystem in = FileSystem.get(conf)這行代碼創建一個DistributedFileSystem，如果直接傳入一個Configuration類型的參數，那麼默認會讀取屬性fs.default.name的值，根據這個屬性的值創建對應的FileSystem子類對象，如果沒有配置fs.default.name屬性的值，那麼默認創建一個org.apache.hadoop.fs.LocalFileSystem類型的對象。但是這里是要讀取HDFS中的文件，所以在core-site.xml文件中配置fs.default.name屬性的值為hdfs://localhost:9000，這樣FileSystem.get(conf)返回的才是一個DistributedFileSystem類的對象。還有一種創建DistributedFileSystem這種指定文件系統類型對像的方法是使用FileSystem.get(Configuration conf)的一個重載方法FileSystem.get(URI uri, Configuration)，其實調用第一個方法時在FileSystem類中先讀取conf中的屬性fs.default.name的值，再調用的FileSystem.get(URI uri, Configuration)方法。

E. 如何高效的閱讀hadoop源代碼

R語言和Hadoop讓我們體會到了，兩種技術在各自領域的強大。很多開發人員在計算機的角度，都會提出下面2個問題。問題1: Hadoop的家族如此之強大，為什麼還要結合R語言？
問題2: Mahout同樣可以做數據挖掘和機器學習，和R語言的區別是什麼？下面我嘗試著做一個解答：問題1: Hadoop的家族如此之強大，為什麼還要結合R語言？

a. Hadoop家族的強大之處，在於對大數據的處理，讓原來的不可能（TB,PB數據量計算），成為了可能。
b. R語言的強大之處，在於統計分析，在沒有Hadoop之前，我們對於大數據的處理，要取樣本，假設檢驗，做回歸，長久以來R語言都是統計學家專屬的工具。
c. 從a和b兩點，我們可以看出，hadoop重點是全量數據分析，而R語言重點是樣本數據分析。兩種技術放在一起，剛好是最長補短！
d. 模擬場景：對1PB的新聞網站訪問日誌做分析，預測未來流量變化
d1:用R語言，通過分析少量數據，對業務目標建回歸建模，並定義指標d2:用Hadoop從海量日誌數據中，提取指標數據d3:用R語言模型，對指標數據進行測試和調優d4:用Hadoop分步式演算法，重寫R語言的模型，部署上線這個場景中，R和Hadoop分別都起著非常重要的作用。以計算機開發人員的思路，所有有事情都用Hadoop去做，沒有數據建模和證明，」預測的結果」一定是有問題的。以統計人員的思路，所有的事情都用R去做，以抽樣方式，得到的「預測的結果」也一定是有問題的。所以讓二者結合，是產界業的必然的導向，也是產界業和學術界的交集，同時也為交叉學科的人才提供了無限廣闊的想像空間。問題2: Mahout同樣可以做數據挖掘和機器學習，和R語言的區別是什麼？

a. Mahout是基於Hadoop的數據挖掘和機器學習的演算法框架，Mahout的重點同樣是解決大數據的計算的問題。
b. Mahout目前已支持的演算法包括，協同過濾，推薦演算法，聚類演算法，分類演算法，LDA, 樸素bayes，隨機森林。上面的演算法中，大部分都是距離的演算法，可以通過矩陣分解後，充分利用MapRece的並行計算框架，高效地完成計算任務。
c. Mahout的空白點，還有很多的數據挖掘演算法，很難實現MapRece並行化。Mahout的現有模型，都是通用模型，直接用到的項目中，計算結果只會比隨機結果好一點點。Mahout二次開發，要求有深厚的JAVA和Hadoop的技術基礎，最好兼有「線性代數」，「概率統計」，「演算法導論」等的基礎知識。所以想玩轉Mahout真的不是一件容易的事情。
d. R語言同樣提供了Mahout支持的約大多數演算法(除專有演算法)，並且還支持大量的Mahout不支持的演算法，演算法的增長速度比mahout快N倍。並且開發簡單，參數配置靈活，對小型數據集運算速度非常快。
雖然，Mahout同樣可以做數據挖掘和機器學習，但是和R語言的擅長領域並不重合。集百家之長，在適合的領域選擇合適的技術，才能真正地「保質保量」做軟體。

如何讓Hadoop結合R語言？

從上一節我們看到，Hadoop和R語言是可以互補的，但所介紹的場景都是Hadoop和R語言的分別處理各自的數據。一旦市場有需求，自然會有商家填補這個空白。

1）. RHadoop

RHadoop是一款Hadoop和R語言的結合的產品，由RevolutionAnalytics公司開發，並將代碼開源到github社區上面。RHadoop包含三個R包 (rmr，rhdfs，rhbase)，分別是對應Hadoop系統架構中的，MapRece, HDFS, HBase 三個部分。

2）. RHiveRHive是一款通過R語言直接訪問Hive的工具包，是由NexR一個韓國公司研發的。

3）. 重寫Mahout用R語言重寫Mahout的實現也是一種結合的思路，我也做過相關的嘗試。

4）.Hadoop調用R

上面說的都是R如何調用Hadoop，當然我們也可以反相操作，打通JAVA和R的連接通道，讓Hadoop調用R的函數。但是，這部分還沒有商家做出成形的產品。

5. R和Hadoop在實際中的案例

R和Hadoop的結合，技術門檻還是有點高的。對於一個人來說，不僅要掌握Linux, Java, Hadoop, R的技術，還要具備軟體開發，演算法，概率統計，線性代數，數據可視化，行業背景的一些基本素質。在公司部署這套環境，同樣需要多個部門，多種人才的的配合。Hadoop運維，Hadoop演算法研發，R語言建模，R語言MapRece化，軟體開發，測試等等。所以，這樣的案例並不太多。

導航:首頁 > 源碼編譯 > hadoop2源碼分析

hadoop2源碼分析

與hadoop2源碼分析相關的資料