hive源碼閱讀_hive的源代碼的編譯與調試怎麼做

1. windows下怎麼用python連接hive資料庫

由於版本的不同，Python 連接 Hive 的方式也就不一樣。
在網上搜索關鍵字 python hive 的時候可以找到一些解決方案。大部分是這樣的，首先把hive 根目錄下的$HIVE_HOME/lib/py拷貝到 python 的庫中，也就是 site-package 中，或者乾脆把新寫的 python 代碼和拷貝的 py 庫放在同一個目錄下，然後用這個目錄下提供的 thrift 介面調用。示例也是非常簡單的。類似這樣：
import sys
from hive_service import ThriftHive
from hive_service.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

def hiveExe(sql):

try:
transport = TSocket.TSocket('127.0.0.1', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()

client.execute(sql)

print "The return value is : "
print client.fetchAll()
print "............"
transport.close()
except Thrift.TException, tx:
print '%s' % (tx.message)

if __name__ == '__main__':
hiveExe("show tables")171819202122232425262728

或者是這樣的：
#!/usr/bin/env python

import sys

from hive import ThriftHive
from hive.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

try:
transport = TSocket.TSocket('14.18.154.188', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)

client = ThriftHive.Client(protocol)
transport.open()

client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
client.execute("SELECT * FROM test1")
while (1):
row = client.fetchOne()
if (row == None):
break
print rowve
client.execute("SELECT * FROM test1")
print client.fetchAll()

transport.close()

except Thrift.TException, tx:
print '%s' % (tx.message)

但是都解決不了問題，從 netstat 中查看可以發現 TCP 連接確實是建立了，但是不執行 hive 指令。也許就是版本的問題。
還是那句話，看各種中文博客不如看官方文檔。
項目中使用的 hive 版本是0.13，此時此刻官網的最新版本都到了1.2.1了。中間間隔了1.2.0、1.1.0、1.0.0、0.14.0。但是還是參考一下官網的方法試試吧。
首先看官網的 setting up hiveserver2
可以看到啟動 hiveserver2 可以配置最大最小線程數，綁定的 IP，綁定的埠，還可以設置認證方式。（之前一直不成功正式因為這個連接方式）然後還給了 python 示例代碼。
import pyhs2

with pyhs2.connect(host='localhost',
port=10000,
authMechanism="PLAIN",
user='root',
password='test',
database='default') as conn:
with conn.cursor() as cur:
#Show databases
print cur.getDatabases()

#Execute query
cur.execute("select * from table")

#Return column info from query
print cur.getSchema()

#Fetch table results
for i in cur.fetch():
print

在拿到這個代碼的時候，自以為是的把認證信息給去掉了。然後運行發現跟之前博客里介紹的方法結果一樣，建立了 TCP 連接，但是就是不執行，也不報錯。這是幾個意思？然後無意中嘗試了一下原封不動的使用上面的代碼。結果可以用。唉。。。
首先聲明一下，hive-site.xml中默認關於 hiveserver2的配置我一個都沒有修改，一直是默認配置啟動 hiveserver2。沒想到的是默認配置是有認證機制的。
然後再寫一點，在安裝 pyhs2的時候還是遇到了點問題，其實還是要看官方文檔的，我只是沒看官方文檔直接用 pip安裝導致了這個問題。安裝 pyhs2需要確定已經安裝了幾個依賴包。直接看在 github 上的 wiki 吧。哪個沒安裝就補上哪一個就好了。
To install pyhs2 on a clean CentOS 6.4 64-bit desktop....

(as root or with sudo)

get ez_setup.py from https://pypi.python.org/pypi/ez_setup
python ez_setup.py
easy_install pip
yum install gcc-c++
yum install cyrus-sasl-devel.x86_64
yum install python-devel.x86_64
pip install

寫了這么多，其實是在啰嗦自己遇到的問題。下面寫一下如何使用 python
連接 hive。
python 連接 hive 是基於 thrift 完成的。所以需要伺服器端和客戶端的配合才能使用。
在伺服器端需要啟動 hiveserver2 服務，啟動方法有兩種，第二種方法只是對第一種方法的封裝。
1. $HIVE_HOME/bin/hive --server hiveserver2
2. $HIVE_HOME/bin/hiveserver21212

默認情況下就是hiveserver2監聽了10000埠。也可以通過修改 hive-site.xml 或者在啟動的時候添加參數來實現修改默認配置。
另外一方面，在客戶端需要安裝 python 的依賴包 pyhs2。安裝方法在上面也介紹了，基本上就是用 pip install pyhs2，如果安裝不成功，安裝上面提到的依賴包就可以了。
最後運行上面的示例代碼就可以了，配置好 IP 地址、埠、資料庫、表名稱就可以用了，默認情況下認證信息不需要修改。
另外補充一點 fetch 函數執行速度是比較慢的，會把所有的查詢結果返回來。可以看一下 pyhs2 的源碼，查看一下還有哪些函數可以用。下圖是 Curor 類的可以使用的函數。

一般 hive 表裡的數據比較多，還是一條一條的讀比較好，所以選擇是喲功能 fetchone函數來處理數據。fetchone函數如果讀取成功會返回列表，否則 None。可以把示例代碼修改一下，把 fetch修改為：
count = 0
while (1):
row = cur.fetchone()
if (row is not None):
count += 1
print count, row
else:
print "it's over"

2. 如何通過java代碼查看hive的metastore埠號

首先配置hive使用本地MySQL存儲metastore（伺服器A 111.121.21.23）

3. 我想學習hive，請問安裝hive之前，必須安裝centos、hadoop、java這些嗎

安裝需要
java 1.6，java 1.7或更高版本。
Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x
linux,mac,windows操作系統。以下內容適用於linux系統。
安裝打包好的hive
需要先到apache下載已打包好的hive鏡像，然後解壓開該文件
$ tar -xzvf hive-x.y.z.tar.gz

設置hive環境變數
$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}

設置hive運行路徑
$ export PATH=$HIVE_HOME/bin:$PATH

編譯Hive源碼
下載hive源碼
此處使用maven編譯，需要下載安裝maven。

以Hive 0.13版為例
編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
運行hive
Hive運行依賴於hadoop，在運行hadoop之前必需先配置好hadoopHome。
export HADOOP_HOME=<hadoop-install-dir>

在hdfs上為hive創建\tmp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄，然後你才可以運行hive。
在運行hive之前設置HiveHome。
$ export HIVE_HOME=<hive-install-dir>

在命令行窗口啟動hive
$ $HIVE_HOME/bin/hive

若執行成功，將看到類似內容如圖所示

4. hive 需要寫java代碼嗎

如果你的項目是java項目的話，就需要使用hive提供的java api，如下代碼：
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

import org.apache.log4j.Logger;

/**
* Hive的JavaApi
*
* 啟動hive的遠程服務介面命令行執行：hive --service hiveserver >/dev/null 2>/dev/null &
*
* @author 吖大哥
*
*/
public class HiveJdbcCli {

private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";
private static String url = "jdbc:hive://hadoop3:10000/default";
private static String user = "hive";
private static String password = "mysql";
private static String sql = "";
private static ResultSet res;
private static final Logger log = Logger.getLogger(HiveJdbcCli.class);

public static void main(String[] args) {
Connection conn = null;
Statement stmt = null;
try {
conn = getConn();
stmt = conn.createStatement();

// 第一步:存在就先刪除
String tableName = dropTable(stmt);

// 第二步:不存在就創建
createTable(stmt, tableName);

// 第三步:查看創建的表
showTables(stmt, tableName);

// 執行describe table操作
describeTables(stmt, tableName);

// 執行load data into table操作
loadData(stmt, tableName);

// 執行 select * query 操作
selectData(stmt, tableName);

// 執行 regular hive query 統計操作
countData(stmt, tableName);

} catch (ClassNotFoundException e) {
e.printStackTrace();
log.error(driverName + " not found!", e);
System.exit(1);
} catch (SQLException e) {
e.printStackTrace();
log.error("Connection error!", e);
System.exit(1);
} finally {
try {
if (conn != null) {
conn.close();
conn = null;
}
if (stmt != null) {
stmt.close();
stmt = null;
}
} catch (SQLException e) {
e.printStackTrace();
}
}
}

private static void countData(Statement stmt, String tableName)
throws SQLException {
sql = "select count(1) from " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("執行「regular hive query」運行結果:");
while (res.next()) {
System.out.println("count ------>" + res.getString(1));
}
}

private static void selectData(Statement stmt, String tableName)
throws SQLException {
sql = "select * from " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("執行 select * query 運行結果:");
while (res.next()) {
System.out.println(res.getInt(1) + "\t" + res.getString(2));
}
}

private static void loadData(Statement stmt, String tableName)
throws SQLException {
String filepath = "/home/hadoop01/data";
sql = "load data local inpath '" + filepath + "' into table "
+ tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
}

private static void describeTables(Statement stmt, String tableName)
throws SQLException {
sql = "describe " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("執行 describe table 運行結果:");
while (res.next()) {
System.out.println(res.getString(1) + "\t" + res.getString(2));
}
}

private static void showTables(Statement stmt, String tableName)
throws SQLException {
sql = "show tables '" + tableName + "'";
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("執行 show tables 運行結果:");
if (res.next()) {
System.out.println(res.getString(1));
}
}

private static void createTable(Statement stmt, String tableName)
throws SQLException {
sql = "create table "
+ tableName
+ " (key int, value string) row format delimited fields terminated by '\t'";
stmt.executeQuery(sql);
}

private static String dropTable(Statement stmt) throws SQLException {
// 創建的表名
String tableName = "testHive";
sql = "drop table " + tableName;
stmt.executeQuery(sql);
return tableName;
}

private static Connection getConn() throws ClassNotFoundException,
SQLException {
Class.forName(driverName);
Connection conn = DriverManager.getConnection(url, user, password);
return conn;
}

}

5. 《深入理解SPARK核心思想與源碼分析》epub下載在線閱讀，求百度網盤雲資源

《深入理解SPARK》（耿嘉安）電子書網盤下載免費在線閱讀

資源鏈接：

鏈接：

提取碼：oeso

書名：深入理解SPARK

作者：耿嘉安

豆瓣評分：7.2

出版社：機械工業出版社

出版年份：2016-1-1

頁數：469

內容簡介：

《深入理解SPARK：核心思想與源碼分析》結合大量圖和示例，對Spark的架構、部署模式和工作模塊的設計理念、實現源碼與使用技巧進行了深入的剖析與解讀。

《深入理解SPARK：核心思想與源碼分析》一書對Spark1.2.0版本的源代碼進行了全面而深入的分析，旨在為Spark的優化、定製和擴展提供原理性的指導。阿里巴巴集團專家鼎力推薦、阿里巴巴資深Java開發和大數據專家撰寫。

本書分為三篇：

准備篇（第1～2章），介紹了Spark的環境搭建、設計理念與基本架構，幫助讀者了解一些背景知識。

核心設計篇（第3～7章），著重講解SparkContext的初始化、存儲體系、任務提交與執行、計算引擎及部署模式的原理和源碼分析。通過這部分的內容，讀者可以通過源碼剖析更加深入理解Spark的核心設計與實現，以便在實際使用中能夠快速解決線上問題並對性能進行調優。

擴展篇（第8～11章），主要講解基於Spark核心的各種擴展及應用，包括SQL處理引擎、Hive處理、流式計算框架Spark Streaming、圖計算框架GraphX、機器學習庫MLlib等內容。通過閱讀這部分內容，讀者可以擴展實際項目中對Spark的應用場景，讓Spark煥發活力。

作者簡介：

耿嘉安，10年IT行業相關經驗。就職於阿里巴巴商家業務事業部，任資深Java工程師，專注於開源和大數據領域，目前與小夥伴們基於ODPS構建阿里的大數據商業解決方案——御膳房。在大量的工作實踐中，對J2EE、JVM、Tomcat、Spring、Hadoop、Spark、MySQL、Redis都有深入研究，尤其喜歡剖析開源項目的源碼實現。早期從事J2EE企業級應用開發，對Java相關技術有獨到見解。業余時間喜歡研究中國古代歷史，古詩詞，旅遊，足球等。

6. 《Hive編程指南》epub下載在線閱讀全文，求百度網盤雲資源

《Hive編程指南》（卡普廖洛(EdwardCapriolo)萬普勒(DeanWampler)盧森格林(JasonRutherglen))）電子書網盤下載免費在線閱讀

鏈接：

提取碼：1234

書名：Hive編程指南

豆瓣評分：7.4

作者:卡普廖洛 (Edward Capriolo)/萬普勒 (Dean Wampler)/盧森格林 (Jason Rutherglen)
出版社:人民郵電出版社
原作名:Programming Hive
譯者:曹坤
出版年:2013-12-1
頁數:318

內容簡介

市場中第一本Hive圖書。Hive在Hadoop系統中的應用趨勢比較可觀。

作者簡介

Edward Capriolo：Media6degrees公司系統管理員，他是Apache軟體基金會成員，還是Hadoop-Hive項目成員。

Dean Wampler：Think Big Analytics公司總顧問，對大數據問題以及Hadoop和機器學習有專門的研究。

Jason Rutherglen：Think Big Analytics公司軟體架構師，對大數據、Hadoop、搜索和安全有專門的研究。

7. 如何把hive源碼導入eclipse當中，從而能進行對hive的再次開發和更新謝謝！

在Eclipse中新建一個java項目，然後把hive源碼中src下的文件復制到新建的項目的src下即可

8. 如何讓Pentaho Aggregation Designer整合hive的數據源

最近需要進行利用pentaho聚合設計器實現hive數據倉庫中表的聚合，但是目前的pentaho aggregation designer不支持hive的連接類型，想問下有沒有牛人研究過pentaho aggregation designer的源碼或是有別的方法直接將hive-jdbc加進去就可以使用

9. hadoop中的pig與hive的區別各自有什麼優勢

Pig是一種編程語言，它簡化了Hadoop常見的工作任務。Pig可載入數據、表達轉換數據以及存儲最終結果。Pig內置的操作使得半結構化數據變得有意義（如日誌文件）。同時Pig可擴展使用Java中添加的自定義數據類型並支持數據轉換。

Hive在Hadoop中扮演數據倉庫的角色。Hive添加數據的結構在HDFS（hive superimposes structure on data in HDFS），並允許使用類似於SQL語法進行數據查詢。與Pig一樣，Hive的核心功能是可擴展的。

Hive更適合於數據倉庫的任務，Hive主要用於靜態的結構以及需要經常分析的工作。Hive與SQL相似促使其成為Hadoop與其他BI工具結合的理想交集。Pig賦予開發人員在大數據集領域更多的靈活性，並允許開發簡潔的腳本用於轉換數據流以便嵌入到較大的應用程序。Pig相比Hive相對輕量，它主要的優勢是相比於直接使用Hadoop Java APIs可大幅削減代碼量。

本質上說說Pig與Hive。
經過Pig Latin的轉換後變成了一道MapRece的作業，通過MapRece多個線程，進程或者獨立系統並行執行處理的結果集進行分類和歸納。Map() 和 Rece() 兩個函數會並行運行，即使不是在同一的系統的同一時刻也在同時運行一套任務，當所有的處理都完成之後，結果將被排序，格式化，並且保存到一個文件。Pig利用MapRece將計算分成兩個階段，第一個階段分解成為小塊並且分布到每一個存儲數據的節點上進行執行，對計算的壓力進行分散，第二個階段聚合第一個階段執行的這些結果，這樣可以達到非常高的吞吐量，通過不多的代碼和工作量就能夠驅動上千台機器並行計算，充分的利用計算機的資源，打消運行中的瓶頸。

也就是說，Pig最大的作用就是對maprece演算法(框架)實現了一套shell腳本，類似我們通常熟悉的SQL語句，在Pig中稱之為Pig Latin，在這套腳本中我們可以對載入出來的數據進行排序、過濾、求和、分組(group by)、關聯(Joining)，Pig也可以由用戶自定義一些函數對數據集進行操作，也就是傳說中的UDF(user-defined functions)。
結論性的閱讀感覺是：Pig用來寫一些即時腳本吧，比如領導問你要份數據，半個小時要出來之類；Hive嘛，就是一個產品經理過來，問這個啥回事?於是你Hive一下，一個簡潔的類SQL語句...Done！

10. hive的源代碼的編譯與調試怎麼做

windows自帶的記事本只能做編輯源代碼使用，要編譯需要有編譯器才行，找些其他的集成化軟體，編輯編譯連接調試集成一體的，如vc6.0，wintc等

導航:首頁 > 源碼編譯 > hive源碼閱讀

hive源碼閱讀

與hive源碼閱讀相關的資料