導航:首頁 > 編程語言 > pythonhiveservice

pythonhiveservice

發布時間:2023-04-13 09:08:26

python 連接hive後處理導出excel 問題

你的原始數據裡面有空值,因此導致的錯誤,在寫入或者讀取之前填充以下缺失值,或者先對要寫入或者讀取的數據判斷下是否為空,再做操作。
要不然你就加入try except,來主動跳過

㈡ win7 運行python寫的service

大哥,python程序不是你這樣運行的。

到底如何運行的?
我寫了教程了,都是截圖和詳盡的解釋,你看一眼,就知道了:

1

python初級教程:入門詳解

裡麵包括:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

4.1. 如何在Windows環境下開發Python
4.1.1. Python的最原始的開發方式是什麼樣的
4.1.1.1. 找個文本編輯器,新建個.py文件,寫上Python代碼
4.1.1.2. 打開Windows的cmd,並且切換到對應的python腳本所在目錄
4.1.1.2.1. 方法1:手動打開cmd,並cd到對應路徑
4.1.1.2.2. 方法2:通過Notepad++的Open current dir cmd
4.1.1.3. 在早沖cmd中去運行你的Python腳本(.py文件)
4.1.2. 利用Python的shell進行互動式開發又是什麼樣的
4.1.2.1. 命令行版本的Python Shell – Python (command line)
4.1.2.2. 帶圖形界面的Python Shell – IDLE (Python GUI)
4.1.2.3. 關於(command line或GUI版本的)Python Shell的用途
4.1.3. 利用第三方Python的IDE進行Python開發又是怎麼回事
4.1.3.1. 為何會有Python的IDE
4.1.3.2. 目前常見的一些Python的IDE
4.1.3.3. Python的IDE和Python代碼編輯器,Windows的cmd,等的關系
4.1.3.4. 使用IDE時所輪毀遇到的一些常見的問題
4.1.3.4.1. IDE只能夠打開了文件,並不代表就已經在shell中運行了該文件
4.1.3.4.2. 需要注意,確保有可以運行的Python起始部分的代碼
4.1.4. 總結:到底使用哪種環境去開發Python
4.1.4.1. 對初學者的建議:如何選用Python的開發環境

註:這里無法貼地址,google搜標題即可找到。

「沒有效果啊,還是那個樣子」
沒有報錯的,說明正常運行了。
但是具體細節,由於沒有你的Python文件源碼,不知道其是如何處理的。
看到你的運行的命令,推測:

你的程序,處理了(輸入文件)
(或許輸出了,處理後的數據文件)
所以:
你自己,運行了代碼後
去對應的文件夾下,看看是否有相關的輸出文件
比如你的:sample1_out.txt
估計就是你要的:
」效果「
了。陸桐殲

㈢ python怎麼讀取hive元數據,執行大sql

#!/usr/早坦臘bin/陸滑env pythonimport syssys.path.append('/usr/local/hive-0.10.0/lib/py'信宴)from hive_service import ThriftHivefrom hive_service.ttypes import HiveServerExceptionfrom thrift import Thriftfrom thrift.transport import TSocketf...

㈣ python如何增量讀取hive數據,每次執行腳本把上次的結果做基準,列印出新增的部分

1.讀取文本文件數據(.txt結尾的文件)或日誌文件(.log結尾的文件)list0與list1分別為文檔中的第一列數據與第二列數據。

㈤ windows下怎麼用python連接hive資料庫

由於版本的不同,Python 連接 Hive 的方式也就不一樣。
在網上搜索關鍵字 python hive 的時候可以找到一些解決方案。大部分是這樣的,首先把hive 根目錄下的$HIVE_HOME/lib/py拷貝到 python 的庫中,也就是 site-package 中,或者乾脆把新寫的 python 代碼和拷貝的 py 庫放在同一個目慧帶錄下,然後用這個目錄下提供的 thrift 介面調用。示例也是非常簡單的。類似這樣:
import sys
from hive_service import ThriftHive
from hive_service.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
def hiveExe(sql):
try:
transport = TSocket.TSocket('127.0.0.1', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()
client.execute(sql)
print "The return value is : "
print client.fetchAll()
print "............"
transport.close()
except Thrift.TException, tx:
print '%s' % (tx.message)
if __name__ == '__main__':
hiveExe("show tables"前改蘆)171819202122232425262728
或者是這樣的:
#!/usr/bin/env python
import sys
from hive import ThriftHive
from hive.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
try:
transport = TSocket.TSocket('14.18.154.188', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()
client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
client.execute("殲衡SELECT * FROM test1")
while (1):
row = client.fetchOne()
if (row == None):
break
print rowve
client.execute("SELECT * FROM test1")
print client.fetchAll()
transport.close()
except Thrift.TException, tx:
print '%s' % (tx.message)

但是都解決不了問題,從 netstat 中查看可以發現 TCP 連接確實是建立了,但是不執行 hive 指令。也許就是版本的問題。
還是那句話,看各種中文博客不如看官方文檔。
項目中使用的 hive 版本是0.13,此時此刻官網的最新版本都到了1.2.1了。中間間隔了1.2.0、1.1.0、1.0.0、0.14.0。但是還是參考一下官網的方法試試吧。
首先看官網的 setting up hiveserver2
可以看到啟動 hiveserver2 可以配置最大最小線程數,綁定的 IP,綁定的埠,還可以設置認證方式。(之前一直不成功正式因為這個連接方式)然後還給了 python 示例代碼。
import pyhs2
with pyhs2.connect(host='localhost',
port=10000,
authMechanism="PLAIN",
user='root',
password='test',
database='default') as conn:
with conn.cursor() as cur:
#Show databases
print cur.getDatabases()
#Execute query
cur.execute("select * from table")
#Return column info from query
print cur.getSchema()
#Fetch table results
for i in cur.fetch():
print
在拿到這個代碼的時候,自以為是的把認證信息給去掉了。然後運行發現跟之前博客里介紹的方法結果一樣,建立了 TCP 連接,但是就是不執行,也不報錯。這是幾個意思?然後無意中嘗試了一下原封不動的使用上面的代碼。結果可以用。唉。。。
首先聲明一下,hive-site.xml中默認關於 hiveserver2的配置我一個都沒有修改,一直是默認配置啟動 hiveserver2。沒想到的是默認配置是有認證機制的。
然後再寫一點,在安裝 pyhs2的時候還是遇到了點問題,其實還是要看官方文檔的,我只是沒看官方文檔直接用 pip安裝導致了這個問題。安裝 pyhs2需要確定已經安裝了幾個依賴包。直接看在 github 上的 wiki 吧。哪個沒安裝就補上哪一個就好了。

㈥ 怎麼獲取hive組件服務可用狀態

步驟
Hive提供了jdbc驅動,使得我們可以連接Hive並進行一些類關蔽叢系型資料庫的sql語句查詢等操作,首先我們宏巧櫻需要將這些驅動拷貝到報表工程下面,然後再建立連接,最後通過連接進行數據查詢。
拷貝jar包到FR工程
將hadoop里的hadoop-common.jar拷貝至報表工程appname/WEB-INF/lib下;
將hive里的hive-exec.jar、hive-jdbc.jar、寬閉hive-metastore.jar、hive-service.jar、libfb303.jar、log4j.jar、slf4j-api.jar、slf4j-log4j12.jar拷貝至報表工程appname/WEB-INF/lib下。
配置數據連接
啟動設計器,打開伺服器>定義數據連接,新建JDBC連接。

㈦ hive的service服務怎麼通過zookeeper連接

1、hive 命令行模式,直接輸入/hive/bin/hive的執行程序,或者輸入 hive --service cli 用於linux平台命令行查詢,查詢語句基本跟mysql查或前詢語句類似 2、 hive web界面的 (埠號衫檔清9999) 啟動方式 hive –service hwi & 用於通過瀏覽蠢顫器來訪問hive,...

㈧ python連接hive,怎麼安裝thrifthive

HiveServer2的啟動

啟動HiveServer2

HiveServer2的啟動十分簡便:

$ $HIVE_HOME/bin/hiveserver2

或者

$ $HIVE_HOME/bin/hive --service hiveserver2

默認情況下,HiverServer2的Thrift監聽埠是10000,其WEB UI埠是10002。可通過http://localhost:10002來查看HiveServer2的Web UI界面,這里顯示了Hive的一些基本信息。如果Web界面不能查看,則說明HiveServer2沒有成功運行。

使用beeline測試客戶端連接

HiveServer2成功運行後,我們可以使用Hive提供的客戶端工具beeline連接HiveServer2。

$ $HIVE_HOME/bin/beeline

beeline > !connect jdbc:hive2://localhost:10000

如果成功登錄將出現如下的命令提示符,此時可以編寫HQL語句。

0: jdbc:hive2://localhost:10000>

報錯:User: xxx is not allowed to impersonate anonymous

在beeline使用!connect連接HiveServer2時可能會出現如下錯誤信息:

Caused by: org.apache.hadoop.ipc.RemoteException:
User: xxx is not allowed to impersonate anonymous

這里的xxx是我的操作系統用戶名稱。這個問題的解決方法是在hadoop的core-size.xml文件中添加xxx用戶代理配置:

<property> <name>hadoop.proxyuser.xxx.groups</name> <value>*</value></property><property> <name>hadoop.proxyuser.xxx.hosts</name> <value>*</value></property>

重啟HDFS後,再用beeline連接HiveServer2即可成功連接。

常用配置

HiveServer2的配置可以參考官方文檔《Setting Up HiveServer2》

這里列舉一些hive-site.xml的常用配置:

hive.server2.thrift.port:監聽的TCP埠號。默認為10000。

hive.server2.thrift.bind.host:TCP介面的綁定主機。

hive.server2.authentication:身份驗證方式。默認為NONE(使用 plain SASL),即不進行驗證檢查。可選項還有NOSASL, KERBEROS, LDAP, PAM and CUSTOM.

hive.server2.enable.doAs:是否以模擬身份執行查詢處理。默認為true。

Python客戶端連接HiveServer2

python中用於連接HiveServer2的客戶端有3個:pyhs2,pyhive,impyla。官網的示例採用的是pyhs2,但pyhs2的官網已聲明不再提供支持,建議使用impyla和pyhive。我們這里使用的是impyla。

impyla的安裝

impyla必須的依賴包括:

㈨ Python 連接hive(Linux)

之所以選擇基於Linux系統用Python連接hive,是因為在window下會出現Hadoop認證失敗的問題。會出現執行python腳本的機器無目標hive的kerberos認證信息類似錯誤,也會出現sasl調用問題:

該錯誤我嘗試多次,未能解決(有知道window下解決方案的歡迎留言),所以建議使用Linux系統。

VMware Workstation +Ubuntu

網上教程很多,本文推薦一個教程: https://blog.csdn.net/stpeace/article/details/78598333

主要是以下四個包:

在安裝包sasl的過程會出現麻煩,主要是Ubuntu中缺乏sasl.h的問題,這里可以通過下面語句解決

這和centos有一些區別。

本文是基於本機虛擬機用Python連接的公司測試環境的hive(生產環境和測試環境是有隔離的,生產環境需要堡壘機才能連接)

因缺乏工程和計算機基礎的知識,對很多的地方都了解的不夠深入,歡迎大神指點,最後向以下兩位大佬的帖子致謝:
[1] https://www.hu.com/question/269333988/answer/581126392
[2] https://mp.weixin.qq.com/s/cdFxkphMtJASQ7-nKt13mg

㈩ python連接hive的時候必須要依賴sasl類庫嗎

客戶端連接Hive需要使用HiveServer2。HiveServer2是HiveServer的重寫版本,HiveServer不支持多個客戶端的並發請求。當前HiveServer2是基於Thrift RPC實現的。它被設計用於為像JDBC、ODBC這樣的開發API客戶端提供更好的支持。Hive 0.11版本引入的HiveServer2。

HiveServer2的啟動

啟動HiveServer2

HiveServer2的啟動十分簡便:

$ $HIVE_HOME/bin/hiveserver2

或者

$ $HIVE_HOME/bin/hive --service hiveserver2

默認情況下,HiverServer2的Thrift監聽埠是10000,其WEB UI埠是10002。可通過來查看HiveServer2的Web UI界面,這里顯示了Hive的一些基本信息。如果Web界面不能查看,則說明HiveServer2沒有成功運行。

使用beeline測試客戶端連接

HiveServer2成功運行後,我們可以使用Hive提供的客戶端工具beeline連接HiveServer2。

$ $HIVE_HOME/bin/beeline

beeline > !connect jdbc:hive2://localhost:10000

如果成功登錄將出現如下的命令提示符,此時可以編寫HQL語句。

0: jdbc:hive2://localhost:10000>

報錯:User: xxx is not allowed to impersonate anonymous

在beeline使用!connect連接HiveServer2時可能會出現如下錯誤信息:

12Caused by: org.apache.hadoop.ipc.RemoteException:User: xxx is not allowed to impersonate anonymous

這里的xxx是我的操作系統用戶名稱。這個問題的解決方法是在hadoop的core-size.xml文件中添加xxx用戶代理配置:

123456789<spanclass="hljs-tag"><<spanclass="hljs-title">property><spanclass="hljs-tag"><<spanclass="hljs-title">name>hadoop.proxyuser.xxx.groups<spanclass="hljs-tag"></<spanclass="hljs-title">name><spanclass="hljs-tag"><<spanclass="hljs-title">value>*<spanclass="hljs-tag"></<spanclass="hljs-title">value><spanclass="hljs-tag"></<spanclass="hljs-title">property><spanclass="hljs-tag"><<spanclass="hljs-title">property><spanclass="hljs-tag"><<spanclass="hljs-title">name>hadoop.proxyuser.xxx.hosts<spanclass="hljs-tag"></<spanclass="hljs-title">name><spanclass="hljs-tag"><<spanclass="hljs-title">value>*<spanclass="hljs-tag"></<spanclass="hljs-title">value><spanclass="hljs-tag"></<spanclass="hljs-title">property></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span>

重啟HDFS後,再用beeline連接HiveServer2即可成功連接。

常用配置

HiveServer2的配置可以參考官方文檔《Setting Up HiveServer2》

這里列舉一些hive-site.xml的常用配置:

hive.server2.thrift.port:監聽的TCP埠號。默認為10000。

hive.server2.thrift.bind.host:TCP介面的綁定主機。

hive.server2.authentication:身份驗證方式。默認為NONE(使用 plain SASL),即不進行驗證檢查。可選項還有NOSASL, KERBEROS, LDAP, PAM and CUSTOM.

hive.server2.enable.doAs:是否以模擬身份執行查詢處理。默認為true。

Python客戶端連接HiveServer2

python中用於連接HiveServer2的客戶端有3個:pyhs2,pyhive,impyla。官網的示例採用的是pyhs2,但pyhs2的官網已聲明不再提供支持,建議使用impyla和pyhive。我們這里使用的是impyla。

impyla的安裝

impyla必須的依賴包括:

閱讀全文

與pythonhiveservice相關的資料

熱點內容
plc編程視頻教程大全 瀏覽:938
直播用哪個app播放背景音樂 瀏覽:850
點歌機系統app在哪裡下載 瀏覽:609
javadate類型轉換string 瀏覽:694
RPG游戲解壓後亂碼 瀏覽:988
無線通信的幾個密鑰演算法 瀏覽:644
王者榮耀app數據修復在哪裡 瀏覽:429
基於單片機飲水機溫度控制系統的設計 瀏覽:455
c中委託被編譯後的結構 瀏覽:152
飛燕app怎麼注銷賬號 瀏覽:895
cad命令縮小 瀏覽:154
linux發展史 瀏覽:629
伺服器選用什麼CPU比較好 瀏覽:334
明星怎麼宣傳安卓 瀏覽:953
8255晶元編程 瀏覽:65
java文件bat運行 瀏覽:747
java常見筆試 瀏覽:529
360程序員模式 瀏覽:363
AQS演算法的查詢樹構造 瀏覽:329
小豬微信營銷源碼 瀏覽:12