❶ 小白想轉行做大數據,怎麼入行
大數據技術專業屬於交叉學科:以統計學、數學、計算機為三大支撐性學科;生物、醫學、環境科學、經濟學、社會學、管理學為應用拓展性學科。
此外還需學習數據採集、分析、處理軟體,學習數學建模軟體及計算機編程語言等,知識結構是二專多能復合的跨界人才(有專業知識、有數據思維)。
大數據時代則對從業人員素質的要求越來越高,因為數據處理變得越來越復雜,數據人才的競爭也越來越激烈,很多大公司都在尋找尖端人才。而且,大到國防、金融,小到跟生活息息相關的物流、購物、醫療、交通等,都日益需要大數據的支撐。大數據正在成為一門「顯學」。
對於大數據開發的學習,重在掌握基本知識以及實踐應用,合理安排基礎知識的學習,可以起到事半功倍的效果,以下是比較經典的大數據開發學習路線:
第一階段:javaSE+MySql+linux
Java語言入門 → OOP編程 → Java常用Api、集合 → IO/NIO → Java實用技術 → Mysql資料庫 → 階段項目實戰 → Linux基礎 → shell編程
第二階段:Hadoop與生態系統
Hadoop → MapRece → Avro → Hive → Hbase → Zookeeper → Flume → Kafka → Sqoop → Pig
第三階段:Storm與Spark及其生態圈
Storm → Scala → Spark → Spark SQL → Spark Streaming → Spark機器學習
第四階段:其他
Mahout機器學習 → R語言 → python
第五階段:項目實戰、技術綜合運用
希望對您有所幫助!~
❷ impala和hive的區別有什麼
impala和hive的區別主要有以下幾個:❸ 程序中的Hive具體是干什麼用的呢
Hive是基於Hadoop平台的數倉工具,具有海量數據存儲、水平可擴展、離線批量處理的優點,解決了傳統關系型數倉不能支持海量數據存儲、水平可擴展性差等問題,但是由於Hive數據存儲和數據處理是依賴於HDFS和MapRece,因此在Hive進行數據離線批量處理時,需將查詢語言先轉換成MR任務,由MR批量處理返回結果,所以Hive沒法滿足數據實時查詢分析的需求。
Hive是由FaceBook研發並開源,當時FaceBook使用Oracle作為數倉,由於數據量越來越大,Oracle數倉性能越來越差,沒法實現海量數據的離線批量分析,因此基於Hadoop研發Hive,並開源給Apacha。
由於Hive不能實現數據實時查詢交互,Hbase可提供實時在線查詢能力,因此Hive和Hbase形成了良性互補。Hbase因為其海量數據存儲、水平擴展、批量數據處理等優點,也得到了廣泛應用。
Pig與HIVE工具類似,都可以用類sql語言對數據進行處理。但是他們應用場景有區別,Pig用於數據倉庫數據的ETL,HIVE用於數倉數據分析。
從架構圖當中,可看出Hive並沒有完成數據的存儲和處理,它是由HDFS完成數據存儲,MR完成數據處理,其只是提供了用戶查詢語言的能力。Hive支持類sql語言,這種SQL稱為Hivesql。用戶可用Hivesql語言查詢,其驅動可將Hivesql語言轉換成MR任務,完成數據處理。
【Hive的訪問介面】
CLI:是hive提供的命令行工具
HWI:是Hive的web訪問介面
JDBC/ODBC:是兩種的標準的應用程序編程訪問介面
Thrift Server:提供異構語言,進行遠程RPC調用Hive的能力。
因此Hiv具備豐富的訪問介面能力,幾乎能滿足各種開發應用場景需求。
【Driver】
是HIVE比較核心的驅動模塊,包含編譯器、優化器、執行器,職責為把用戶輸入的Hivesql轉換成MR數據處理任務
【Metastore】
是HIVE的元數據存儲模塊,數據的訪問和查找,必須要先訪問元數據。Hive中的元數據一般使用單獨的關系型資料庫存儲,常用的是Mysql,為了確保高可用,Mysql元資料庫還需主備部署。
架構圖上面Karmasphere、Hue、Qubole也是訪問HIVE的工具,其中Qubole可遠程訪問HIVE,相當於HIVE作為一種公有雲服務,用戶可通過互聯網訪問Hive服務。
Hive在使用過程中出現了一些不穩定問題,由此發展出了Hive HA機制,
❹ 大數據分析需要哪些工具
說到大數據,肯定少不了分析軟體,這應該是大數據工作的根基,但市面上很多各種分析軟體,如果不是過來人,真的很難找到適合自己或符合企業要求的。小編通過各大企業對大數據相關行業的崗位要求,總結了以下幾點:
(1)SQL資料庫的基本操作,會基本的數據管理
(2)會用Excel/SQL做基本的數據分析和展示
(3)會用腳本語言進行數據分析,Python or R
(4)有獲取外部數據的能力,如爬蟲
(5)會基本的數據可視化技能,能撰寫數據報告
(6)熟悉常用的數據挖掘演算法:回歸分析、決策樹、隨機森林、支持向量機等
對於學習大數據,總體來說,先學基礎,再學理論,最後是工具。基本上,每一門語言的學習都是要按照這個順序來的。
1、學習數據分析基礎知識,包括概率論、數理統計。基礎這種東西還是要掌握好的啊,基礎都還沒扎實,知識大廈是很容易倒的哈。
2、你的目標行業的相關理論知識。比如金融類的,要學習證券、銀行、財務等各種知識,不然到了公司就一臉懵逼啦。
3、學習數據分析工具,軟體結合案列的實際應用,關於數據分析主流軟體有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。
4、學會怎樣操作這些軟體,然後是利用軟體從數據的清洗開始一步步進行處理,分析,最後輸出結果,檢驗及解讀數據。
❺ spark thrift server 與 網易 kyuubi thrift server
thrift server可以實現通過jdbc, beeline等工具,實現連接到spark集群,並提交sql查詢的機制。
默認情況下,cdh安裝的spark沒有包含thrift server模塊,因此我們需要重新編譯spark。
另外,為了不影響cdh自帶的spark,而且spark目前都是基於yarn運行的,本身也沒有什麼獨立的服務部署(除了history sever)。
所以,在一個集群中,可以部署安裝多個版本的spark。
我們使用源碼編譯的spark 2.4.0(其中hive的版本是1.2.1)
cdh集成的spark版本和Hive版本如下:
使用jdk1.8
修改spark提供的mvn,使用自行安裝的maven 3.8.1
使用make-distribution.sh可以幫助與我們編譯之後打包成tgz文件
修改pom.xml文件的配置如下。
最後,執行編譯命令如下:
這樣打出的包,就含有thrift server的jar包了。
最終打包文件,根目錄下。
之後就是解壓到其他目錄下後即可。
將hive-site.xml的文件連接過來,這樣spark就可以讀取hive的表了。
為了確保spark提交到yarn上運行,需要配置
cp spark-defaults.conf.template spar-defaults.conf
另外,可以在spark-env.sh中設置環境變數。
HADOOP_CONF_DIR
環境變數,也可以在/etc/profile中設置
啟動日誌可以查看,注意下埠佔用問題,如下。
啟動時候,使用beeline工具連接上,主要這里不用使用cdh默認安裝hive提供的beeline工具,應為版本太高。
使用編譯後spark生成beeline工具
參考beeline使用教程。
https://github.com/apache/incubator-kyuubi
kyuubi是基於thrift sever二次開發,在系能和安全上優於thrift server。
鑒於目前hive的版本是2.1,而最新的kyuubi的hive是2.3,所以採用前天版本的kyuubi,採用0.7版本,保證hive的版本小於當前集群中的hive版本。
使用build目錄下的dist腳本進行編譯和打包。
編譯成功後,會在更目錄下出現tar.gz的壓縮文件,如上圖。
之後解壓到目錄下。
配置bin/kyuubi-env.sh腳本,設置spark路徑
執行bin/start-kyuubi.sh命令即可。
訪問的方式同樣採用beelin,注意使用上面章節的beeline工具。
訪問後,可以通過beeline訪問到hive的表(在spark中已經配置了hive-site.xml)
!connect jdbc: hive2://xxxx:10009 即可。
❻ 我想學習hive,請問安裝hive之前,必須安裝centos、hadoop、java這些嗎
安裝需要
java 1.6,java 1.7或更高版本。
Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x
Linux,mac,windows操作系統。以下內容適用於linux系統。
安裝打包好的hive
需要先到apache下載已打包好的hive鏡像,然後解壓開該文件
$ tar -xzvf hive-x.y.z.tar.gz
設置hive環境變數
$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}
設置hive運行路徑
$ export PATH=$HIVE_HOME/bin:$PATH
編譯Hive源碼
下載hive源碼
此處使用maven編譯,需要下載安裝maven。
以Hive 0.13版為例
編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
運行hive
Hive運行依賴於hadoop,在運行hadoop之前必需先配置好hadoopHome。
export HADOOP_HOME=<hadoop-install-dir>
在hdfs上為hive創建\tmp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄,然後你才可以運行hive。
在運行hive之前設置HiveHome。
$ export HIVE_HOME=<hive-install-dir>
在命令行窗口啟動hive
$ $HIVE_HOME/bin/hive
若執行成功,將看到類似內容如圖所示
❼ 軟體開發一般學什麼
IT技術領域可以分為18個領域:
人工智慧,雲計算,大數據,區塊鏈,物聯網,設計,Web開發,移動開發, 游戲 開發,服務端開發,資料庫,架構,測試,運維,網路管理,安全技術,認證考試,信息化建設。
軟體開發一般指web開發、移動開發、 游戲 開發、服務端開發、資料庫這幾類,你可以選擇其中一類或幾類學習和研究,現在比較火的屬於移動開發和 游戲 開發了。技術其實都是觸類旁通的,能學號一個,就能學號好外一個。
高端的軟體開發就是人工智慧、雲計算、大數據、區塊鏈、物聯網等,這里就不深入討論。先從基本的軟體開發開始吧。
web開發:
移動開發
游戲 開發
服務端開發
資料庫
作為一名計算機專業的研究生導師,我來回答一下這個問題。
在當前的大數據時代背景下,計算機相關專業受到了廣泛的關注,也是當前的熱門專業。軟體開發專業主要涉及到三方面知識結構,分別是基礎學科、計算機基礎以及軟體開發技術。
基礎學科包括高數、線性代數、概率論、離散數學、物理、數電、模電等課程,其中數學是軟體開發專業的重點課程,一定要引起足夠的重視。數學不僅是計算機專業考研的必考內容,對於軟體開發也具有重要的意義,因為軟體開發問題說到底就是數學問題。如果想在軟體開發的道路上有更好的發展,一定要有一個扎實的數學基礎。
計算機基礎課程包括操作系統體系結構、計算機網路、數據結構、演算法設計、編譯原理、編程語言、資料庫等內容,這些課程都是非常重要的基礎課,尤其是數據結構和演算法設計。對於軟體開發專業的學生來說,這些基礎課將為以後的讀研和工作打下扎實的基礎。一個比較好的學習方法是在本科階段讀一下Linux操作系統的核心源代碼,這樣不僅能夠系統的了解操作系統,也能夠鍛煉自己的編程能力。
軟體開發技術則主要針對於當前流行的技術方向,比如Web開發、大數據開發、移動互聯網開發等內容。不同的學校通常會有具體的細分方向,學生可以根據自身的知識結構和興趣愛好進行選擇。如果學習能力比較強,可以考慮一下大數據開發方向,當前正處在大數據落地應用的初期,所以未來大數據開發崗位會比較多,就業前景也比較值得期待。
如果有互聯網方面的問題,或者考研方面的問題,都可以咨詢我,謝謝!
1、一門編程語肢困言(C、C++、Java、php、Python、Html等),
2、熟悉一種操作系統(Windows、Unix、Linux/類Linux、Android、IOS等),
3、簡單的演算法和數據結構。
先確定你學習完軟體開發後想從事的工作,比如 游戲 開發(LOL,吃雞,手游等);前端開發(網頁、微信小 游戲 、Android/IOS APP等);後台伺服器,資料庫(支撐前端運行的技術和數據);嵌入式(驅動、單片機等)。
確定方向後,再選擇相應的編程語言,如 游戲 開發(C++為主);網站,小 游戲 (H5/CSS/js等)、Android(Java為主);IOS(消飢禪Objective-C、switch);後台伺服器(Java、Python等);資料庫(MySQL、Oracle、SQL Server等);嵌入式(C、匯編等)
如果選擇學習Java,建議來我們學校實地拿塵考察。我們作為一個12年的老牌培訓機構,專業只教Java語言,且有專業團隊為不同學習需求的學員打造的不同課程,十幾年未變,是學員們口口相傳,靠譜的Java培訓學校!找一家適合自己的培訓機構主要看他的專業程度,口碑,師資力量還有課程,建議可以多找幾家培訓機構線下實地考察一下~而且現在成都也有分校啦!有意向的小夥伴可以前去一試~
如果你想成為一名java軟體工程師,我給你整些具體的技術,掌握這些技術,你基本可以成為一名高級軟體工程師了。別看回答者說到的什麼人工智慧,物聯網,區塊鏈什麼的,相信我,一般軟體開發根本用不到。我是一名5年經驗的軟體工程師,相信我。
jdbc、servlet、jsp、struts、hibernate、jpa、spring、springmvc、springboot、springcloud、mybatis、mysql、mongodb、maven、gradle、git、nginx、redis、memcache、bbo、zookeeper、tomcat、netty、jetty、kafka、docker、k8s、linux、hadoop、spark、hive、hdfs、hbase、sqoop、flume等。
掌握這些技術,然後再加強自己軟技能的培養,溝通,協作等能力,你就算的上一名優秀的軟體工程師了。
軟體開發需要學習的東西很多,但也不是一天就學完,很多知識可能需要幾個月、幾年甚至十幾年去學習。不過對於一個初學者來說,主要還是以掌握一兩門語言、基本演算法、一兩種資料庫為主,下面簡單介紹一下。
一、語言。推薦Java、csharp、php或者Python。不建議C++,因為現在大多數是web項目,以上幾種語言對於web開發非常合適。
二、演算法。純粹的演算法學習不是很多,很多演算法學習都融合到語言學習中。比如排序演算法、過濾演算法、搜索演算法等等。在高級語言的列表、字典和數組類型,基本上都包含了這些演算法。
三、資料庫。目前中小型web項目的資料庫以MySQL為多,所以建議學習MySQL,也有的公司使用sqlserver,有時間可以學一下,此外,移動端使用sqlite小型資料庫,可以掌握一下。
除此之外,就是要了解一些編程調試的基本方法,也要了解一些實施部署的套路,就基本上可以應付一些開發工作了。
什麼叫軟體開發?就是通過計算機所識別的計算機語言來開發系統,從而解決生活,工作或者是學習中遇到的問題,更加的方便人們的工作和學習。
先學習一門編程語言,目前企業用的最多的就是Java了,很多企業的軟體,系統,網站都是用Java來開發的。
以前學習Java是在「如鵬網」上學習的,有詳細的教程和學習路線,可以作為參考。
1、Java基礎,還是挺不錯的,通過開發超級瑪麗,飛機大戰,吃金幣,連連看,湯姆貓,電影的彈幕動畫等來講解Java的基礎知識點,做出這些項目來還是蠻有成就感的
2、Java高級技術
3、web前端
4、Java web(核心階段)
5、框架
6、企業項目實戰
7、企業專題
有網路的地方就可以學習,根據自己的時間來靈活安排學習進度,每個章節的後面都有相應的練習和面試,需要通過錄音的方式來進行提交,夯實基礎,為面試做准備,有新的課程更新了,也是可以繼續來學習的。
有需要相關Java教程的可在後台私信哦(備註:Java)。
一般大學的軟體開發課程:面向對象程序設計、計算機組成原理、操作系統、數據結構、計算 機網路、軟體工程、編譯原理、分布式系統、軟體項目管理、Oracle資料庫系統等。
但是個人認為學習軟體開發,除了以上那些課程,還需要大量的項目實戰課,實戰的最終目的是全面提高學生的職業素質,最終達到學生滿意就業、企業滿意用人的目的。合理的實戰教育本應該是大學教育的一個重要組成部分,但是目前卻成為了 社會 培訓機構、企業內訓的責任。對於學生來說,通過實站課程,一方面可以增加實踐經驗;另一方面,可以降低就業的成本和風險;增加就業的機會;實戰教學是有一定理論基礎的學生,在擁有多年實戰經驗老師的指導下,在真實條件下,最終達到企業的用人要求,並獲得國家認可的職業資格證書的過程。所以實戰課程在大學也應該是必不可少的。
當初再幫我弟弟找大學的時候,我看到一所學校的課程還是挺靠譜的,也就是現在他們的學校,以下是我在他們官網上面截下來的課程截圖。
他們除了基礎課以外,還有一些實戰課程以及職業規劃課,以前不覺得項目實戰課有多重要,只是後來我弟弟在傳智專修學院學習的時候,他們老師經常帶他們做實戰項目,完全模擬企業實際項目開發的場景,從項目經理到搭建項目架構到最後組合項目,每個人的開發經驗都相當成熟,如果時間允許的話,他們甚至可以具備單獨開發項目的能力,相對於當初計算機專業畢業的我來說,我當初畢業的時候寫個網頁都困難,更何況寫項目,還得經過企業長時間的培養和鍛煉才具備他們現在具備的能力。他們現在不管對於自身還是企業來說都是非常有利的,對於自身來說節省了中間的過程,對於企業來說節省了培養一個新人的成本。所以個人感覺實戰課程還是挺重要的。
所以當你在選擇學校的時候,可以多研究一下他們的課程設置,這是經驗所得,希望可以幫助到你。
如果只是為了開發某一個小軟體,達到某一個功能的話,還不如找人家給你做了,花點錢就能解決了,不需要花費大量時間學習。如果是為了從事軟體開發的話,建議學習python 網上教程多,簡單易入門。
軟體開發是一個廣義的概念,其中包含了很多技術方向,如前端和後端,而前端又可以細分為UE、UI、前端程序員,後端也可以細分為java、php、C#、GO、Ruby、C、C++、Python等。而目前人數最多且比較容易就業的就應該是java後端開發人員了,而我也是一名java後端開發人員,所以具體介紹下如果想要做一名java開發,需要學哪些技術。
滿足以上幾點,你已經是一名合格的初級開發人員了,其他的包括技術和業務就需要在工作中慢慢的積累了。
以上為個人觀點,歡迎在評論中發表自己不同的觀點,喜歡的加個關注,謝謝。
現在小學已經開始教授軟體開發的相關課程了,所以掌握軟體開發在未來 社會 發展中占據著重要的地位,如果之前沒有軟體開發的相關學習自學起來還是有些麻煩的,不同的程序語言學習路線是不同的,單純從掌握語言的角度看一般可以這么開始學習:
1)找一本好的學習教材。建議最好是紙質的,雖然現在網路上各種資料比較容易找到,但是書上寫的一般還是比較系統和基礎的。從最初的開發環境配置到一些簡單的項目開發都會有關鍵代碼提供,這樣學習起來會比較直接。現在視頻教育網站也很多,也可以看視頻學習。只不過在一段視頻和多個視頻之間切換時沒有翻書那麼方便。
2)准備一台電腦。軟體開發最關鍵的是實際動手的能力,它比機械,建築等行業好的太多,一個人在家坐著就可以實際動手操作積累項目經驗。按照教材從最基礎的開發環境配置到基礎語言熟悉再到簡單項目實踐,教材中的代碼都自己敲過一遍並且正確運行過,這樣就可以算是基礎軟體開發了。
3)找技術論壇,公眾號。在看書的過程中總會遇到一時理解不了的問題,這個時候就要去專門的論壇找答案了,這個也是培養自己解決問題的能力,是軟體開發人員的基礎能力,通常高級開發人員並不是什麼都懂,只不過他們知道解決問題的技巧能比別人更快的解決問題。
4)多於同道中人溝通,他們也會介紹自己的學習方法和學習經歷,這樣可以減少自己走彎路的代價,同時也鍛煉了自己的表達能力,是掌握知識的有效捷徑。
當一門開發語言學習的差不多了可以再學習資料庫相關知識,操作系統相關知識,軟體開發不是單獨的程序語言學習,還包括了很多其它計算機知識的學習。希望有自學軟體開發的小夥伴都能有恆心和毅力堅持下來。
❽ 大數據分析應該掌握哪些基礎知識
Java基礎語法
· 分支結構if/switch
· 循環結構for/while/do while
· 方法聲明和調用
· 方法重載
· 數組的使用
· 命令行參數、可變參數
IDEA
· IDEA常用設置、常用快捷鍵
· 自定義模板
· 關聯Tomcat
· Web項目案例實操
面向對象編程
· 封裝、繼承、多態、構造器、包
· 異常處理機制
· 抽象類、介面、內部類
· 常有基礎API、集合List/Set/Map
· 泛型、線程的創建和啟動
· 深入集合源碼分析、常見數據結構解析
· 線程的安全、同步和通信、IO流體系
· 反射、類的載入機制、網路編程
Java8/9/10/11新特性
· Lambda表達式、方法引用
· 構造器引用、StreamAPI
· jShell(JShell)命令
· 介面的私有方法、Optional加強
· 局部變數的類型推斷
· 更簡化的編譯運行程序等
MySQL
· DML語言、DDL語言、DCL語言
· 分組查詢、Join查詢、子查詢、Union查詢、函數
· 流程式控制制語句、事務的特點、事務的隔離級別等
JDBC
· 使用JDBC完成資料庫增刪改查操作
· 批處理的操作
· 資料庫連接池的原理及應用
· 常見資料庫連接池C3P0、DBCP、Druid等
Maven
· Maven環境搭建
· 本地倉庫&中央倉庫
· 創建Web工程
· 自動部署
· 持續繼承
· 持續部署
Linux
· VI/VIM編輯器
· 系統管理操作&遠程登錄
· 常用命令
· 軟體包管理&企業真題
Shell編程
· 自定義變數與特殊變數
· 運算符
· 條件判斷
· 流程式控制制
· 系統函數&自定義函數
· 常用工具命令
· 面試真題
Hadoop
· Hadoop生態介紹
· Hadoop運行模式
· 源碼編譯
· HDFS文件系統底層詳解
· DN&NN工作機制
· HDFS的API操作
· MapRece框架原理
· 數據壓縮
· Yarn工作機制
· MapRece案例詳解
· Hadoop參數調優
· HDFS存儲多目錄
· 多磁碟數據均衡
· LZO壓縮
· Hadoop基準測試
Zookeeper
· Zookeeper數據結果
· 內部原理
· 選舉機制
· Stat結構體
· 監聽器
· 分布式安裝部署
· API操作
· 實戰案例
· 面試真題
· 啟動停止腳本
HA+新特性
· HDFS-HA集群配置
Hive
· Hive架構原理
· 安裝部署
· 遠程連接
· 常見命令及基本數據類型
· DML數據操作
· 查詢語句
· Join&排序
· 分桶&函數
· 壓縮&存儲
· 企業級調優
· 實戰案例
· 面試真題
Flume
· Flume架構
· Agent內部原理
· 事務
· 安裝部署
· 實戰案例
· 自定義Source
· 自定義Sink
· Ganglia監控
Kafka
· 消息隊列
· Kafka架構
· 集群部署
· 命令行操作
· 工作流程分析
· 分區分配策略
· 數據寫入流程
· 存儲策略
· 高階API
· 低級API
· 攔截器
· 監控
· 高可靠性存儲
· 數據可靠性和持久性保證
· ISR機制
· Kafka壓測
· 機器數量計算
· 分區數計算
· 啟動停止腳本
DataX
· 安裝
· 原理
· 數據一致性
· 空值處理
· LZO壓縮處理
Scala
· Scala基礎入門
· 函數式編程
· 數據結構
· 面向對象編程
· 模式匹配
· 高階函數
· 特質
· 註解&類型參數
· 隱式轉換
· 高級類型
· 案例實操
Spark Core
· 安裝部署
· RDD概述
· 編程模型
· 持久化&檢查點機制
· DAG
· 運算元詳解
· RDD編程進階
· 累加器&廣播變數
Spark SQL
· SparkSQL
· DataFrame
· DataSet
· 自定義UDF&UDAF函數
Spark Streaming
· SparkStreaming
· 背壓機制原理
· Receiver和Direct模式原理
· Window原理及案例實操
· 7x24 不間斷運行&性能考量
Spark內核&優化
· 內核源碼詳解
· 優化詳解
Hbase
· Hbase原理及架構
· 數據讀寫流程
· API使用
· 與Hive和Sqoop集成
· 企業級調優
Presto
· Presto的安裝部署
· 使用Presto執行數倉項目的即席查詢模塊
Ranger2.0
· 許可權管理工具Ranger的安裝和使用
Azkaban3.0
· 任務調度工具Azkaban3.0的安裝部署
· 使用Azkaban進行項目任務調度,實現電話郵件報警
Kylin3.0
· Kylin的安裝部署
· Kylin核心思想
· 使用Kylin對接數據源構建模型
Atlas2.0
· 元數據管理工具Atlas的安裝部署
Zabbix
· 集群監控工具Zabbix的安裝部署
DolphinScheler
· 任務調度工具DolphinScheler的安裝部署
· 實現數倉項目任務的自動化調度、配置郵件報警
Superset
· 使用SuperSet對數倉項目的計算結果進行可視化展示
Echarts
· 使用Echarts對數倉項目的計算結果進行可視化展示
Redis
· Redis安裝部署
· 五大數據類型
· 總體配置
· 持久化
· 事務
· 發布訂閱
· 主從復制
Canal
· 使用Canal實時監控MySQL數據變化採集至實時項目
Flink
· 運行時架構
· 數據源Source
· Window API
· Water Mark
· 狀態編程
· CEP復雜事件處理
Flink SQL
· Flink SQL和Table API詳細解讀
Flink 內核
· Flink內核源碼講解
· 經典面試題講解
Git&GitHub
· 安裝配置
· 本地庫搭建
· 基本操作
· 工作流
· 集中式
ClickHouse
· ClickHouse的安裝部署
· 讀寫機制
· 數據類型
· 執行引擎
DataV
· 使用DataV對實時項目需求計算結果進行可視化展示
sugar
· 結合Springboot對接網路sugar實現數據可視化大屏展示
Maxwell
· 使用Maxwell實時監控MySQL數據變化採集至實時項目
ElasticSearch
· ElasticSearch索引基本操作、案例實操
Kibana
· 通過Kibana配置可視化分析
Springboot
· 利用Springboot開發可視化介面程序
❾ hive1和hive2的區別
1.用戶介面:Client
CLI(hive shell)、JDBC/ODBC(java訪問hive)、WEBUI(瀏覽器訪問hive)
2.元數據:Metastore
元數據包括:表名、表所屬的資料庫(默認是default)、表的擁有者、列/分區欄位、表的類型(是否是外部表)、表的數據所在目錄等;
默認存儲在自帶的derby資料庫中,推薦使用MySQL存儲Metastore
3.Hadoop
使用HDFS進行存儲,使用MapRece進行計算。
4.驅動器:Driver
(1)解析器(SQL Parser):將SQL字元串轉換成抽象語法樹AST,這一步一般都用第三方工具庫完成,比如antlr;對AST進行語法分析,比如表是否存在、欄位是否存在、SQL語義是否有誤。
(2)編譯器(Physical Plan):將AST編譯生成邏輯執行計劃。
(3)優化器(Query Optimizer):對邏輯執行計劃進行優化。
(4)執行器(Execution):把邏輯執行計劃轉換成可以運行的物理計劃。對於Hive來說,就是MR/Spark。
Hive通過給用戶提供的一系列交互介面,接收到用戶的指令(SQL),使用自己的Driver,結合元數據(MetaStore),將這些指令翻譯成MapRece,提交到Hadoop中執行,最後,將執行返回的結果輸出到用戶交互介面。
二:Hive的作用和優勢:
基於Hadoop的數據倉庫解決方案
Hive是基於Hadoop的一個數據倉庫工具,將結構化的數據文件映射為資料庫表。
提供類sql的查詢語言HQL(Hive Query Language)
數據不放在hive上,放在HDFS上
由Facebook開源用於解決海量結構化日誌的數據統計。
執行程序運行在Yarn上
優勢:
提供了簡單的優化模型
HQL類sql語法,簡化MR開發
支持在HDFS和HBase上臨時查詢數據
支持用戶自定義函數,格式
成熟JDBC和ODBC驅動程序,用於ETL和BI
穩定可靠的批處理
支持在不同計算框架運行
缺點:
Hive的執行延遲比較高,因此Hive常用於數據分析,對實時性要求不高的場合
迭代式演算法無法表達
數據挖掘方面不擅長
Hive自動生成的MapRece作業,通常情況下不夠智能化
Hive調優比較困難,粒度較粗