sparkpythonjava_怎樣使用Java 開發大數據

⑴ 學習spark，必須要會python嗎

使用Spark，Scala不是必須的，Spark有java、Python、R的API。
但是要想深入學習，還是建議學習Scala的。
如果你會Scala，Spark都不用怎麼學。因為一般的Scala程序就是這么寫的，用Spark的區別就是換了一套API而已.

⑵ 學習數據挖掘需不需要學習spark

學習數據挖掘是需要學習spark的。

學Spark是可以幫助數據挖掘十分有效的進行，同時出於任務管道承接的考慮，當產生多個Stage，需要基於底層文件系統來存儲每一個Stage的輸出結果，而且兼容HDFS、Hive，可融入Hadoop的生態系統，可以彌補MapRece的不足。Spark具有高效、易用、通用、兼容的特性，這些特性使得計算運行速度提高上百倍，還可以查詢優化程序和物理執行引擎，實現批量和流式數據的高性能。同時Spark支持Java、Python和Scala的API，還支持許多種高級演算法，使用戶可以快速構建不同的應用。可以非常方便地在這些shell中使用Spark集群來驗證解決問題的方法。Spark可以非常方便地與其他的開源產品進行融合。

關於大數據挖掘工程師的課程推薦CDA數據分析師的相關課程，課程培養學員硬性的數據挖掘理論與Python數據挖掘演算法技能的同時，還兼顧培養學員軟性數據治理思維、商業策略優化思維、挖掘經營思維、演算法思維、預測分析思維，全方位提升學員的數據洞察力。點擊預約免費試聽課。

⑶ python和php和java的區別

一、python虛擬機沒有java強，java虛擬機是java的核心，python的核心是可以很方便地使用c語言函數或c++庫。
二、python是全動態性的，可以在運行時自己修改自己的代碼，java只能通過變通方法實現。python的變數是動態的，而java的變數是靜態的，需要事先聲明，所以java ide的代碼提示功能優於python ide。
三，python的產生幾十年了，幾十年前面向過程是主流，所以用python有好多程序用的是面向過程設計方法，很多概念從c語言過來的，class在python中是後加入的，而java是為了實現沒有指針的c++（當年com組件用的引用記數，java用的虛擬機），主要採用面向對象的設計方法，很多概念是oop的概念。面向過程，相對簡潔直觀，但容易設計出面條程序，面向對象，相對抽象優雅，但容易過度抽象。
四，在實際使用的python入門簡單，但要學會用python幹活，需要再學習python各種庫，pyhton的強大在於庫，為什麼python的庫強大，原因是python的庫可以用python，c語言,c++等設計，再提供給python使用，所以無論gpu運行，神經網路，智能演算法，數據分析，圖像處理，科學計算，各式各樣的庫在等著你用。而java沒有python那麼多的開源庫，很多庫是商業公司內部使用，或發布出來只是一個jar包，看不到原始代碼。python虛擬機因為編譯性沒有java的支持的好（或者說故意這么設計的），一般直接使用源碼（linux），或源碼簡單打個包（如pyexe）。
五、python有很多虛擬機實現，如cython,Pyston,pypy,jython, IronPython等等，適合用於業務語言，或插件語言，或面向領域語言，而java因為虛擬機巨大，很少用於插件語言，發布也不方便。
六、java主要用於商業邏輯強的領域，如商城系統，erp，oa,金融，保險等傳統資料庫事務領域，通過類似ssh框架事務代碼，對商業資料庫，如oralce,db2,sql server等支持較好，軟體工程理念較強，適合軟體工程式的多人開發模式。python主要用於web數據分析，科學計算，金融分析，信號分析，圖像演算法，數學計算，統計分析，演算法建模，伺服器運維，自動化操作，快速開發理念強，適合快速開發團隊或個人敏捷模式。
七、java的商業化公司支持多，如sap,oracle,ibm等，有商業化的容器，中間件，企業框架ejb。python的開源組織支持多，如qt,linux,google,很多開源程序都支持python，如pyqt,redis,spark等。
八、python用途最多的是腳本，java用途最多的是web，pyhotn是膠水，可以把各類不相關的東西粘在一起用，java是基佬，可以通過軟體工程組成幾百個人的團隊和你pk，商業化氣息重。不過我認為還是python強大，因為可以方便調用c或c++的庫，但軟體工程和商業化運作沒有java好，適合快捷開發。

⑷ 大數據學習，為什麼要先學習java

學大數據部分之前要先學習一種計算機編程語言。【大數據開發】需要編程語言的基礎，因為大數據的開發基於一些常用的高級語言，比如Java和.Net。不論是hadoop，還是數據挖掘，都需要有高級編程語言的基礎。因此，如果想學習大數據開發，還是需要至少精通一門高級語言。

java具有簡單性、面向對象、分布式、健壯性、安全性、平台獨立與可移植性、多線程、動態性等特點。如果對java有一定的了解，就更應該清楚java是一個強類型編程語言，擁有極高的跨平台能力，還有就是java的異常處理能夠保證系統的穩定性。目前，【java語言】的應用也是很廣泛，對於學習大數據的人而言是很多人的選擇，hadoop及其它大數據處理技術都用到了java，像Apache的基於Java的HBase和Accumulo以及ElasticSearchas等。所以想要進入大數據領域的小夥伴，大部分都會選擇從java編程語言開始學起。感興趣的話點擊此處，免費學習一下

想了解更多有關大數據的相關信息，推薦咨詢【達內教育】。該機構致力於面向IT互聯網行業，培養軟體開發工程師、測試工程師、UI設計師、網路營銷工程師、會計等職場人才，擁有行業內完善的教研團隊，強大的師資力量，確保學員利益，全方位保障學員學習；更是與多家企業簽訂人才培養協議，全面助力學員更好就業。達內IT培訓機構,試聽名額限時搶購。

⑸ 大數據技術與應用是學什麼的

這里介紹一下大數據要學習和掌握的知識與技能：

①java：一門面向對象的計算機編程語言，具有功能強大和簡單易用兩個特徵。

②spark：專為大規模數據處理而設計的快速通用的計算引擎。

③SSM：常作為數據源較簡單的web項目的框架。

④Hadoop：分布式計算和存儲的框架，需要有java語言基礎。

⑤spring cloud：一系列框架的有序集合，他巧妙地簡化了分布式系統基礎設施的開發。

⑤python：一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言。

互聯網行業目前還是最熱門的行業之一，學習IT技能之後足夠優秀是有機會進入騰訊、阿里、網易等互聯網大廠高薪就業的，發展前景非常好，普通人也可以學習。

想要系統學習，你可以考察對比一下開設有相關專業的熱門學校，好的學校擁有根據當下企業需求自主研發課程的能力，建議實地考察對比一下。

祝你學有所成，望採納。

北大青鳥學生課堂實錄

⑹ 初步學習Java大數據需要看什麼書嗎

從入門到精通

⑺ scala與python區別有哪些

Scala是一門多範式的編程語言，一種類似java的編程語言，設計初衷是實現可伸縮的語言、並集成面向對象編程和函數式編程的各種特性。

Python是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言。Python的設計具有很強的可讀性，相比其他語言經常使用英文關鍵字，其他語言的一些標點符號，它具有比其他語言更有特色語法結構。

scala與Python的區別：

1、性能對比

由於Scala是基於JVM的數據分析和處理，Scala比Python快10倍。當編寫Python代碼用且調用Spark庫時，性能是平庸的，但如果程序涉及到比Python編碼還要多的處理時，則要比Scala等效代碼慢得多。Python解釋器PyPy內置一個JIT（及時）編譯器，它很快，但它不提供各種Python C擴展支持。在這樣的情況下，對庫的C擴展CPython解釋器優於PyPy解釋器。

使用Python在Spark的性能開銷超過Scala，但其重要性取決於您在做什麼。當內核數量較少時，Scala比Python快。隨著核數的增加，Scala的性能優勢開始縮小。

當大量的處理其工作時，性能不是選擇編程語言的主要驅動因素。然而，當有重要的處理邏輯時，性能是一個主要因素，Scala絕對比Python提供更好的性能，用於針對Spark程序。

相關推薦：《Python基礎教程》

2、學習曲線

在用Scala語言編寫Spark程序時有幾個語法糖，所以大數據專業人員在學習Spark時需要非常小心。程序員可能會發現Scala語法有時會讓人發瘋。Scala中的一些庫很難定義隨機的符號運算符，而這些代碼可以由沒有經驗的程序員理解。在使用Scala時，開發人員需要關注代碼的可讀性。與Scala相比，Java或Python是一個靈活的語法復雜的語言。對Scala開發人員的需求越來越大，因為大數據公司重視能在Spark中掌握數據分析和處理的高效而健壯的開發人員。

Python是為Java程序員學習相對容易的因為它的語法和標准庫。然而，Python是不是一個高度並行和可擴展的像SoundCloud或推特系統的理想選擇。

學習Scala豐富了程序員對類型系統中各種新抽象的認識，新的函數編程特性和不可變數據。

3、並發性

大數據系統的復雜多樣的基礎結構需要一種編程語言，它有能力集成多個資料庫和服務。在大數據的生態系統中，Scala勝在Play框架提供了許多非同步庫和容易集成的各種並發原語，比如Akka。Scala使開發人員編寫高效的、可讀性和可維護性的服務而不是。相反，Python不支持的重量級進程並行在用uWSGI時，但它不支持真正的多線程。

當使用Python寫Spark程序時，不管進程有多少線程，每次只有一個CPU在Python進程中處於活動狀態。這有助於每個CPU核心只處理一個進程，但糟糕的是，每當部署新代碼時，需要重新啟動更多的進程，還需要額外的內存開銷。Scala在這些方面更高效，更容易共事。

4、類型安全

當用Spark編程時，開發人員需要根據變化的需求不斷地重新編碼代碼。Scala是靜態類型語言，盡管它看起來像一種動態類型語言，因為它具有優雅的類型推斷機制。作為靜態類型語言，Scala仍然提供編譯器來捕獲編譯時錯誤。

重構像Scala這樣的靜態類型語言的程序代碼比重構像Python這樣的動態語言代碼要容易得多且簡單。開發人員在修改Python程序代碼後常常會遇到困難，因為它造成的bug比修復程序原有的bug要多。所以最好是緩慢而安全地使用Scala，而不是快速的、死地使用Python。

對於小型的特殊實驗，Python是一種有效的選擇，但它並不像靜態語言那樣有效地擴展到大型軟體工程中。

5、易用性

Scala和Python語言在Sparkcontext中有同樣的表達，因此通過使用Scala或Python可以實現所需的功能。無論哪種方式，程序員都會創建一個Sparkcontext並調用函數。Python是一種比Scala更便於用戶使用的語言。Python不那麼冗長，開發人員很容易用Python編寫腳本來調用Spark。易用性是一個主觀因素，因為它取決於程序員的個人偏好。

6、高級特性

Scala編程語言有幾個存在類型、宏和隱式。Scala的晦澀難懂的語法可能很難對開發人員可能無法理解的高級特性進行實驗。然而，Scala的優勢在於在重要的框架和庫中使用這些強大的特性。

話雖如此，Scala沒有足夠的數據科學工具和庫，如Python用於機器學習和自然語言處理。Sparkmlib–機器學習庫只有較少的ML演算法但他們是理想的大數據處理。Scala缺乏良好的可視化和本地數據轉換。Scala無疑是Spark streaming特性的最佳選擇，因為Python 通過pySpark 調用Spark.streaming不像Scala那樣先進和成熟。

總結

「Scala速度更快，使用方便但上手難，而Python則較慢，但很容易使用。」

Spark框架是用Scala編寫的，所以了解Scala編程語言有助於大數據開發人員輕松地挖掘源代碼，如果某些功能不能像預期的那樣發揮作用。使用Python增加了更多問題和bug的可能性，因為2種不同語言之間的轉換是困難的。為Spark使用Scala提供對Spark框架的最新特性的訪問，因為它們首先在Scala中可用，然後移植到Python中。

根據Spark決定Scala和Python取決於最適合項目需要的特性，因為每種語言都有自己的優點和缺點。在使用Apache Spark編程語言之前，開發者必須學習Scala和Python來熟悉它們的特性。學習了Python和Scala之後，決定何時使用Scala來Spark以及何時使用Python來調用Spark是相當容易的。Apache Spark編程語言的選擇完全取決於要解決的問題。

⑻ python spark 怎麼打包jar

基於eclipse的Spark IDE
以WordCount為例：
package com.lxw.test
import org.apache.spark.{SparkConf, SparkContext}
import SparkContext._
object WordCount {
def main (args: Array[String]) {
if(args.length < 2) {
println("Usage: WordCount ")
System.exit(1)
}
val hdfsIn = args(0);
val hdfsOut = args(1);
val sc = new SparkContext(new SparkConf().setAppName("WordCount"))
val srcData = sc.textFile(hdfsIn)
val result = srcData.flatMap(_.split("\\s+")).map((_,1)).receByKey(_+_)
result.saveAsTextFile(hdfsOut)
}
}
在eclipse中將程序打成普通的Java jar包即可。
在Spark的一台Client機器上使用spark-submit來提交運行jar包：
$SPARK_HOME/bin/spark-submit \ --name "lxw1234-wordcount" \ --master spark://192.168.1.130:7077 \ --executor-memory 1G \ --class com.lxw.test.WordCount \ /home/lxw1234/lxw-spark.jar /logs/site/2015-05-14/ /tmp/lxwoutput

⑼ 怎樣使用Java 開發大數據

未來10年將是大數據，人工智慧爆發的時代，到時將會有大量的企業需要藉助大數據，而Java最大的優勢就是它在大數據領域的地位，目前很多的大數據架構都是通過Java來完成的。
在這個Android、iOS相繼沒落，PHP相繼飽和的時候，只有Java大數據保持著旺盛的需求。那麼，Java大數據需要學習什麼技術呢？
首先我們要學習Java語言和Linux操作系統。很多人入門編程語言就是Java，你或許還不知道Java的方向有JavaSE、JavaEE、JavaME，學習Java大數據需要學習JavaSE、JavaEE。了解Java怎麼連接資料庫，掌握JDBC，學習Hibernate/Mybatis的原理，以及API，這樣可以增加你對Java操作資料庫的理解，因為這兩個技術的核心就是Java的反射加上JDBC的各種使用。
接下來就需要學習Linux操作系統，因為大數據相關軟體都是在Linux上運行的，學好Linux對你快速掌握大數據相關技術有很大的幫助，能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置，能少踩很多坑，學會shell就能看懂腳本，這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
最後當然是Hadoop的學習，這幾乎已經成為大數據的代名詞，Hadoop裡麵包括組件HDFS、MapRece和YARN，HDFS是存儲數據的地方，就像電腦的硬碟一樣，文件都存儲在這個上面，MapRece是對數據進行處理計算的，它有個特點就是不管多大的數據只要給它時間它就能把數據跑完，但是時間可能不是很快，所以它叫數據的批處理。YARN是體現Hadoop平台概念的重要組件，有了它大數據生態體系的其它軟體就能在hadoop上運行了，這樣就能更好的利用HDFS大存儲的優勢和節省更多的資源，比如我們就不用再單獨建一個spark的集群了，讓它直接跑在現有的hadoop yarn上面就可以了。
學了這些，可以勝任初級Java工程師了，當然還是有很有可以提高的地方，比如學習下python，可以用它來編寫網路爬蟲。這樣我們就可以自己造數據了，網路上的各種數據你高興都可以下載到你的集群上去處理。

導航:首頁 > 編程語言 > sparkpythonjava

sparkpythonjava

與sparkpythonjava相關的資料