① 如何運行含spark的python腳本
1、Spark腳本提交/運行/部署1.1spark-shell(交互窗口模式)運行Spark-shell需要指向申請資源的standalonespark集群信息,其參數為MASTER,還可以指定executor及driver的內存大小。sudospark-shell--executor-memory5g--driver-memory1g--masterspark://192.168.180.216:7077spark-shell啟動完後,可以在交互窗口中輸入Scala命令,進行操作,其中spark-shell已經默認生成sc對象,可以用:valuser_rdd1=sc.textFile(inputpath,10)讀取數據資源等。1.2spark-shell(腳本運行模式)上面方法需要在交互窗口中一條一條的輸入scala程序;將scala程序保存在test.scala文件中,可以通過以下命令一次運行該文件中的程序代碼:sudospark-shell--executor-memory5g--driver-memory1g--masterspark//192.168.180.216:7077
② 如何在pycharm中配置Spark
打開pycharm,導入已有的或者新建工程。
創建新的run configurition。
選擇edit configurition。
設置環境,創建PYTHONPATH和SPARK_HOME
配置路徑,都可以在Spark安裝路徑下找到:
選擇 File->setting->你的project->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下,自己找一下)
保存,ok
③ 科普SparkSpark是什麼如何使用Spark
自己寫的Spark入門實戰教程,適合於有一定hadoop和數據分析經驗的朋友。
Spark簡介
Spark是一個開源的計算框架平台,使用該平台,數據分析程序可自動分發到集群中的不同機器中,以解決大規模數據快速計算的問題,同時它還向上提供一個優雅的編程範式,使得數據分析人員通過編寫類似於本機的數據分析程序即可實現集群並行計算。
Spark項目由多個緊密集成的組件組成。
核心是Spark Core組件
,它實現了Spark的基本功能,包括:任務調度、內存管理、錯誤恢復、與存儲系統交互等模塊,特別的,Spark Core還定義了彈性分布式數據集(RDD)的API,是Spark內存計算與並行計算的主要編程抽象。在Spark Core上有一系列軟體棧,用於滿足了各種不同數據分析計算任務需求,包括連接關系型資料庫或Hadoop Hive的SQL/HQL的查詢組件Spark SQL,對實時數據進行流式計算的組件Spark Steaming,支持常見機器學習演算法並行計算組件MLlib,支持並行圖計算組件GraphX等。
為了進一步支持在數千個計算節點上的伸縮計算,Spark Core底層支持在各種集群管理器上運行,包括Hadoop YARN、Apache Mesos,或者Spark自帶的Standalone獨立調度器。
Spark部署
安裝Spark比較簡單,只要在機器上配置好最新版JAVA環境,下載編譯好的Spark軟體包後即可在本地運行。當然,也可以根據具體環境,使用Maven編譯需要的Spark功能。
Spark部署有兩種方式,一是本地部署,二是集群部署。前者只需啟動本地的互動式環境spark-shell.sh腳本即可,常用在本機快速程序測試,後者的應用場景更多些,具體根據集群環境不同,可部署在簡易的Spark獨立調度集群上、部署在Hadoop YARN集群上、或部署在Apache Mesos上等。
其中,Spark自帶的獨立調度器是最簡單實現Spark集群環境的一種方式,只需在多台聯網計算機上安裝好Spark,然後在其中一台啟動集群管理器(通過start-master.sh腳本),然後再在其他計算機上啟動工作節點(通過start-slave.sh腳本),並連接到管理器上即可。
Spark編程
使用Spark編程,需要先在本機安裝好Spark環境,然後啟動Spark上下文管理器連接到本機(本地部署)或是集群上的集群管理器(集群部署),再使用Spark提供的抽象介面編程即可。
支持Spark的原生語言是Scala,一種支持JVM的腳本語言,可以避免其他語言在做數據轉化過程的性能或信息丟失。但隨著Spark項目的不斷完善,使用Python和PySpark包、或者R和SparkR包進行Spark編程也都是不錯的選擇。
不論使用何種編程語言,使用Spark進行數據分析的關鍵在於掌握Spark抽象的編程範式,其基本流程包括4步:
初始化SparkContext
。SparkContext即是Spark上下文管理器(也稱為驅動器程序),它主要負責向Spark工作節點上發送指令並獲得計算結果,但數據分析人員無需關注具體細節,只需使用SparkContext介面編程即可。創建RDD
。彈性分布數據集RDD是Spark在多機進行並行計算的核心數據結構,因此使用Spark進行數據分析,首先需使用SparkContext將外部數據讀入到Spark集群內。設計數據轉化操作
。即操作的結果是返回一個新的RDD,即在圖計算中只是一個中間節點。類比於Hadoop的Map()映射運算元,但又不僅於此,Spark還支持filter()過濾運算元、distinct()去重運算元、sample()采樣運算元,以及多個RDD集合的交差補並等集合操作。設計數據執行操作
。即操作的結果向SparkContext返回結果,或者將結果寫入外部操作系統。類比於Hadoop的Rece()運算元,按某函數操作兩個數據並返回一個同類型的數據,此外Spark還支持collect()直接返回結果運算元、count()計數運算元、take()/top()返回部分數據運算元、foreach()迭代計算運算元等操作。Spark編程範式的本質是有向無環圖方式的惰性計算
,即當使用上述方式進行編程後,Spark將自動將上述RDD和轉化運算元轉換為有向無環圖的數據工作流,只有當觸發執行運算元時,才按需進行數據工作流的計算。此外,為進一步提高計算效率,Spark默認將在內存中執行,並自動進行內存分配管理,當然分析人員也可根據需求通過persist()運算元將中間步驟數據顯式的將內存數據持久化到磁碟中,以方便調試或復用。在R環境下使用Spark實例
最新版的RStudio已經較完整的集成了Spark數據分析功能,可以在SparkR官方擴展介面基礎上更方便的使用Spark,主要需要安裝兩個包,分別是sparklyr和dplyr。其中,sparklyr包提供了更簡潔易用的Spark R編程介面,dplyr包提供了一個語法可擴展的數據操作介面,支持與主流SQL/NoSQL資料庫連接,同時使數據操作與數據集數據結構解耦合,並且和Spark原生運算元可基本對應。
若第一次運行,先在本機安裝必要的包和Spark環境:
之後運行下面的小例子,可以發現,除了需要初始化SparkContext、導入RDD數據和導出數據外,其他數據處理操作都與在本機做數據分析是一樣的。
此外,除了dplyr介面外,sparklyr還封裝了一套特徵工程和常用機器學習演算法,足以滿足80%常見的數據分析與挖掘工作,至於剩餘的20%定製演算法或是流處理、圖計算等任務,便需要了解更多高階的Spark介面來實現了。