sparkpythonudf_機器學習實踐：如何將Spark與Python結合

A. spark python腳本怎麼執行

前段時間使用了一下google的博客空間，感覺也很一般，所以現在把那裡的幾篇文章轉過來。
執行python腳本只需要對python文件做如下操作即可：
在python文件里第一行加上#!
/usr/bin/python，即你的python解釋器所在的目錄。另外還有一種寫法是#!
/usr/bin/env
python
編輯完成python腳本文件後為它加上可執行許可權。例如你的python腳本文件叫做runit.py，那麼就在shell中輸入如下命令：chmod
+x
runit.py
之後直接在shell中輸入./runit.py就可以執行你的python程序了。
當然這是在Linux下的操作，如果想在windows下直接執行Python程序，就需要使用py2exe工具將python源程序編譯成exe文件了。

B. spark 能執行udf 不能執行udaf，什麼原因

科普SparkSpark何使用Spark 1.Spark基於算布式計算（簡單） 2.Spark與MapRece同 3.Spark比Hadoop靈 4.Spark局限 5.情況適合使用Spark 圖" class="illustration_alink"> Spark SparkUC Berkeley AMP lab所源類Hadoop MapRece通用並行計算框架Spark基於map rece算實現布式計算擁Hadoop MapRece所具優點；同於MapReceJob間輸結保存內存再需要讀寫HDFSSpark能更適用於數據挖掘與機器習等需要迭代map rece算其架構圖所示：圖" class="illustration_alink"> Spark與Hadoop比 Spark間數據放內存於迭代運算效率更高 Spark更適合於迭代運算比較MLDM運算Spark面RDD抽象概念 Spark比Hadoop更通用 Spark提供數據集操作類型種像Hadoop提供MapRece兩種操作比map, filter, flatMap, sample, groupByKey, receByKey, union, join, cogroup, mapValues, sort,partionBy等種操作類型Spark些操作稱Transformations同提供Count, collect, rece, lookup, save等種actions操作些種數據集操作類型給給發層應用用戶提供便各處理節點間通信模型再像Hadoop唯Data Shuffle種模式用戶命名物化控制間結存儲、區等說編程模型比Hadoop更靈由於RDD特性Spark適用種非同步細粒度更新狀態應用例web服務存儲或者增量web爬蟲索引於種增量修改應用模型適合容錯性布式數據集計算通checkpoint實現容錯checkpoint兩種式checkpoint datalogging the updates用戶控制採用哪種式實現容錯用性 Spark通提供豐富Scala, javaPython API及互動式Shell提高用性 Spark與Hadoop結合 Spark直接HDFS進行數據讀寫同支持Spark on YARNSpark與MapRece運行於同集群共享存儲資源與計算數據倉庫Shark實現借用Hive幾乎與Hive完全兼容 Spark適用場景 Spark基於內存迭代計算框架適用於需要操作特定數據集應用場合需要反復操作數越所需讀取數據量越受益越數據量計算密集度較場合受益相較（資料庫架構否考慮使用Spark重要素）由於RDD特性Spark適用種非同步細粒度更新狀態應用例web服務存儲或者增量web爬蟲索引於種增量修改應用模型適合總說Spark適用面比較廣泛且比較通用運行模式本模式 Standalone模式 Mesoes模式 yarn模式 Spark態系統 Shark ( Hive on Spark): Shark基本Spark框架基礎提供HiveH iveQL命令介面程度保持Hive兼容性Shark使用HiveAPI實現query Parsing Logic Plan generationPhysicalPlan execution階段用Spark代替Hadoop MapRece通配置Shark參數Shark自內存緩存特定RDD實現數據重用進加快特定數據集檢索同Shark通UDF用戶自定義函數實現特定數據析習算使SQL數據查詢運算析能結合起化RDD重復使用 Spark streaming: 構建Spark處理Stream數據框架基本原理Stream數據間片斷（幾秒）類似batch批量處理式處理部數據Spark Streaming構建Spark面Spark低延遲執行引擎（100ms+）用於實計算另面相比基於Record其處理框架（Storm）RDD數據集更容易做高效容錯處理外批量處理式使同兼容批量實數據處理邏輯算便些需要歷史數據實數據聯合析特定應用場合 Bagel: Pregel on Spark用Spark進行圖計算非用項目Bagel自帶例實現GooglePageRank算 End

C. 如何運行含spark的python腳本

2~spark$ bin/spark-submit first.py
-----------first.py-------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
lines = sc.textFile("first.py")
pythonLines = lines.filter(lambda line: "Python" in line)
print "hello python"
print pythonLines.first()
print pythonLines.first()
print "hello spark!"
---------------------------------------------------
hello python
pythonLines = lines.filter(lambda line: "Python" in line)
pythonLines = lines.filter(lambda line: "Python" in line)
hello spark!

到spark的安裝目錄下/bin 下面 spark-submit ***.py 即可

D. Spark UDF 函數怎麼實現參數數量變化

def my_udf(A:String = "",B:Int = 0):Double{

}
給參數一個默認值即可

E. spark部署python腳本怎麼部署三方庫

1、Spark腳本提交/運行/部署
1.1 spark-shell（交互窗口模式）
運行Spark-shell需要指向申請資源的standalone spark集群信息，其參數為MASTER，還可以指定executor及driver的內存大小。
sudo spark-shell --executor-memory 5g --driver-memory1g --master spark://192.168.180.216:7077
spark-shell啟動完後，可以在交互窗口中輸入Scala命令，進行操作，其中spark-shell已經默認生成sc對象，可以用：
val user_rdd1 = sc.textFile(inputpath, 10)
讀取數據資源等。
1.2 spark-shell（腳本運行模式）
上面方法需要在交互窗口中一條一條的輸入scala程序；將scala程序保存在test.scala文件中，可以通過以下命令一次運行該文件中的程序代碼：
sudo spark-shell --executor-memory 5g --driver-memory1g --master spark//192.168.180.216:7077 < test.scala
運行後會自動進入spark-shell交互窗口並且運行test.scala中的程序，運行完成後，會自動退出spark-shell。
如果程序退出終端後，Linux終端失效，可以試試：stty echo 命令
1.3 spark-submit （程序部署）
Spark提供了一個容易上手的應用程序部署工具bin/spark-submit，可以完成Spark應用程序在local、Standalone、YARN、Mesos上的快捷部署。可以指定集群資源master，executor/ driver的內存資源等。
sudo spark-submit --masterspark://192.168.180.216:7077 --executor-memory 5g --class mypackage.test workcount.jar hdfs://192.168.180.79:9000/user/input.txt
workcount .scala 代碼打包workcount.jar，並將文件需要上傳到spark的安裝目錄下面；
hdfs//192.168.180.79:9000/user/input.txt為輸入參數；

F. 機器學習實踐：如何將Spark與Python結合

可以學習一下林大貴這本書，從頭到尾教你如何使用python+spark+hadoop實現常用的演算法訓練和部署。

《Python+Spark2.0+Hadoop機器學習與大數據實戰_林大貴》

鏈接：https://pan..com/s/1VGUOyr3WnOb_uf3NA_ZdLA

提取碼：ewzf

G. spark UDF 怎麼實現參數數量可變，不傳參時候，有默認值。見下圖

這樣寫就行了，給參數一個默認值

def my_udf(A:String = "",B:Int = 0):{

}

H. 最新的spark支持python的什麼版本

兩種方法：
使用 spark-submit 解釋執行python腳本
使用 python 解釋執行python腳本
1. 使用Spark-submit解釋執行python腳本
python腳本中需要在開頭導入spark相關模塊，調用時使用spark-submit提交，示例代碼如下：
===========================================================
"""odflow.py"""
from pyspark import SparkContext
fileDir = "/TripChain3_Demo.txt"
# sc = SparkContext("local", "ODFlow")
sc = SparkContext("spark://ITS-Hadoop10:7077", "ODFlow")
lines = sc.textFile(fileDir)
# python不能直接寫多行的lambda表達式，所以要封裝在函數中
def toKV(line):
arr = line.split(",")
t = arr[5].split(" ")[1].split(":")
return (t[0]+t[1]+","+arr[11]+","+arr[18],1)
r1 = lines.map( lambda line : toKV(line) ).receByKey(lambda a,b: a+b)
# 排序並且存入一個（repartition）文件中
r1.sortByKey(False).saveAsTextFile("/pythontest/output")
===========================================================
發布命令為：
spark-submit \
--master spark://ITS-Hadoop10:7077 \
odflow.py
2. 使用 python 解釋執行python腳本
直接用python執行會出現錯誤:
ImportError: No mole named pyspark
ImportError: No mole named py4j.java_gateway
缺少pyspark和py4j這兩個模塊，這兩個包在Spark的安裝目錄里，需要在環境變數里定義PYTHONPATH，編輯~/.bashrc或者/etc/profile文件均可
vi ~/.bashrc # 或者 sudo vi /etc/profile
# 添加下面這一行
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH
# 使其生效
source ~/.bashrc # 或者 sudo source /etc/profile
然後關閉終端，重新打開，用python執行即可
python odflow.py

導航:首頁 > 編程語言 > sparkpythonudf

sparkpythonudf

與sparkpythonudf相關的資料