sparkpython依赖包_机器学习实践：如何将Spark与Python结合

⑴ 如何在ipython或python中使用Spark

安装python
安装spark
进入spark安装文件夹, 有个 python子文件夹, 将python子文件夹里的pyspark子文件夹复制到python 的site-packages文件夹下
在ipython中或者python中:
import pyspark

⑵ python spark 怎么打包jar

基于eclipse的Spark IDE
以WordCount为例：
package com.lxw.test
import org.apache.spark.{SparkConf, SparkContext}
import SparkContext._
object WordCount {
def main (args: Array[String]) {
if(args.length < 2) {
println("Usage: WordCount ")
System.exit(1)
}
val hdfsIn = args(0);
val hdfsOut = args(1);
val sc = new SparkContext(new SparkConf().setAppName("WordCount"))
val srcData = sc.textFile(hdfsIn)
val result = srcData.flatMap(_.split("\\s+")).map((_,1)).receByKey(_+_)
result.saveAsTextFile(hdfsOut)
}
}
在eclipse中将程序打成普通的Java jar包即可。
在Spark的一台Client机器上使用spark-submit来提交运行jar包：
$SPARK_HOME/bin/spark-submit \ --name "lxw1234-wordcount" \ --master spark://192.168.1.130:7077 \ --executor-memory 1G \ --class com.lxw.test.WordCount \ /home/lxw1234/lxw-spark.jar /logs/site/2015-05-14/ /tmp/lxwoutput

⑶ 如何运行含spark的python脚本

~spark$ bin/spark-submit first.py
-----------first.py-------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
lines = sc.textFile("first.py")
pythonLines = lines.filter(lambda line: "Python" in line)
print "hello python"
print pythonLines.first()
print pythonLines.first()
print "hello spark!"
---------------------------------------------------
hello python
pythonLines = lines.filter(lambda line: "Python" in line)
pythonLines = lines.filter(lambda line: "Python" in line)
hello spark!

到spark的安装目录下/bin 下面 spark-submit ***.py 即可

⑷ 安装了aconnada是不是就不用自己配置spark环境变量了

不是，anconada是python的一个发行版本，包含了非常多的科学包及其依赖项，spark是内存计算框架，不是一个东西，pyspark的环境变量依赖包还是需要的

⑸ 用Intellij idea 编写Scala程序Spark2.0.0 依赖jar包如何解决

在“File|Project Structure|Libraries”窗体中点击绿色+号，选择“Java”，在弹出的窗体中选择“Spark”的安装目录，定位到Spark\jars目录，点击“OK”，把全部jar文件引入到项目中。网上和目前出版的书中讲解是spark2.0以下版本，采用的是把sparkle核心文件（如：“spark-assembly-1.3.0-hadoop2.4.0.jar”）拷贝到Interllij IDEA安装目录下的Lib目录下，再使用Spark。由于Spark2.1.0已经取消了该文件，因此无法用原先的方法。

⑹ spark部署python脚本怎么部署三方库

1、Spark脚本提交/运行/部署
1.1 spark-shell（交互窗口模式）
运行Spark-shell需要指向申请资源的standalone spark集群信息，其参数为MASTER，还可以指定executor及driver的内存大小。
sudo spark-shell --executor-memory 5g --driver-memory1g --master spark://192.168.180.216:7077
spark-shell启动完后，可以在交互窗口中输入Scala命令，进行操作，其中spark-shell已经默认生成sc对象，可以用：
val user_rdd1 = sc.textFile(inputpath, 10)
读取数据资源等。
1.2 spark-shell（脚本运行模式）
上面方法需要在交互窗口中一条一条的输入scala程序；将scala程序保存在test.scala文件中，可以通过以下命令一次运行该文件中的程序代码：
sudo spark-shell --executor-memory 5g --driver-memory1g --master spark//192.168.180.216:7077 < test.scala
运行后会自动进入spark-shell交互窗口并且运行test.scala中的程序，运行完成后，会自动退出spark-shell。
如果程序退出终端后，Linux终端失效，可以试试：stty echo 命令
1.3 spark-submit （程序部署）
Spark提供了一个容易上手的应用程序部署工具bin/spark-submit，可以完成Spark应用程序在local、Standalone、YARN、Mesos上的快捷部署。可以指定集群资源master，executor/ driver的内存资源等。
sudo spark-submit --masterspark://192.168.180.216:7077 --executor-memory 5g --class mypackage.test workcount.jar hdfs://192.168.180.79:9000/user/input.txt
workcount .scala 代码打包workcount.jar，并将文件需要上传到spark的安装目录下面；
hdfs//192.168.180.79:9000/user/input.txt为输入参数；

⑺ python开发spark环境该如何配置，又该如何操作

1）输入：welcome="Hello!"回车

再输入：printwelcome或者直接welcome回车就可以看到输出Hello!

2）

[html]viewplain
welcome="hello"
you="world!"
printwelcome+you

输出：helloworld!

以上使用的是字符串，变量还有几种类型：数，字符串，列表，字典，文件。其他的和别的语言类似，下面先讲下列表：

3）

[html]viewplain
my_list=[]//这个就产生了一个空的列表。然后给它赋值
my_list=[1,2]
printmy_list
my_list.append(3)
printmy_list

4）字典：

[html]viewplain
contact={}
contact["name"]="shiyuezhong"
contact["phone"]=12332111

5）结合列表和字典：

[html]viewplain
contact_list=[]
contact1={}
contact1['name']='shiyuezhong'
contact1['phone']=12332111
contact_list.append(contact1)
contact2={}
contact2['name']='buding'
contact2['phone']=88888888
contact_list.append(contact2)

⑻ 机器学习实践：如何将Spark与Python结合

可以学习一下林大贵这本书，从头到尾教你如何使用python+spark+hadoop实现常用的算法训练和部署。

《Python+Spark2.0+Hadoop机器学习与大数据实战_林大贵》

链接：https://pan..com/s/1VGUOyr3WnOb_uf3NA_ZdLA

提取码：ewzf

⑼ 如何在spark集群中装python

前段时间使用了一下google的博客空间，感觉也很一般，所以现在把那里的几篇文章转过来。执行python脚本只需要对python文件做如下操作即可：在python文件里第一行加上#! /usr/bin/python，即你的python解释器所在的目录

导航:首页 > 编程语言 > sparkpython依赖包

sparkpython依赖包

与sparkpython依赖包相关的资料