sbt打包文件未编译_如何配置sbt的buildsbt使得编译时将依赖包也打包进去

⑴ 如何使用sbt打包scala程序

创建工程目录
在工程目录下面建立build.sbt
放让衫正入源码

构建：坦悔 sbt build
运行： sbt run
运行测试：塌带 sbt test
清理： sbt clean

⑵ sbt文件用什么打开

文件扩展名.SBT
文件类型：SBT字幕文件
类别：视频文件
软件：可打开SBT文件的软件:
URUWorks
Subtitle
Workshop,
Superbase
Classic,
Superbase
Scientific,
Superbase
SB
Next
Generation
Workbench.
描述：
保存在SBT格式的字幕文件，包含定义棚谨时，应显示每个字幕和字幕文本和定时信息多长时间;通常保陆源存与相应的视频文早和态件。
注意：大部分的字幕文件保存在SUB
，
SSA
，
SRT或格式。

⑶ Linux里面spark作用是什么

Spark是通用数据处理引擎，适用于多种情况。应用程序开发人员和数据科学家将Spark集成到他们的应用程序中，以快速地大规模查询，分析和转换数据。与Spark最频繁相关的任务包括跨大型数据集的交互式查询，来自传感器或金融系统的流数据处理以及机器学习任务。
Spark于2009年开始运作，最初是加州大学伯克利分校AMPLab内部的一个项目。更具体地说，它是出于证明Mesos概念的需要而诞生的，Mesos概念也是在AMPLab中创建的。在Mesos白皮书《 Mesos：数据中心中的细粒度资源共享平台》中首次讨论了Spark，其中最着名的作者是Benjamin Hindman和Matei Zaharia。
2013年，Spark成为Apache Software Foundation的孵化项目，并于2014年初被提升为该基金会的顶级项目之一。 Spark是基金会管理的最活跃的项目之一，围绕该项目成长的社区包括多产的个人贡献者和资金雄厚的企业支持者，例如Databricks，IBM和中国的华为。
从一开始，Spark就被优化为在内存中运行。它比Hadoop的MapRece等替代方法更快地处理数据，后者倾向于在处理的每个阶段之间向计算机硬盘写入数据或从计算机硬盘写入数据。 Spark的支持者声称，Spark在内存中的运行速度可以比Hadoop MapRece快100倍，并且在以类似于Hadoop MapRece本身的方式处理基于磁盘的数据时也可以快10倍。这种比较并不完全公平，这不仅是因为原始速度对Spark的典型用例而言比对批处理更为重要，在这种情况下，类似于MapRece的解决方案仍然很出色。

⑷ springboot 使用scala 开发

咋说呢，还是使用scala做springboot开发比较流畅一些
按道理来说根据打包模式 maven sbt gradle来说三种方式都可以
maven 是最简单的
gradle 也比较简单，但是我并没有尝试gradle
sbt 其实也还可以，你要找到方向基本就直到套路了，经过参考别人的博客，自己搭建了个demo 验证是可以正常使用的，不过maven 版的打jar 使用还是有点问题，我尝试使用多种方式指定主函数还是有问题
两种方式的我都上传到了github上，大家如果想模仿学习可以git clone 下来泡一泡
https://github.com/mullerhai/scala-springboot-sbt
https://github.com/mullerhai/springboot-scala-maven

另外搭建逻辑大家可以参考这篇博客 google搜出来的
https://afoo.me/posts/2015-07-21-scala-developers-springboot-guide.html

需要主要的，现在的springboot 的版本是2.0.5 release ，之前都是1.× ，不过大同小异，

springboot 本身是支持 java 8 kotlin groovy，大家也可以尝试一下 kotlin ，kotlin 以后可能会崛起

说一下打包部署伍租
正常来说我们做java 都会打个jar包部署到生产环境上，
springboot 据说他打包的文件生成方式和普通的是有差别的，确实，我点击jar 解压看到的和普通有很大差别，所以才会有一个 springboot-maven-plugin
有了这个插件所以 springboot部署成jar包比较简单
但是吧 springboot对sbt 没有特殊支持也没有这个插件，我耗费三体还是没有实现主就是报这个错

那我们说 springboot sbt scala 部署到底如何实现呢
其实在不打jar 包的情况下还是有多种实现的，比如 git 整个项目到生产环境，直接sbt run 就可以启动整个项目
，另外还要说一下，springboot如果不启动web ，比如做定时任务，使用sbt-assembly插件其实打成jar包也是可以使嫌橘余用的
还有一种就是是使用sbt-native-package插件，这个插件超级强大，简芹滚直可以用震惊！！！，他娘的，什么都可以打包，就是打不成jar包，rpm docker image zip tar.gz
macos dmg win exe,这些他都可以

参考
https://stackoverflow.com/questions/45410630/spring-boot-how-can-i-build-a-runnable-jar-with-sbt

I solved the issue by moving to sbt-native-packager

plugins.sbt
addSbtPlugin("com.typesafe.sbt" % "sbt-native-packager" % "1.2.0")
build.sbt
scriptClasspath := Seq("*")
mainClass in Compile := Some("com.x.app.XETL")
enablePlugins(JavaAppPackaging)
Running:
packaging sbt universal:stage
starting the app: target\universal\stage\bin\x.bat

这个会生产一个脚本，直接执行这个脚本就可以，不过有时候也会失败，这个需要在

对于 maven scala springboot 项目来说，要想打成jar包运行，必须包含其中的两个maven 插件，缺一个也不行

完整的

在 IDEA 里面新建 SpringBoot 启动配置，运行后启动成功。
在 POM 目录执行 mvn spring-boot:run 运行项目，启动成功；
线下环境通过 java -jar jar_name.jar，运行成功；

https://stackoverflow.com/questions/38792031/springboot-making-jar-files-no-auto-configuration-classes-found-in-meta-inf

https://stackoverflow.com/questions/38792031/springboot-making-jar-files-no-auto-configuration-classes-found-in-meta-inf

用下面命令重新打包试试看

mvn clean package spring-boot:repackage -Dmaven.test.skip

在sbt 中
这两个是罪魁祸首

一引用就出问题

⑸ 如何配置sbt的build.sbt使得编译时将依赖包也打包进去

我不知道从您的问题您是否0.7.x或0.10.x，但这里的0.10.x答案把下面的逗枣历你~/.sbt/plugins/build.sbt文件resolvers+={valtypesafeRepoUrl=newjava.net.URL("CodeGo.netvalpattern=Patterns(false,"[organisation]/[mole]/[sbtversion]/[revision]/[type]s/[mole](-[classifier])-[revision].[ext]")Resolver.url("岩埋TypesafeRepository",typesafeRepoUrl)(pattern)}libraryDependenciesdeps:+("com.typesafe.sbteclipse"%%"sbteclipse"%"1.1"extra("山搜sbtversion"->version))}

⑹ 如何配置sbt的build.sbt使得编译时将依赖包也打包进去

首先问题解决了，就是sbt-assembly插件的配置问题。这个文档自己前两次读表示看不懂意思。过2天又仔细看了一遍大致明白了，敢动手操作了。
assembly插件的目的是：
The goal is simple: Create a fat JAR of your project with all of its dependencies.
即将项目依赖的大文件也打包到生成的jar中。我的报错Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/streaming/kafka/KafkaUtils$就是因为包含KafkaUtil的jar包没打包到jar中。
配置使用插件
下面是我的scala项目目录结构：
.
├── assembly.sbt
├── build.sbt
├── project
├── README.md
├── run-assembly.sh
├── run.sh
├── src
└── target

插件的配置取决于sbt的版本，详情见这里
我的是sbt 0.13.8，所以在project/assembly.sbt添加（assembly.sbt）要自己创建：
addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.14.0")

配置assembly的参数
参数在项目根目录下新建assembly.sbt。
直接引入插件就可以用
sbt assembly

编译了，但是由于我的sbt下载了大量的依赖包，在编译的时候遇到了编译包冲突的问题。这个时候需要配置Merge Strategy（合并策略）

⑺ Datastream 开发打包问题

Datastream作业开发时往往会遇到一些jar包冲突等问题，本文主要讲解作业开发时需要引入哪些依赖以及哪些需要被打包进作业的jar中，从而避免不必要的依赖被打入了作业jar中以及可能产生的依赖冲突。

一个Datastream作业主要涉及下述依赖：

每一个Flink应用程序都依赖于一系列相关的库，其中至少应该包括Flink的API. 许多应用程序还依赖于连接器相关的库(如 Kafka, Cassandra等).在运行Flink应用程序时，无论是在运行在分布式的环境下还是在本地IDE进行测试，Flink的运行时相关依赖都是必须的。

与大多数运行用户自定义应用程序的系统一样，Flink 中有两大类依赖项：

每一个Flink应用程序的开发至少需要添加对相关API的基础依赖。

手动配置项目时，需要添加对Java/Scala API的依赖(这里以Maven为例，薯逗在数亏卖其他构建工具(Gradle，SBT等)中可以使用同样的依赖)。

重要提示 ：请注意，所有这些依赖项都将其范围设置为"provided"。这意味着需要对它们进行编译，但不应将它们打包到项目生成的应用程序jar文件中——这些依赖项是Flink核心依赖项，在实际运行时已经被加载。

强烈建议将依赖项设置成"provided"的范围,如果未将它们设置为"provided"，最好的情况下会导致生成的jar变得臃肿，因为它还包含所有Flink核心依赖项。而最怀的情况下，添加到应用程序jar文件中的Flink核心依赖项与您自己的一些依赖项会发生版本冲突（通常通过Flink的反向类加载机制来避免）。

关于IntelliJ的注意事项 ：为了使应用程序在IntelliJ IDEA中运行，有必要在运行配置中勾选"Include dependencies with "Provided" scope"选项框。如果没有该选项（可能是由于使用空念较旧的IntelliJ IDEA版本），那么一个简单的解决方法是创建一个调用应用程序 main() 方法的测试用例。

大多数应用程序的运行需要特定的连接器或库，例如Kafka、Cassandra等连接器。这些连接器不是Flink核心依赖项的一部分，必须作为额外依赖项添加到应用程序中。

下述代码是添加Kafka连接器依赖项的示例（Maven语法）：

我们建议将应用程序代码和它所有的依赖以 jar-with-dependencies 的形式打包到一个 application jar中。 这个应用程序jar包可以被提交到已经存在的Flink集群上去，或者被加入到Flink应用程序的容器镜像中去。

从Maven作业模版(见下文Maven作业模版部分)创建的项目，通过mvn clean package命令会自动把依赖打到应用程序的jar包中去。对于没有使用模版进行配置的情况，建议使用Maven Shade Plugin (配置如附录所示) 来构建包含依赖的jar包。

重要提示 ：对于Maven（和其他构建工具）来说，要将依赖项正确打包到应用程序jar中，这些应用程序依赖项的scope必须指定为"compile"（与核心依赖项不同，核心依赖项的scope必须指定为"provided"）。

Scala的不同版本(2.11,2.12等)相互之间是不兼容的。因此，Scala 2.11对应的Flink版本不能用于使用Scala 2.12的应用程序。

所有依赖(或传递依赖)于Scala的Flink依赖项都以构建它们的Scala版本作为后缀，例如flink-streaming-scala_2.11。

只使用Java进行开发时可以选择任何Scala版本，使用Scala开发时需要选择与其应用程序的Scala版本匹配的Flink依赖版本。

注：2.12.8之后的Scala版本与之前的2.12.x版本不兼容，因此Flink项目无法将其2.12.x版本升级到2.12.8之后的版本。用户可以在本地自己编译对应Scala版本的Flink。为了使其能够正常工作，需要添加-Djapicmp.skip以在构建时跳过二进制兼容性检查。

一般的规则: 永远不要将Hadoop相关依赖直接添加到应用程序中. （唯一的例外是将现有的Hadoop输入/输出Format与Flink的Hadoop兼容包一起使用时）

如果希望将Flink与Hadoop结合使用，则需要包含Hadoop依赖的Flink启动项，而不是将Hadoop添加为应用程序依赖项。Flink将使用HADOOP_CLASSPATH环境变量指定的Hadoop依赖项，可通过以下方式进行设置：

export HADOOP_CLASSPATH**=**hadoop classpath``

这种设计有两个主要原因：

如果在IDE内部的测试或开发过程中需要Hadoop依赖项（例如HDFS访问），请将这些依赖项的scope配置为

test 或则 provided 。

Flink使用Java的Service Provider Interfaces (SPI) 机制通过特定标识符加载table的connector/format工厂。由于每个table的connector/format的名为org.apache.flink.table.factories.Factory的SPI资源文件位于同一目录：META-INF/services下，因此在构建使用多个table connector/format的项目的uber jar时，这些资源文件将相互覆盖，这将导致Flink无法正确加载工厂类。

在这种情况下，推荐的方法是通过maven shade插件的ServicesResourceTransformer转换META-INF/services目录下的这些资源文件。给定示例的pom.xml文件内容如下，其中包含连接器flink-sql-connector-hive-3.1.2和flink-parquet format。

在配置了ServicesResourceTransformer之后, 项目构建uber-jar时，META-INF/services目录下的这些资源文件会被整合在一起而不是相互覆盖。

强烈建议使用该方式进行配置，可以减少很多重复的配置工作。

唯一的环境要求是安装了Maven 3.0.4（或更高版本）和Java 8.x。

使用以下两种方式中的一种创建项目 :

这允许您命名新创建的项目。它将以交互方式要求您输入groupId、artifactId和包名。

我们建议您将此项目导入IDE以开发和测试它。IntelliJ IDEA原生支持Maven项目。如果使用Eclipse，可以使用m2e插件导入Maven项目。默认情况下，某些Eclipse捆绑包包含该插件，否则需要您手动安装。

请注意 ：默认的Java JVM heap size对于Flink来说可能太小了。你必须手动增加它。在Eclipse中，选择RunConfigurations->Arguments并写入VM Arguments框：-Xmx800m。在IntelliJ IDEA中，更改JVM选项的推荐方法是使用Help | Edit Custom VM Options选项菜单。细节见这篇文章.

如果要生成/打包项目，请转到项目目录并运行"mvn clean package"命令。执行后将会得到一个JAR文件：target/-.jar，其中包含您的应用程序，以及作为依赖项添加到应用程序的连接器和库。

注意：如果使用与StreamingJob不同的类作为应用程序的主类/入口点，我们建议您相应地更改pom.xml文件中的mainClass设置。这样，Flink就可以直接从JAR文件运行应用程序，而无需另外指定主类。

要构建包含连接器和库所需的所有依赖项的应用程序JAR，可以使用以下shade插件定义：

原文链接：301 Moved Permanently

⑻ apache kafka源码怎么编译

Kafka is a distributed, partitioned, replicated commit log service. It provides the functionality of a messaging system, but with a unique design.(Kafka是一个分布式的、可分区的(partitioned)、基于备份的(replicated)和commit-log存储的服务.。它提供了类似于messaging system的特性,但是在设计实现上完全不同)。kafka是一种高吞吐量的分布式发布订阅消息系统，它有如下特性：
（1）、通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
（2）、高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。
（3）、支持通过kafka服务器和消费机集群来分区消息。
（4）、支持Hadoop并行数据加载。
一、用Kafka里面自带的脚本进行编译
下载好了Kafka源码，里面自带了一个gradlew的脚本，我们可以利用这个编译Kafka源码：
1 # wget http://mirror.bit.e.cn/apache/kafka/0.8.1.1/kafka-0.8.1.1-src.tgz
2 # tar -zxf kafka-0.8.1.1-src.tgz
3 # cd kafka-0.8.1.1-src
4 # ./gradlew releaseTarGz
运行上面的命令进行编译将会出现以下的异常信息：
01 :core:signArchives FAILED
02
03 FAILURE: Build failed with an exception.
04
05 * What went wrong:
06 Execution failed for task ':core:signArchives'.
07 > Cannot perform signing task ':core:signArchives' because it
08 has no configured signatory
09
10 * Try:
11 Run with --stacktrace option to get the stack trace. Run with
12 --info or --debug option to get more log output.
13
14 BUILD FAILED
这是一个bug（https://issues.apache.org/jira/browse/KAFKA-1297），可以用下面的命令进行编译
1 ./gradlew releaseTarGzAll -x signArchives
这时候将会编译成功（在编译的过程中将会出现很多的）。在编译的过程中，我们也可以指定对应的Scala版本进行编译：
1 ./gradlew -PscalaVersion=2.10.3 releaseTarGz -x signArchives
编译完之后将会在core/build/distributions/里面生成kafka_2.10-0.8.1.1.tgz文件，这个和从网上下载的一样，可以直接用。
二、利用sbt进行编译
我们同样可以用sbt来编译Kafka，步骤如下：
01 # git clone https://git-wip-us.apache.org/repos/asf/kafka.git
02 # cd kafka
03 # git checkout -b 0.8 remotes/origin/0.8
04 # ./sbt update
05 [info] [SUCCESSFUL ] org.eclipse.jdt#core;3.1.1!core.jar (2243ms)
06 [info] downloading http://repo1.maven.org/maven2/ant/ant/1.6.5/ant-1.6.5.jar ...
07 [info] [SUCCESSFUL ] ant#ant;1.6.5!ant.jar (1150ms)
08 [info] Done updating.
09 [info] Resolving org.apache.hadoop#hadoop-core;0.20.2 ...
10 [info] Done updating.
11 [info] Resolving com.yammer.metrics#metrics-annotation;2.2.0 ...
12 [info] Done updating.
13 [info] Resolving com.yammer.metrics#metrics-annotation;2.2.0 ...
14 [info] Done updating.
15 [success] Total time: 168 s, completed Jun 18, 2014 6:51:38 PM
16
17 # ./sbt package
18 [info] Set current project to Kafka (in build file:/export1/spark/kafka/)
19 Getting Scala 2.8.0 ...
20 :: retrieving :: org.scala-sbt#boot-scala
21 confs: [default]
22 3 artifacts copied, 0 already retrieved (14544kB/27ms)
23 [success] Total time: 1 s, completed Jun 18, 2014 6:52:37 PM
对于Kafka 0.8及以上版本还需要运行以下的命令：
01 # ./sbt assembly-package-dependency
02 [info] Loading project definition from /export1/spark/kafka/project
03 [warn] Multiple resolvers having different access mechanism configured with
04 same name 'sbt-plugin-releases'. To avoid conflict, Remove plicate project
05 resolvers (`resolvers`) or rename publishing resolver (`publishTo`).
06 [info] Set current project to Kafka (in build file:/export1/spark/kafka/)
07 [warn] Credentials file /home/wyp/.m2/.credentials does not exist
08 [info] Including slf4j-api-1.7.2.jar
09 [info] Including metrics-annotation-2.2.0.jar
10 [info] Including scala-compiler.jar
11 [info] Including scala-library.jar
12 [info] Including slf4j-simple-1.6.4.jar
13 [info] Including metrics-core-2.2.0.jar
14 [info] Including snappy-java-1.0.4.1.jar
15 [info] Including zookeeper-3.3.4.jar
16 [info] Including log4j-1.2.15.jar
17 [info] Including zkclient-0.3.jar
18 [info] Including jopt-simple-3.2.jar
19 [warn] Merging 'META-INF/NOTICE' with strategy 'rename'
20 [warn] Merging 'org/xerial/snappy/native/README' with strategy 'rename'
21 [warn] Merging 'META-INF/maven/org.xerial.snappy/snappy-java/LICENSE'
22 with strategy 'rename'
23 [warn] Merging 'LICENSE.txt' with strategy 'rename'
24 [warn] Merging 'META-INF/LICENSE' with strategy 'rename'
25 [warn] Merging 'META-INF/MANIFEST.MF' with strategy 'discard'
26 [warn] Strategy 'discard' was applied to a file
27 [warn] Strategy 'rename' was applied to 5 files
28 [success] Total time: 3 s, completed Jun 18, 2014 6:53:41 PM
当然，我们也可以在sbt里面指定scala的版本：
01 
10 sbt "++2.10.3 update"
11 sbt "++2.10.3 package"
12 sbt "++2.10.3 assembly-package-dependency"

⑼ scala程序怎么形成jar包 sbt

一、编写第一个用scala写的spark应用：
仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序
链接如下：

即：
/* SimpleApp.scala */import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SimpleApp {
def main(args: Array[String]) {
val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
val conf = new SparkConf().setAppName("Simple Application")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}}

整个程序作用是：找到这个文件
YOUR_SPARK_HOME/README.md

中有几个a和几个b。
二、用sbt进行打包成jar：
命令：sbt package
具体步骤见

中的Self-Contained Applications
打包时候几点注意：
1、
目录结构一定要对
目录结构可以通过find .来看
有点类似cmake的感觉
2、
总时间，近30分钟，开始打开会terminal没现象10分钟，然后开始要各种resolve，之后要下载很多库，我这边网速超慢
sbt是个联网编译器，
Spark的应用用到了很多RDD的变换，来编译这些库都得去网上下相应的包
最后显示，编译时间11s
这时成功完成SimpleApp
三、在本机上测试：
命令为：
YOUR_SPARK_HOME/bin/spark-submit \
--class "SimpleApp" \
--master local[4] \
target/scala-2.10/simple-project_2.10-1.0.jar

我对jar的理解就是一个可执行文件了，这个可执行文件在JVM上就可以跑了，local中4是指设置成4个线程，但具体原因我也不知道
注意submit的参数：
--class中 SimpleApp是包名
上传的的jar的地址别写错
一、编写第一个用scala写的spark应用：
仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序
链接如下：

即：
/* SimpleApp.scala */import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SimpleApp {
def main(args: Array[String]) {
val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
val conf = new SparkConf().setAppName("Simple Application")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}}

整个程序作用是：找到这个文件
YOUR_SPARK_HOME/README.md

中有几个a和几个b。
二、用sbt进行打包成jar：
命令：sbt package
具体步骤见

中的Self-Contained Applications
打包时候几点注意：
1、
目录结构一定要对
目录结构可以通过find .来看
有点类似cmake的感觉
2、
总时间，近30分钟，开始打开会terminal没现象10分钟，然后开始要各种resolve，之后要下载很多库，我这边网速超慢
sbt是个联网编译器，
Spark的应用用到了很多RDD的变换，来编译这些库都得去网上下相应的包
最后显示，编译时间11s
这时成功完成SimpleApp
三、在本机上测试：
命令为：
YOUR_SPARK_HOME/bin/spark-submit \
--class "SimpleApp" \
--master local[4] \
target/scala-2.10/simple-project_2.10-1.0.jar

我对jar的理解就是一个可执行文件了，这个可执行文件在JVM上就可以跑了，local中4是指设置成4个线程，但具体原因我也不知道
注意submit的参数：
--class中 SimpleApp是包名
上传的的jar的地址别写错
阅读全文

⑽ cassandra在pom.xml里面怎么设置library

1.执行代码//CassandraTest.scalaimportorg.apache.spark.{Logging,SparkContext,SparkConf}importcom.datastax.spark.connector.cql.{defmain(args:Array[String]){#配置spark，cassandra的ip，这里都是本机valSparkMasterHost="127.0.0.1"valCassandraHost="127.0.0.1"//:valconf=newSparkConf(true).set("spark.cassandra.connection.host",CassandraHost).set("spark.cleaner.ttl","3600").setMaster("local[12]").setAppName("CassandraTestApp")//ConnecttotheSparkcluster:lazyvalsc=newSparkContext(conf)//预处理脚本,连接的时候就执行这些CassandraConnector(conf).withSessionDo{session=>session.execute("={'class':'SimpleStrategy','replication_factor':1}")session.execute("CREATETABLEIFNOTEXISTStest.key_value(keyINTPRIMARYKEY,valueVARCHAR)")session.execute("TRUNCATEtest.key_value")session.execute("INSERTINTOtest.key_value(key,value)VALUES(1,'firstrow')")session.execute("INSERTINTOtest.key_value(key,value)VALUES(2,'secondrow')")session.execute("INSERTINTOtest.key_value(key,value)VALUES(3,'thirdrow')")}//加载connectorimportcom.datastax.spark.connector._//Readtabletest.kvandprintitscontents:valrdd=sc.cassandraTable("test","key_value").select("key","value")rdd.collect().foreach(row=>println(s"ExistingData:$row"))//Writetwonewrowstothetest.kvtable:valcol=sc.parallelize(Seq((4,"fourthrow"),(5,"fifthrow")))col.saveToCassandra("test","key_value",SomeColumns("key","value"))//.kvtable:assert(col.collect().length==2)col.collect().foreach(row=>println(s"NewData:$row"))println(s"Workcompleted,stoppingtheSparkcontext.")sc.stop()}}2.目录结构由于构建工具是用sbt，所以目录结构也必须遵循sbt规范，主要是build.sbt和src目录，其它目录会自动生成。qpzhang@qpzhangdeMac-mini:~/scala_code/CassandraTest$lltotal8drwxr-xr-x6qpzhangstaff204112612:14./drwxr-xr-x10qpzhangstaff340112517:30../-rw-r--r--1qpzhangstaff460112610:11build.sbtdrwxr-xr-x3qpzhangstaff102112517:42project/drwxr-xr-x3qpzhangstaff102112517:32src/drwxr-xr-x6qpzhangstaff204112517:55target/qpzhang@qpzhangdeMac-mini:~/scala_code/CassandraTest$treesrc/src/└──main└──scala└──CassandraTest.scalaqpzhang@qpzhangdeMac-mini:~/scala_code/CassandraTest$catbuild.sbtname:="CassandraTest"version:="1.0"scalaVersion:="2.10.4"libraryDependencies+="org.apache.spark"%%"spark-core"%"1.5.2"%"provided"libraryDependencies+="com.datastax.spark"%%"spark-cassandra-connector"%"1.5.0-M2":={casePathList(ps@_*)ifps.lastendsWith".properties"=>MergeStrategy.firstcasex=>valoldStrategy=().valueoldStrategy(x)}这里需要注意的是，sbt安装的是当时最新版本0.13,并且安装了assembly插件(这里要吐槽一下sbt，下载一坨坨的jar包，最好有FQ代理，否则下载等待时间很长)。qpzhang@qpzhangdeMac-mini:~/scala_code/CassandraTest$cat~/.sbt/0.13/plugins/plugins.sbtaddSbtPlugin("com.typesafe.sbteclipse"%"sbteclipse-plugin"%"2.5.0")addSbtPlugin("com.eed3si9n"%"sbt-assembly"%"0.14.1")3.sbt编译打包在build.sbt目录下，使用sbt命令启动。然后使用compile命令进行编译，使用assembly进行打包。在次期间，遇到了sbt-assembly-deplicate-error的问题，参考这里。>compile[success]Totaltime:0s,completed2015-11-2610:11:50>>assembly[info]Includingfromcache:slf4j-api-1.7.5.jar[info]Includingfromcache:metrics-core-3.0.2.jar[info]Includingfromcache:netty-codec-4.0.27.Final.jar[info]Includingfromcache:netty-handler-4.0.27.Final.jar[info]Includingfromcache:netty-common-4.0.27.Final.jar[info]Includingfromcache:joda-time-2.3.jar[info]Includingfromcache:netty-buffer-4.0.27.Final.jar[info]Includingfromcache:commons-lang3-3.3.2.jar[info]Includingfromcache:jsr166e-1.1.0.jar[info]Includingfromcache:cassandra-clientutil-2.1.5.jar[info]Includingfromcache:joda-convert-1.2.jar[info]Includingfromcache:netty-transport-4.0.27.Final.jar[info]Includingfromcache:guava-16.0.1.jar[info]Includingfromcache:spark-cassandra-connector_2.10-1.5.0-M2.jar[info]Includingfromcache:cassandra-driver-core-2.2.0-rc3.jar[info]Includingfromcache:scala-reflect-2.10.5.jar[info]Includingfromcache:scala-library-2.10.5.jar[info]Checkingevery*.class/*.jarfile'sSHA-1.[info]Mergingfiles[warn]Merging'META-INF/INDEX.LIST'withstrategy'discard'[warn]Merging'META-INF/MANIFEST.MF'withstrategy'discard'[warn]Merging'META-INF/io.netty.versions.properties'withstrategy'first'[warn]Merging'META-INF/maven/com.codahale.metrics/metrics-core/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/com.datastax.cassandra/cassandra-driver-core/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/com.google.guava/guava/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/com.twitter/jsr166e/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/io.netty/netty-buffer/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/io.netty/netty-codec/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/io.netty/netty-common/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/io.netty/netty-handler/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/io.netty/netty-transport/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/joda-time/joda-time/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/org.apache.commons/commons-lang3/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/org.joda/joda-convert/pom.xml'withstrategy'discard'[warn]Merging'META-INF/maven/org.slf4j/slf4j-api/pom.xml'withstrategy'discard'[warn]Strategy'discard'wasappliedto15files[warn]Strategy'first'wasappliedtoafile[info]SHA-1:[info]Packaging/Users/qpzhang/scala_code/CassandraTest/target/scala-2.10/CassandraTest-assembly-1.0.jar[info]Donepackaging.[success]Totaltime:19s,completed2015-11-2610:12:224.提交到spark，执行结果qpzhang@qpzhangdeMac-mini:~/project/spark-1.5.2-bin-hadoop2.6$./bin/spark-submit--class"CassandraTestApp"--masterlocal[4]~/scala_code/CassandraTest/target/scala-2.10/CassandraTest-assembly-1.0.jar//5/11/2611:40:23INFOTaskSetManager:Startingtask0.0instage0.0(TID0,localhost,NODE_LOCAL,26660bytes)15/11/2611:40:23INFOExecutor:Runningtask0.0instage0.0(TID0)15/11/2611:40:23INFOExecutor:Fetchinghttp://10.60.215.42:57683/jars/CassandraTest-assembly-1.0./11/2611:40:23INFOCassandraConnector::TestCluster15/11/2611:40:23INFOUtils:Fetchinghttp://10.60.215.42:57683/jars/CassandraTest-assembly-1.0.jarto/private/var/folders/2l//T/spark-4030cadf-8489-4540-976e-e98eedf50412/userFiles-63085bda-aa04-4906-9621-c1cedd98c163/.tmp15/11/2611:40:23INFOExecutor:Addingfile:/private/var/folders/2l//T/spark-4030cadf-8489-4540-976e-e98eedf50412/userFiles-63085bda-aa04-4906-9621-c1cedd98c163/CassandraTest-assembly-1.0.jartoclassloader15/11/2611:40:24INFOCluster:NewCassandrahostlocalhost/127.0.0.1:9042added15/11/2611:40:24INFOCassandraConnector:ConnectedtoCassandracluster:TestCluster15/11/2611:40:25INFOExecutor:Finishedtask0.0instage0.0(TID0).2676bytesresultsenttodriver15/11/2611:40:25INFOTaskSetManager:Finishedtask0.0instage0.0(TID0)in2462msonlocalhost(1/1)15/11/2611:40:25INFOTaskSchelerImpl:RemovedTaskSet0.0,whosetaskshaveallcompleted,frompool15/11/2611:40:25INFODAGScheler:ResultStage0(collectatCassandraTest.scala:32)finishedin2.481s15/11/2611:40:25INFODAGScheler:Job0finished:collectatCassandraTest.scala:32,took2.940601sExistingData:CassandraRow{key:1,value:firstrow}ExistingData:CassandraRow{key:2,value:secondrow}ExistingData:CassandraRow{key:3,value:thirdrow}//..5/11/2611:40:27INFOTaskSchelerImpl:RemovedTaskSet3.0,whosetaskshaveallcompleted,frompool15/11/2611:40:27INFODAGScheler:ResultStage3(collectatCassandraTest.scala:41)finishedin0.032s15/11/2611:40:27INFODAGScheler:Job3finished:collectatCassandraTest.scala:41,took0.046502sNewData:(4,fourthrow)NewData:(5,fifthrow)Workcompleted,stoppingtheSparkcontext.cassandra中的数据cqlsh:test>select*fromkey_value;key|value-----+------------5|fifthrow1|firstrow2|secondrow4|fourthrow3|thirdrow(5rows)到此位置，还算顺利，除了assembly重复文件的问题，都还算ok。

导航:首页 > 源码编译 > sbt打包文件未编译

sbt打包文件未编译

与sbt打包文件未编译相关的资料