Spark应用依赖jar包的添加解决方案

Spark应用依赖jar包的添加解决方案在 Spark 应用中 我们发现 在 SPARK HOME lib 文件夹中添加 jar 包时并不起作用 那么 要如何使得我们编写的 Sparky 应用依赖的 jar 有效呢 有如下四种方案 1 使用参数 jars 添加本地的第三方 jar 文件 运行 spark submit 脚本的机器上

大家好,我是讯享网,很高兴认识大家。

在Spark应用中,我们发现,在${SPARK_HOME}\lib文件夹中添加jar包时并不起作用。那么,要如何使得我们编写的Sparky应用依赖的jar有效呢?有如下四种方案:

1.使用参数–jars

添加本地的第三方jar文件(运行spark-submit脚本的机器上),可以给定多个jar文件,中间用逗号隔开

 bin/spark-sql --jars /opt/modules/cdh-5.3.6/hive-0.13.1-cdh5.3.6/lib/hive-jdbc-0.13.1-cdh5.3.6.jar 

讯享网

2.使用参数–packages

通过Maven添加的第三方jar文件,可以使用逗号指定多个jar文件,(Spark底层自动实现,首先去默认的repository里面取,如果没有这个jar文件那么就去maven依赖网站自动下载),在linux环境中默认的repository在/home/ibeifeng/.ivy2/jars

讯享网bin/spark-shell --packages mysql:mysql-connector-java:5.1.27 
bin/spark-shell --packages mysql:mysql-connector-java:5.1.27 --repositories http://maven.aliyun.com/nexus/content/groups/public 

3.使用SPARK_CLASSPATH环境变量给定jar文件的路径

可以通过参数spark.driver.extraClasspath和spark.executor.extraClasspath,分别给定driver和executor的额外的classpath的环境路径。

注意:在集群中,要求所有节点均存在对应的jar文件的路径


讯享网

步骤:
(1) cd /opt/modules/cdh-5.3.6/spark-1.6.1-bin-2.5.0-cdh5.3.6
(2) mkdir extjars
(3) 把你需要的第三方的jar文件放在extjars中
(4) 修改spark-env.sh
添加SPARK_CLASSPATH=/opt/modules/cdh-5.3.6/spark-1.6.1-bin-2.5.0-cdh5.3.6/extjars/*

4.将第三方的jar文件打包到最终的jar包里面(常用)

在将Spark应用程序打包时,将依赖的第三方jar文件一起打包。

注意

(1) 当运行是yarn的cluster模式,上面的方法除了第四种,其他的都不可以用,这种情况可以考虑直接将第三方的jar文件放在hadoop的默认的classpath中,默认放在${HADOOP_HOME}\share\hadoop\common\lib或者${HADOOP_HOME}\share\hadoop\yarn\lib

(2) spark应用在运行的时候,对于${SPARK_HOME}\lib文件夹中的jar文件,只会加载一部分datanucleus-.jar 和 spark-assembly-.jar;但是如果运行的环境是spark on yarn and cluster模式的话,只会默认的加载spark-assembly-*.jar

(3) sparksql应用程序集成hive的情况下,如果spark on yarn and cluster模式,请将spark目录下的lib目录里面的datanucleus-*.jar放在hadoop默认的classpath下

转载自:https://blog.csdn.net/luofazha2012/article/details/

小讯
上一篇 2025-04-02 16:30
下一篇 2025-01-07 08:03

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/47780.html