集群运行spark、hadoop程序,可以通过UI界面查看进程状态,如图所示,可登陆到界面查看程序运行状态。
可以通过application ID查看程序的日志信息以及输出信息,如图,查看logs



2.1、kill掉不需要的整个shell程序,(kill掉某个进程进到UI界面的ApplicationMaster,点击kill的即可以),具体命令
yarn application -kill 你的application_id(application_id可通过上诉的方式找到)

2.2、查看spark程序日志信息的命令(其他类型程序应该也可以)
(由于程序跑完,一般日志信息就不存在了,可以把集群端的日志信息复制到本地服务器上查看)
yarn logs -applicationId application_70_(具体的任务ID) > application_70_(存储到本地的文件名字)
然后less application_70_打开,然后在命令行先输入一个”/“,然后输入你要搜索的比如Exception,你就可以找到一些异常的地方。
打开spark-shell交互命令行的脚本:
spark-shell –master yarn –name zlc-spark-shell –queue “marvel.service”
–executor-memory 12g –executor-cores 4 –num-executors 128 –driver-memory 10g –conf spark.sql.orc.enabled=true
–conf spark.sql.hive.convertMetastoreParquet=false
–master yarn这个表示用集群跑
–queue “marvel.service”指定集群哪个队列跑
–executor-memory 12g每个集群的机器给12G的内存
–num-executors 32总共需要32台机器
–executor-cores 4每个机器需要多少核并行跑
–driver-memory 10gdriver机器的内存

对于一般的只有一个主要jar包的情况:
hdfs_param=程序中使用的参数文件路径json文件(一般提交到hdfs上)
JAR=task2_train-1.0-SNAPSHOT.jar(jar的路径,如果和脚本在一个目录下,可以直接写jar包名字)
CLASS=TrainModel(指定好入口类名)(上述的的JAR和CLASS、hdfs也可以直接在下面的运行命令参数行写,不一定这样写,可参照下面样例)
对于存在多个jar包,其中部分的jar包为依赖包的命令:
PS:注意每个行之后有“”
1、使用json文件提交配置参数的情况(类似上述spark-submit第一个)
2、直接在命令行写入参数的情况


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/151006.html