Spark任务在执行过程中,会产生大量的Event,是用来记录任务的执行过程的。这些Event会被记录到DistributedFileSystem中,随着时间的积累,这些在dfs中的记录需要被清理,这就是清理机制需要完成的工作。
Spark on Yarn模式中,我们可以通过spark.yarn.jars和spark.yarn.archive预置spark jars到HDFS中,当提交spark任务时,就不需要把${SPARK_HOME}/jars目录下的jar包上传到hdfs中,可以大大降低spark任务提交过程耗时。
本文基于kafka2.7源码,介绍Kafka服务端相关的配置,属性定义在类kafka.server.KafkaConfig.scala中,通过功能分类,可分为以下20个大类,共215个配置属性,下面分别进行介绍。
基于kafka2.7源码,介绍kafka.server.KafkaServer.startup()方法
为了解决方案二的两个问题,kafka进行了新一轮的Rebalance方案优化