Yarn状态机设计

本文基于Hadoop-3.5.0,解读Yarn的状态机

nieo nieo 发布于 2024-07-30

Ranger初始化Patch机制

Ranger在初始化时,会进行一系列的数据库操作,以完成服务运行所需的基础环境配置。本文基于ranger-2.4.0。

nieo nieo 发布于 2024-04-25

Hive源码——HiveStorageHandler

Hive存储处理器的实现,本文基于Hive-4.0.0

nieo nieo 发布于 2024-04-23

SparkHistoryServer历史记录清理机制

Spark任务在执行过程中,会产生大量的Event,是用来记录任务的执行过程的。这些Event会被记录到DistributedFileSystem中,随着时间的积累,这些在dfs中的记录需要被清理,这就是清理机制需要完成的工作。

nieo nieo 发布于 2024-04-21

Zookeeper参数——sessionTimeout

zookeeper连接中,sessionTimeout参数扮演中重要作用

nieo nieo 发布于 2024-04-05

spark参数——spark.yarn.jars和spark.yarn.archive

Spark on Yarn模式中,我们可以通过spark.yarn.jars和spark.yarn.archive预置spark jars到HDFS中,当提交spark任务时,就不需要把${SPARK_HOME}/jars目录下的jar包上传到hdfs中,可以大大降低spark任务提交过程耗时。

nieo nieo 发布于 2024-04-03

Kafka服务端配置

本文基于kafka2.7源码,介绍Kafka服务端相关的配置,属性定义在类kafka.server.KafkaConfig.scala中,通过功能分类,可分为以下20个大类,共215个配置属性,下面分别进行介绍。

Administrator Administrator 发布于 2024-04-02

KafkaServer.startup方法

基于kafka2.7源码,介绍kafka.server.KafkaServer.startup()方法

Administrator Administrator 发布于 2024-04-02

Ranger Client策略下载过程

Ranger对策略下载请求发送和处理过程源码解析

Administrator Administrator 发布于 2024-03-28

Kafka Consumer Group Rebalance机制v3

为了解决方案二的两个问题,kafka进行了新一轮的Rebalance方案优化

Administrator Administrator 发布于 2017-06-15