所有标签

Yarn状态机设计

本文基于Hadoop-3.5.0，解读Yarn的状态机

nieo 发布于 2024-07-30

Ranger在初始化时，会进行一系列的数据库操作，以完成服务运行所需的基础环境配置。本文基于ranger-2.4.0。

nieo 发布于 2024-04-25

Hive存储处理器的实现，本文基于Hive-4.0.0

nieo 发布于 2024-04-23

Spark任务在执行过程中，会产生大量的Event，是用来记录任务的执行过程的。这些Event会被记录到DistributedFileSystem中，随着时间的积累，这些在dfs中的记录需要被清理，这就是清理机制需要完成的工作。

nieo 发布于 2024-04-21

zookeeper连接中，sessionTimeout参数扮演中重要作用

nieo 发布于 2024-04-05

Spark on Yarn模式中，我们可以通过spark.yarn.jars和spark.yarn.archive预置spark jars到HDFS中，当提交spark任务时，就不需要把${SPARK_HOME}/jars目录下的jar包上传到hdfs中，可以大大降低spark任务提交过程耗时。

nieo 发布于 2024-04-03

本文基于kafka2.7源码，介绍Kafka服务端相关的配置，属性定义在类kafka.server.KafkaConfig.scala中，通过功能分类，可分为以下20个大类，共215个配置属性，下面分别进行介绍。

Administrator 发布于 2024-04-02

基于kafka2.7源码，介绍kafka.server.KafkaServer.startup()方法

Administrator 发布于 2024-04-02

Ranger对策略下载请求发送和处理过程源码解析

Administrator 发布于 2024-03-28

为了解决方案二的两个问题，kafka进行了新一轮的Rebalance方案优化

Administrator 发布于 2017-06-15