Spark通信架构

Spark架构体系中,各个组件通过RPC协议通信。本文基于spark-3.5.1版本。

nieo nieo 发布于 2024-04-10

Spark Shuffle简述

Spark Shuffle用于将Map阶段的数据输出到Reduce阶段。

nieo nieo 发布于 2024-04-10

Kerberos认证简述

官网中对Kerberos的介绍是“Kerberos is a network authentication protocol. It is designed to provide strong authentication for client/server applications by using secret-key cryptography”。也就是说Kerberos是一个网络授权协议,主要通过密钥加密实现C/S应用的强授权。

nieo nieo 发布于 2024-04-07

Ranger Plugin启动及策略同步

Ranger Plugin无法独立存在,是伴随着服务进程的启动而存在的。

nieo nieo 发布于 2024-04-06

Ranger简述

官网介绍:Apache Ranger is a framework to enable, monitor and manage comprehensive data security across the Hadoop platform.

nieo nieo 发布于 2024-04-06

Zookeeper参数——sessionTimeout

zookeeper连接中,sessionTimeout参数扮演中重要作用

nieo nieo 发布于 2024-04-05

Zookeeper CreateMode

也就是Zookeeper znode的创建模式,共有7种不同的类型,分别对应着不同的应用场景。

nieo nieo 发布于 2024-04-05

Zookeeper监听器

介绍Zookeeper监听器原理和监听事件

nieo nieo 发布于 2024-04-05

Zookeeper简述

官网定义:Apache ZooKeeper is an effort to develop and maintain an open-source server which enables highly reliable distributed coordination.

nieo nieo 发布于 2024-04-05

spark参数——spark.yarn.jars和spark.yarn.archive

Spark on Yarn模式中,我们可以通过spark.yarn.jars和spark.yarn.archive预置spark jars到HDFS中,当提交spark任务时,就不需要把${SPARK_HOME}/jars目录下的jar包上传到hdfs中,可以大大降低spark任务提交过程耗时。

nieo nieo 发布于 2024-04-03