Spark发布版本历程


发布于 2024-07-18 / 77 阅读 / 0 评论 /
Spark各发布版本的发布时间和官方文档说明

本文发布信息参考官方文档https://spark.apache.org/releases/

发布时间参考官方文档https://spark.apache.org/news/index.html

Spark 0.x

Spark 0.x系列从2012年开始发行,共发行了以下版本。

Spark 0.6.0(2012-10-15)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-6-0.html

当前版本最重要的特性是:新增了Standalone部署模式以及Java API。

Spark 0.6.1(2012-11-22)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-6-1.html

当前版本开始支持Hadoop 2.x系列。

Spark 0.6.2(2013-02-07)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-6-2.html

当前版本支持在不同zone下的EC2上部署Spark集群,更好地检测服务器的外网IP。

Spark 0.7.0(2013-02-27)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-7-0.html

当前版本最重要的特性是新增了Python API用于执行Spark任务,以及新增Spark Streaming的alpha版本。

Spark 0.7.2(2013-06-02)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-7-2.html

当前版本主要特性有:

(1)Scala版本升级到2.9.3

(2)新增subtractByKey、foldByKey、mapWith、filterWith、foreachPartition等算子

(3)支持standalone模式下,同一个服务器中启动多个worker实例。

Spark 0.7.3(2013-07-16)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-7-3.html

此版本主要是性能提升以及bugfix。

Spark 0.8.0(2013-09-25)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-8-0.html

这是进入Apache孵化器后的第一个版本。此版本主要有以下特性:

(1)新增了机器学习模块MLlib

(2)支持Hadoop Yarn集群上运行Spark任务,这不再是一个试验品,而是Spark发布的主线功能之一。

(3)把spark中类的包名固定为org.apache.spark

Spark 0.8.1(2013-12-19)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-8-1.html

此版本包含以下变更:

(1)支持Yarn 2.2+

(2)支持Standalong部署模式下的高可用,使用zookeeper作为协调器

(3)优化hashtable的数据shuffle,减少内存和CPU消耗。

(4)开启shuffle consolidation,减少大shuffle过程中产生的文件数量。

(5)支持fetch大数据集,不需要调节Akka缓冲区大小。

(6)新算子支持,比如Spark算子repartition,Spark-Streaming算子transformWith、leftInnerJoin和rightOuterJoin。

Spark 0.9.0(2014-02-02)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-9-0.html

此版本包含以下新特性:

(1)升级Scala到2.10

(2)Spark Streaming中窗口算子提速30%~50%

(3)新增StreamingListener接口,用于监控Spark Streaming任务的指标。

(4)新增GraphX模块,用于图计算处理。

Spark 0.9.1(2014-04-09)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-9-1.html

Spark 0.9.2(2014-07-23)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-0-9-2.html

Spark 1.x

Spark 1.x系列从2014年开始发布,共发行了以下版本

Spark 1.0.0(2014-05-30)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-0-0.html

Spark 1.0.1(2014-07-11)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-0-1.html

Spark 1.0.2(2014-08-05)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-0-2.html

Spark 1.1.0(2014-09-11)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-1-0.html

Spark 1.1.1(2014-11-26)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-1-1.html

Spark 1.2.0(2014-12-18)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-2-0.html

Spark 1.2.1(2015-02-09)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-2-1.html

Spark 1.2.2(2015-04-17)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-2-2.html

Spark 1.3.0(2015-03-13)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-3-0.html

Spark 1.3.1(2015-04-17)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-3-1.html

Spark 1.4.0(2015-06-11)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-4-0.html

Spark 1.4.1(2015-07-15)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-4-1.html

Spark 1.5.0(2015-09-09)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-5-0.html

Spark 1.5.1(2015-10-02)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-5-1.html

Spark 1.5.2(2015-11-09)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-5-2.html

Spark 1.6.0(2016-01-04)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-6-0.html

Spark 1.6.1(2016-03-09)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-6-1.html

Spark 1.6.2(2016-06-25)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-6-2.html

Spark 1.6.3(2016-11-07)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-1-6-3.html

Spark preview 2.0(2016-05-26)

详细发布信息可参考官方文档

Spark 2.x

Spark 2.x系列从2016年开始发布,共发行了以下版本

Spark 2.0.0(2016-07-26)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-0-0.html

Spark 2.0.1(2016-10-03)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-0-1.html

Spark 2.0.2(2016-11-14)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-0-2.html

Spark 2.1.0(2017-01-04)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-1-0.html

Spark 2.1.1(2017-05-02)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-1-1.html

Spark 2.2.0(2017-07-11)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-2-0.html

Spark 2.1.2(2017-09-09)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-1-2.html

Spark 2.2.1(2017-12-01)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-2-1.html

Spark 2.3.0(2018-02-28)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-3-0.html

Spark 2.3.1(2018-06-08)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-3-1.html

Spark 2.1.3(2018-06-29)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-1-3.html

Spark 2.2.2(2018-07-02)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-2-2.html

Spark 2.3.2(2018-09-24)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-3-2.html

Spark 2.4.0(2018-11-02)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-0.html

Spark 2.2.3(2019-01-11)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-2-3.html

Spark 2.3.3(2019-02-15)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-3-3.html

Spark 2.4.1(2019-03-31)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-1.html

Spark 2.4.2(2019-04-23)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-2.html

Spark 2.4.3(2019-05-08)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-3.html

Spark 2.4.4(2019-09-01)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-4.html

Spark 2.3.4(2019-09-09)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-3-4.html

Spark 2.4.5(2020-02-08)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-5.html

Spark 2.4.6(2020-06-05)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-6.html

Spark 2.4.7(2020-09-12)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-7.html

Spark 2.4.8(2021-05-17)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-2-4-8.html

Spark 3.x

Spark 3.x从2020年开始发布,共发行了以下版本。

Spark preview 3.0(2019-12-23)

详细发布信息可参考官方文档

Spark 3.0.0(2020-06-18)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-0-0.html

Spark 3.0.1(2020-09-08)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-0-1.html

Spark 3.0.2(2021-02-19)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-0-2.html

Spark 3.1.1(2021-03-02)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-1-1.html

Spark 3.1.2(2021-06-01)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-1-2.html

Spark 3.0.3(2021-06-23)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-0-3.html

Spark 3.2.0(2021-10-13)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-2-0.html

Spark 3.2.1(2022-01-26)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-2-1.html

Spark 3.1.3(2022-02-18)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-1-3.html

Spark 3.3.0(2022-06-16)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-3-0.html

Spark 3.2.2(2022-07-17)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-2-2.html

Spark 3.3.1(2022-10-25)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-3-1.html

Spark 3.2.3(2022-11-28)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-2-3.html

Spark 3.3.2(2023-02-17)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-3-2.html

Spark 3.2.4(2023-04-13)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-2-4.html

Spark 3.4.0(2023-03-13)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-4-0.html

此版本主要包含以下重要更新

(1)支持bloom过滤器聚合

(2)大量application下,Spark UI扩展性和Driver稳定性提升。

(3)Spark Streaming任务的异步进程跟踪。

(4)支持纯IPV6环境。

(5)支持客户自定义k8s调度器

Spark 3.4.1(2023-06-23)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-4-1.html

此版本主要是bugfix,共67个bug。

Spark 3.3.3(2023-08-21)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-3-3.html

Spark 3.5.0(2023-09-13)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-5-0.html

此版有包含以下重要变更

(1)Spark Connect模块支持Scala和Go客户端

(2)Spark Connect模块支持PyTorch用于机器学习分析。

(3)Spark Connect模块支持Python和Scala的流式处理。

(4)支持Python版本的udf

(5)支持Datasketches HllSketch,这是对Hyperloglog的性能提升,用于基数统计评估。

(6)RocksDB作为状态存储的内存管理优化。

(7)升级Netty、protobuf-java(3.23.4)、Kafka(3.4.1)、log4j2(2.20.0)、slf4j(2.0.7)、 jetty(9.4.52.v20230823)、compress-lzf(1.1.2)

Spark 3.4.2(2023-11-30)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-4-2.html

此版本主要是bugfix,共72个bug。包含以下重要修复

(1)group by序数幂等性。

(2)SPJ未触发情况下,一些场景可能出现不准确结果的问题。

(3)k8s默认service的token文件无法物化为token

(4)k8s场景下,SparkSubmit不支持--total-executor-cores命令行选项问题。

Spark 3.3.4(2023-12-16)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-3-4.html

Spark 3.5.1(2024-02-23)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-5-1.html

此版本包含以下变更:

(1)升级ORC到1.9.2

(2)使用spark.sql.parquet.enableNestedColumnVectorizedReader=true时数据丢失问题[SPARK-44805]

(3)从3.2.0版本开始,Spark SQL(show partitions)执行变慢的问题[SPARK-45205]

(4)JDBC表缓存无效问题[SPARK-45449]

(5)MySQL语法中,TINYINT类型无法正确转换问题[SPARK-45561]

(6)以及包含其余共121个bug。

Spark 3.4.3(2024-04-18)

详细发布信息可参考官方文档https://spark.apache.org/releases/spark-release-3-4-3.html

此版本主要是bugfix,共51个bug。并升级三个依赖包snappy(1.1.10.5)、Jetty(9.4.54.v20240208)、 ORC(1.8.7)

Spark 4.x

Spark 4.x系列从2024年开始发布,共发布了以下版本。

Spark preview 4.0(2024-06-03)

详细发布信息可参考官方文档