发布模式

gitk --simplify-by-decoration --all


猜测:

各个版本特性

https://spark.apache.org/releases/
https://spark.apache.org/news/index.html

0.5.x

0.6.x

0.7.x

0.8.x

这个版本开始有了databricks的博客,可以参考这个学习

0.9.x

issue tracker使用:地址

1.0.x

1.1.x

这个版本的spark增强了磁盘(非内存)的排序的速率(并在100tb的比赛中击败了hadoop,2014年11月),涉及几个重要的pr参考:

1.2.x

1.3.x

1.4.x

从1.4这个版本开始引入了一个重要的优化项目Tungsten(1.5也有),关于Tungsten的优化列表参考,1.4主要是:

  1. 显式的对内存进行高效的管理(针对df的agg函数)-codegen
  2. 自定义的序列化器(jira中觉得Kryo还是慢)

1.5.x

这个版本继续优化项目Tungsten,包括:

  1. expanded binary memory management:更多的操作支持内存管理-codegen
  2. cache-aware data structures:设计算法和数据结构以充分利用memory hierarchy

细节变化参考

1.6

spark-core/spark sql

spark-streaming

mllib

bug-fix

1.6.1
1.6.2
1.6.3

2.0.x

detail changes

spark-core/spark-sql

MLlib

spark streaming

sparkR

支持udf

其他

issue

Catalog和自定义Optimizer

https://bigdata-ny.github.io/2016/08/21/spark-two-series-part-2/

2.1.x

2.2.x

2.3.x

Core, PySpark and Spark SQL

Structured Streaming

mllib

这个版本ml变化挺多,看releasenote

bug-fix

总结:
spark2.x很少包含spark-core的大优化了,大部分是spark-sql