新挖个坑,准备学习一下databricks的spark博客

挖坑 https://databricks.com/blog

一、spark3.0特性(Introducing Apache Spark 3.0)

1、通过通过自适应查询执行,动态分区修剪和其他优化使得与Spark 2.4相比,TPC-DS的性能提高了2倍

2、改进了pandas API

3、优化Python错误处理,简化了PySpark异常

4、结构流的新UI

5、调用RUDF的速度提高40倍

6、符合ANSI SQL