新挖个坑,准备学习一下databricks的spark博客
挖坑 https://databricks.com/blog
一、spark3.0特性(Introducing Apache Spark 3.0)
1、通过通过自适应查询执行,动态分区修剪和其他优化使得与Spark 2.4相比,TPC-DS的性能提高了2倍
2、改进了pandas API
3、优化Python错误处理,简化了PySpark异常
4、结构流的新UI
5、调用RUDF的速度提高40倍
6、符合ANSI SQL