摘要: 1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销。 Pandas_UDF是在PySpark2.3中新引入的API,由Spark使用Arrow传输数据,使用Pandas 阅读全文
posted @ 2019-01-21 13:51 Bo_hemian 阅读(9072) 评论(0) 推荐(1)