sail ai 领域的大数据处理平台
sail 是支持批流处理的面相ai 工作负载的计算平台,基于rust 编写,使用了apache arrow 以及datafusion,可以用来替换spark sql 以及spark dataframe api ,设计上比较有意思,sail 提供了spark connect 兼容的grpc 协议,这样spark client 就可以直接通过spark api 访问 sail 服务了,当然相比原生spark 还是有一些差异,当前支持datafrrame sql,,对于pandas,structured streaming 在规划中,其他的一些模式(rddl,mllib,spark sreaming,grapghx)目前看着是没有支持的计划
说明
官方有一些性能比较,效果还是很不错的,后边可以尝试下
参考资料
https://github.com/lakehq/sail
https://spark.apache.org/docs/latest/spark-connect-overview.html
https://docs.lakesail.com/sail/latest/introduction/migrating-from-spark/
https://docs.lakesail.com/sail/latest/introduction/benchmark-results/