Daft delta lake 集成简单试用

Daft 对于delta lake 支持本地写入以及基于catalog的,当前内部基于了delta-rs,对于catalog 的支持包含了aws glue 以及unity

以下是本地简单试用,对于基于unitycatalog的后边介绍下

简单试用

  • 本地写入
import daft
df = daft.read_parquet("yellow_tripdata_2023-01.parquet")
df.write_deltalake("myappdemov2", mode="append")
  • 本地查询
df = daft.read_deltalake("myappdemov2")
print(df.collect())
  • sql 查询

直接使用Daft 内部的sql 处理

import daft

from daft.sql import SQLCatalog

df = daft.read_deltalake("myappdemov2")

sql_catalog = SQLCatalog({"mydemo":df})

result_df = daft.sql("SELECT * FROM mydemo where VendorID=1",catalog=sql_catalog)

print(result_df.collect())
  • delta lake 表效果

注意目前创建的读版本最小是3,对于其他引擎需要查询的注意

参考资料

https://www.getdaft.io/projects/docs/en/stable/user_guide/integrations/delta_lake.html

https://delta-io.github.io/delta-rs/why-use-delta-lake/

https://www.getdaft.io/projects/docs/en/stable/user_guide/integrations/unity-catalog.html

https://github.com/unitycatalog/unitycatalog

https://www.unitycatalog.io/

posted on 2025-02-12 08:00  荣锋亮  阅读(34)  评论(0)    收藏  举报

导航