Daft delta lake 集成简单试用
Daft 对于delta lake 支持本地写入以及基于catalog的,当前内部基于了delta-rs,对于catalog 的支持包含了aws glue 以及unity
以下是本地简单试用,对于基于unitycatalog的后边介绍下
简单试用
- 本地写入
import daft
df = daft.read_parquet("yellow_tripdata_2023-01.parquet")
df.write_deltalake("myappdemov2", mode="append")
- 本地查询
df = daft.read_deltalake("myappdemov2")
print(df.collect())
- sql 查询
直接使用Daft 内部的sql 处理
import daft
from daft.sql import SQLCatalog
df = daft.read_deltalake("myappdemov2")
sql_catalog = SQLCatalog({"mydemo":df})
result_df = daft.sql("SELECT * FROM mydemo where VendorID=1",catalog=sql_catalog)
print(result_df.collect())
- delta lake 表效果
注意目前创建的读版本最小是3,对于其他引擎需要查询的注意

参考资料
https://www.getdaft.io/projects/docs/en/stable/user_guide/integrations/delta_lake.html
https://delta-io.github.io/delta-rs/why-use-delta-lake/
https://www.getdaft.io/projects/docs/en/stable/user_guide/integrations/unity-catalog.html
浙公网安备 33010602011771号