soda-data dremio 集成使用

以前简单介绍过soda 数据质量工具,以下是关于dremio 集成的一个说明

环境准备

python -m venv venv
source venv/bin/activate
pip install soda-core-dremio

使用

  • soda 配置
    注意以下配置,如果是软件的,token 配置为"", 否则,可能运行会有问题
    configuration.yml
data_source dremio:
  type: dremio
  driver: /Library/Dremio/ODBC/lib/libarrow-flight-sql-odbc.dylib
  host: localhost
  username: admin
  password: admin123
  schema: s3v2
  token: ""
  • 测试链接配置
soda test-connection -d dremio -c configuration.yml
  • sodacl 定义
    checks.yml
checks for dbt.dalongdemov2:
  - duplicate_count(name) = 0:
      name: No duplicate names

注意: 其中的多for 后边部分就是dremio 的datasets 地址

  • 执行scan
soda scan -d dremio -c configuration.yml checks.yml -srf app.json

效果

json结果

说明

基于soda 进行数据质量的处理还是很方便强大的,包含了很强大的cl 语言,可以方便的数据质量处理,和dremio 集成起来也是一个很不错的

参考资料

https://github.com/sodadata/soda-core
https://docs.soda.io/soda/quick-start-sip.html
https://docs.soda.io/soda/connect-dremio.html
https://docs.soda.io/soda-cl/metrics-and-checks.html
https://github.com/rongfengliang/dremio_cluster_docker-compose

posted on 2024-03-22 08:00  荣锋亮  阅读(14)  评论(0编辑  收藏  举报

导航