随笔分类 -  etl

dbt 集成presto试用
摘要:dbt 团队提供了presto 的adapter同时也是一个不错的的参考实现,可以学习 当前dbt presto 对于版本的要求是0.13.1 对于当前最新版本的还不支持,同时需要使用源码安装pip 包 dbt presto pip 包安装 clone 代码包 git clone https://g 阅读全文

posted @ 2019-07-11 16:40 荣锋亮 阅读(728) 评论(0) 推荐(0)

dbt 0.14.0 试用
摘要:dbt 0.14.0 在最近已经发布了,dbt server 的还是很不错的特性,以下安装试用下几个新功能 环境准备 安装 如果没有安装的: pip install dbt 已经安装的: pip install -U dbt 如果没有安装的: pip install dbt 已经安装的: pip i 阅读全文

posted @ 2019-07-11 15:08 荣锋亮 阅读(845) 评论(0) 推荐(0)

dbt 0.14.0 发布
摘要:以下内容来自官方博客,新的功能还是很不错的,后边尝试使用下。 参考资料:https://blog.fishtownanalytics.com/dbt-v0-14-0-better-serving-our-users-bf7cdbbcd5d2 Introducing dbt v0.14.0 Today 阅读全文

posted @ 2019-07-11 08:55 荣锋亮 阅读(669) 评论(0) 推荐(0)

pgloader 学习(九) pg 2 pg 使用with 参数控制同步逻辑
摘要:pgloader 支持比较丰富的配置参数,同时默认数据在同步的时候是会进行索、schema 以及数据的同步对于实际我们可能存在需要进行控制,我们可以通过with 参数方便的处理 参考配置 load 文件 load database from pgsql://postgres:dalong@postg 阅读全文

posted @ 2019-06-27 12:53 荣锋亮 阅读(992) 评论(0) 推荐(0)

pgloader 学习(八) pg 2 pg 简单demo
摘要:pg 数据到pg 数据的迁移,同时支持名称的变更 环境准备 docker-compose文件 内容偏多可以忽略部分 version: "3" services: pgloader-csv: image: dimitri/pgloader volumes: - "./init-db:/opt/db" 阅读全文

posted @ 2019-06-13 21:11 荣锋亮 阅读(965) 评论(0) 推荐(0)

pgloader 学习(七) 从归档文件加载数据
摘要:我们可以直接从zip,tar,gzip 文件获取内容 command file 参考格式 LOAD ARCHIVE FROM /Users/dim/Downloads/GeoLiteCity-latest.zip INTO postgresql:///ip4r ​ BEFORE LOAD DO $$ 阅读全文

posted @ 2019-06-13 20:31 荣锋亮 阅读(484) 评论(0) 推荐(0)

pgloader 学习(六) 加载csv 数据
摘要:关于加载的配置参数都是使用comand file command file 参考格式 LOAD CSV FROM 'GeoLiteCity-Blocks.csv' WITH ENCODING iso-646-us HAVING FIELDS ( startIpNum, endIpNum, locId 阅读全文

posted @ 2019-06-13 20:17 荣锋亮 阅读(901) 评论(0) 推荐(0)

pgloader 学习(五)pgloader 参考手册
摘要:pgloader将各种来源的数据加载到PostgreSQL中。它可以转换动态读取的数据,并在加载前后提交原始SQL。 它使用COPY PostgreSQL协议将数据流式传输到服务器,并通过填充一对reject.dat和reject.log文件来管理错误 pgloader 的操作,可以使用命令行参数, 阅读全文

posted @ 2019-06-13 14:48 荣锋亮 阅读(4600) 评论(0) 推荐(0)

pgloader 学习(四)一些简单操作例子
摘要:上边已经说明了pgloader 的基本使用(篇理论),但是对于实际操作偏少,以下是一个简单的操作 不像官方文档那样,我为了方便,直接使用docker-compose 运行,同时这个环境,会在后边大部分场景使用,同时 对于pgloader 的dsl暂时不会仔细说明,后边会有介绍 环境准备 docker 阅读全文

posted @ 2019-06-13 11:13 荣锋亮 阅读(1804) 评论(0) 推荐(0)

pgloader 学习(三)快速使用
摘要:pgloader 支持多种数据源数据的加载,以下列出简单的操作命令,后边会有详细的使用说明 csv 格式内容加载 预备说明 需要先在pg 数据库创建表 create table districts_longlat ( usps text, geoid text, aland bigint, awat 阅读全文

posted @ 2019-06-13 09:44 荣锋亮 阅读(1307) 评论(0) 推荐(0)

pgloader 学习(二)特性矩阵&&命令行
摘要:pgloader 对于各种数据库支持的还是很完整的,同时有一套自己的dsl 特性矩阵 操作命令 命令格式 pgloader [<options>] [<command-file>]... pgloader [<options>] SOURCE TARGET pgloader [<options>] 阅读全文

posted @ 2019-06-13 09:24 荣锋亮 阅读(575) 评论(0) 推荐(0)

pgloader 学习(一)支持的特性
摘要:pgloader 是一个不错的多种格式数据同步到pg 的工具,pgloader 使用postrgresql 的copy 协议进行高效的数据同步处理 特性 加载文件到内容pg 多种数据源格式的支持 csv、fixed 列、dbase、sqlte、ibm ixf、postgresql、mysql、sql 阅读全文

posted @ 2019-06-13 09:19 荣锋亮 阅读(668) 评论(0) 推荐(0)

pgloader 方便的数据迁移工具
摘要:pgloader 是一个支持多种数据源迁移到pg 数据库的工具,高性能,使用灵活同时作者 也提供了docker 版本的镜像,今年3月份使用此工具的时候,发现好久都没更新了,但是 最近作者有了新版本的发布,同时支持pg to pg,修复了部分bug,同时也有了新的官方 文档。 同时作者提出的Conti 阅读全文

posted @ 2019-06-12 10:00 荣锋亮 阅读(780) 评论(0) 推荐(0)

My journey introducing the data build tool (dbt) in project’s analytical stacks
摘要:转自:https://www.lantrns.co/my-journey-introducing-the-data-build-tool-dbt-in-projects-analytical-stacks/ Not sure I remember how, but I had the good lu 阅读全文

posted @ 2019-06-05 18:28 荣锋亮 阅读(463) 评论(0) 推荐(0)

使用singer tap-postgres 同步数据到pg
摘要:singer 是一个很不错的开源etl 解决方案,以下演示一个简单的数据从pg 同步到pg 很简单就是使用tap-postgres + target-postgres 环境准备 对于测试的环境的数据库使用docker-compose 运行 docker-compose 文件 version: "3" 阅读全文

posted @ 2019-06-05 15:07 荣锋亮 阅读(1316) 评论(1) 推荐(0)

使用singer 转换gitbase 数据到postgresql
摘要:gitbase 是mysql server 的一个实现(主要是用来分析git仓库代码),但是里面好多功能可能并不是很强大(sql 的限制) 我们可以通过singer 的tap-mysql 将数据抽取到标准的pg 数据库,可以方便的使用pg 的好多函数 参考使用 mysql-postgresql 的可 阅读全文

posted @ 2019-05-19 17:05 荣锋亮 阅读(241) 评论(0) 推荐(1)

Introducing Outflux: a smart way out of InfluxDB
摘要:转自:https://blog.timescale.com/migrate-outflux-a-smart-way-out-of-influxdb/ Migrate your workload from InfluxDB to TimescaleDB with just a single comma 阅读全文

posted @ 2019-04-12 11:17 荣锋亮 阅读(317) 评论(0) 推荐(0)

使用outflux 导入influxdb 的数据到timescaledb
摘要:influxdb 以及timescaledb 都是不错的时序数据库,timescaledb 团队提供了直接从influxdb 导入 环境准备 docker-compose 文件 version: "3" services: timescaledb: image: timescale/timescal 阅读全文

posted @ 2019-04-12 11:12 荣锋亮 阅读(659) 评论(0) 推荐(0)

Singer 学习十三 发现模式
摘要:发现模式 发现模式提供了一种描述tap 支持数据流的方式,使用了json schema 做为描述数据的结构以及每个数据流的 类型,发现模式的实现依赖tap 的数据源,有些taps 将硬编码每个流的模式,而其他的将连接到提供可用流的 描述的api,当运行发现模式时,tap 应该写如stdout 流列表 阅读全文

posted @ 2019-01-09 22:36 荣锋亮 阅读(313) 评论(0) 推荐(0)

Singer 学习十二 指南
摘要:版本0.3.0 tap是一个应用程序,需要一个配置文件和可选的状态文件作为输入,并产生有序的流记录, 状态和模式信息作为输出。 一个记录是任何类型的JSON编码的数据。tap 状态消息用于保留一个调用之间的信息。一个模式消息描述stream 中的 数据类型。Tap可以用任何编程语言实现。 tap设计 阅读全文

posted @ 2019-01-09 19:10 荣锋亮 阅读(438) 评论(0) 推荐(0)

导航