上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 133 下一页

2023年9月19日

feast 开源feature store

摘要: 对于机器学习特征处理是一个比较重要,特征的质量会严重影响模型的质量,而且很多时候我们都是希望实时的特征数据feast 是一个开源的特征存储实现,包含了离线以及实时特征的存储以及获取(包含了sdk,可以进行特征的获取) 参考架构 包含的组件:registry: 对象存储,持久化特征,我们可以通过sdk 阅读全文

posted @ 2023-09-19 14:11 荣锋亮 阅读(391) 评论(0) 推荐(0)

embeddedkafka 方便测试的基于内存的kafka 实现

摘要: embeddedkafka 方便测试的基于内存的kafka 实现,可以用来方便的进行基于kafka 周边的测试目前embeddedkafka提供了stream,core,conenct 以及schema-registry,对于测试场景是一个不错的选择 参考资料 https://github.com/ 阅读全文

posted @ 2023-09-19 13:42 荣锋亮 阅读(129) 评论(0) 推荐(0)

tus java client 使用以及问题说明

摘要: 代码来自官方参考,支持在使用的时候发现了一些问题记录下 参考代码 App.java package org.example; import io.tus.java.client.*; import java.io.File; import java.io.IOException; import ja 阅读全文

posted @ 2023-09-19 13:02 荣锋亮 阅读(300) 评论(0) 推荐(0)

tus-node-server 官方基于node 实现的tus server 1.0 发布

摘要: tus-node-server 是基于typescript 开发的新的nodejs server,通过拆分为独立的包(file,s3,gcs, server ) 包含的特性 完全基于typescript 开发 拆分为了独立的包 提供了新的events 以及hooks 升级了依赖包 重新设计了存储 f 阅读全文

posted @ 2023-09-19 10:59 荣锋亮 阅读(141) 评论(0) 推荐(0)

2023年8月30日

oceanbase odc 开源了

摘要: 我以前也打开简单说过,oceanbase odc 的实现(通过同时猜测的),就在今天odc 整体源码开源了,对于需要自己扩展的同学是比较方便的,同时也可以更好的学习odc 的实现机制 目前odc 包含的组件 client web 前端,同时也有基于electron 包装的客户端,会启动jar 暴露的 阅读全文

posted @ 2023-08-30 21:32 荣锋亮 阅读(144) 评论(0) 推荐(0)

2023年8月22日

apache spark connect 试用

摘要: spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了 connect server 启动 实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中 启动 ./sbin/start-connect-server.sh --packa 阅读全文

posted @ 2023-08-22 22:02 荣锋亮 阅读(621) 评论(0) 推荐(0)

2023年8月21日

spark on k8s 开发部署简单实践

摘要: 实际上就是一个简单的实践,方便参考,对于开发以及运行,集成ci/cd 以及dophinscheduler 任务调度为了方便开发的spark 应用共享以及使用基于s3 进行文件存储(当然dophinscheduler 也是支持自己的资源库的) 参考图 玩法说明 基于gitlab 进行代码管理,通过ci 阅读全文

posted @ 2023-08-21 22:38 荣锋亮 阅读(159) 评论(0) 推荐(0)

2023年8月14日

kestra 试用体验

摘要: kestra 官方是提供了基于docker-compose 运行的模版,以下主要是体验下,实际上kestra 提供的一些能力还是很强大的 尤其是强大的插件开发能力 环境准备 docker-compose 文件 volumes: postgres-data: driver: local kestra- 阅读全文

posted @ 2023-08-14 21:12 荣锋亮 阅读(2871) 评论(1) 推荐(1)

2023年8月12日

kestra apache airflow 可选方案

摘要: 今天我有简单说明过一个mage-ai 的airflow 替换方案,kestra 是另外一个可选方案kestra 使用了yaml 进行piepline 的配置,当然我们也可以直接在ui 中操作,kestra包含了自己的插件系统 适合的业务场景 数据调度 分布式调度 事件驱动workflow 说明 ke 阅读全文

posted @ 2023-08-12 18:28 荣锋亮 阅读(454) 评论(0) 推荐(0)

mage-ai 简单试用体验

摘要: 主要测试下集成minio s3,同时体验下mage-ai 环境准备 docker-compose 文件 version: '3' services: minio: image: minio/minio ports: - "9003:9000" - "19002:19001" environment: 阅读全文

posted @ 2023-08-12 18:21 荣锋亮 阅读(495) 评论(0) 推荐(0)

mage-ai 替换airflow 的现代数据pipeline 平台

摘要: mage-ai 是一个可以替换airflow 的现代数据pipeline 平台 包含的特性 友好的开发体验 支持python,sql,r 语言 不以来DAG 的可开发模式 交互式代码 数据优先 基于云的协作 快速部署 扩展简单 提供可观测性 说明 官方提供来的demo 站点,可以方便的体验学习,目前 阅读全文

posted @ 2023-08-12 13:09 荣锋亮 阅读(368) 评论(0) 推荐(0)

python 新的包构建模式

摘要: 实际上是PEP 517 的定义,主要是对于基于distutils以及setuptools 已经存在太久的时间了,需要一些调整了目前已经有了不少相关的实现了,同时也有不少python 包的开发就是基于了新的规范了,hatch 以及poetry 是一个不错的选择 说明 关于python包开发的,有一本很 阅读全文

posted @ 2023-08-12 12:35 荣锋亮 阅读(59) 评论(0) 推荐(0)

dbt 官方提供的一些强大的周边扩展

摘要: 官方提供的一些不错的dbt 周边扩展 metricflow 此功能属于dbt 语义曾的一个核心组件这个是官方在推广的,对于我们进行数据分析很不错,参考玩法 dbt-meshify 这个属于dbt core 的一个扩展,提供了创建group,contract,access,version 以及进行项目 阅读全文

posted @ 2023-08-12 12:21 荣锋亮 阅读(296) 评论(0) 推荐(0)

2023年8月8日

dbt 新的基于视图的物化能力

摘要: dbt 在v1.6 版本,官方提供的不少adapter 支持了基于视图的物化处理,这个是一个很不错的功能技术上利用了db 提供的能力,官方提供了相关的介绍,具体可以参考连接 参考资料 https://docs.getdbt.com/blog/announcing-materialized-views 阅读全文

posted @ 2023-08-08 23:15 荣锋亮 阅读(53) 评论(0) 推荐(0)

dbt modules 宏简单说明

摘要: dbt modules 宏提供了让dbt 访问python 包的能力,处理上基于了jinja 的上下问处理,但是目前官方没有完整暴露此方法 核心还是因为安全问题,只提供了一些时间、正则、迭代处理的,实际使用上基于了python 模块的动态加载(getattr) modules 宏的使用参考 {% s 阅读全文

posted @ 2023-08-08 23:02 荣锋亮 阅读(85) 评论(0) 推荐(0)

2023年8月6日

cookiecutter python 项目模版工具

摘要: cookiecutter python 项目模版工具,可以帮助我们快速基于模版生成python 项目(当然也支持c 项目)有不少python 项目都是基于此工具的比如dbt adapter 开发就基于此提供了方便的adapter 生成 dbt adapter 参考模版 cookiecutter 创建 阅读全文

posted @ 2023-08-06 21:10 荣锋亮 阅读(75) 评论(0) 推荐(0)

dperf minio 团队开源的磁盘性能测试工具

摘要: dperf minio 团队开源的磁盘性能测试工具 基于golang 开发,使用简单,类似的有fio 说明 相比fio dperf 没有那么多的参数,实际上dperf 核心似乎主要是为了方便minio 使用的,但是对于日常中需要测试一些磁盘问题也是可以的,可以用来发现磁盘的瓶颈 参考资料 https 阅读全文

posted @ 2023-08-06 12:06 荣锋亮 阅读(233) 评论(0) 推荐(0)

jinjat 基于dbt 构建低代码数据应用

摘要: jinjat 的设计还是比较有意思的,直接利用了dbt,同时利用了一个analyses配置,analyses 在dbt 中更多属于一个基于现有的模型进行编译,但是不进行 执行,jinjat 就利用了功能,但是扩展了下 参考使用 模型 analysis/my_first_api.sql {%- set 阅读全文

posted @ 2023-08-06 11:39 荣锋亮 阅读(45) 评论(0) 推荐(0)

dbt-duckdb dbt duckdb 强大的adapter

摘要: dbt-duckdb 是一个dbt 扩展,功能很强大,同时社区也有相关的文章,使用duckdb 替换spark 处理一些数据的pipeline因为duckdb 具有很不错的olap 性能,同时支持不少外部数据集成(比如s3,http,parquet,pg。。。。)dbt-duckdb扩展使用起来很方 阅读全文

posted @ 2023-08-06 11:13 荣锋亮 阅读(391) 评论(0) 推荐(0)

dbt adapter 开发一些资料

摘要: dbt 演变以及周边工具是越来月多了,而且有不少db 已经支持dbt 的集成玩法了,官方提供了一些相关开发文档,一些不是很清晰对于我们实际需要开发的,就可以自己摸索,现在new sql 是越来越多了,但是并不是都能更好的支持dbt 内置的一些功能, 连接管理部分 这个部分官方有完整的信息,文档有提供 阅读全文

posted @ 2023-08-06 11:05 荣锋亮 阅读(84) 评论(0) 推荐(0)

2023年8月4日

automate-dv 基于dbt 的data vault 2.0 落地工具

摘要: automate-dv 基于dbt 的data vault 2.0 落地工具,包装了不少方便的宏,可以方便我们呢进行data vault 2.0 数据仓库建模理论的实际落地 功能 企业级保障 支持data vault 的hub,links,satelintes以及一些扩展(方便使用) 元数据驱动的代 阅读全文

posted @ 2023-08-04 23:10 荣锋亮 阅读(80) 评论(0) 推荐(0)

sqlfluff sql linter 以及自动格式化工具

摘要: sqlfluff sql linter 以及自动格式化工具 ,支持多数据库方言,以及模版代码,比较适合ELT 类型的数据分析应用,同时对于dbt 也是比较友好的 特性 多种数据库方言支持 支持模版(jinja,dbt) 可以很好的集成ci/cd dbt 参考效果 因为dbt 使用了jinja 模版引 阅读全文

posted @ 2023-08-04 22:56 荣锋亮 阅读(671) 评论(0) 推荐(0)

dbt pacakge 模型引用

摘要: dbt 的package 能力可以方便的实现模型的共享,以下是一个简单的示例,实际上我以前写过(很早了,目前dbt 变化还是很大的) 外部模型引用使用说明 实际上是通过ref宏,明确声明包名以及模型,格式{{ref(<project or package name>,<model name>)} 示 阅读全文

posted @ 2023-08-04 22:11 荣锋亮 阅读(40) 评论(0) 推荐(0)

2023年8月1日

oracle 轻量级python连接驱动

摘要: 实际上oracle python 驱动自从去年5月左右就提供了thin 模式,对于通过python 连接oracle 的同学是特别的,轻量方便 新版本oracle 驱动支持模式 从下图也可以看出来,支持可选的oracle client 模式 参考使用 oracle 部署(docker-compose 阅读全文

posted @ 2023-08-01 08:26 荣锋亮 阅读(280) 评论(0) 推荐(0)

oracle docker 运行

摘要: 对于需要进行oracle 数据库测试场景,基于容器运行一个是很不错的选择,同时官方也提供了docker镜像,可以快速拿来使用 运行 docker-compose 文件 实际需要注意的是sid 以及用户密码,详细可以参考以下链接 version: '3' services: oracle: image 阅读全文

posted @ 2023-08-01 08:10 荣锋亮 阅读(92) 评论(0) 推荐(0)

2023年7月31日

dbt class 简单说明

摘要: dbt class 可以用来创建数据仓库中的一些对象(比如关系,列)当需要通过高级模式进行模型以及宏构建的时候就比较有用 在不少开源同时也包括官方core 中都有使用到 主要包含的功能 Relation 对象创建 参考(对于在宏中使用 api.Relation.create创建) {% set re 阅读全文

posted @ 2023-07-31 22:11 荣锋亮 阅读(45) 评论(0) 推荐(0)

dbt-server 简单说明

摘要: dbt-server 是dbt 团队对于dbt-rpc 调整之后开源的dbt api 服务,内部基于了dbt-core 提供的cli 编程调用能力 使用到的一些框架 fastapi 提供api 能力 dbt core 进行dbt 任务的执行 celery 基于celery 的任务调度(代码中的wor 阅读全文

posted @ 2023-07-31 17:43 荣锋亮 阅读(148) 评论(0) 推荐(0)

2023年7月30日

citus 12 新特性

摘要: 就在最近citus 发布了12 版本 主要包含的新特性 基于schema 的分片(对于一些saas ,面向微服务以及垂直拆分场景比较有用) 基于租户的监控,核心还是对于schema 拆分场景的 merge 支持 基于磁盘大小的rebalance 说明 基于schema 的分片是一个很不错的功能,但是 阅读全文

posted @ 2023-07-30 17:51 荣锋亮 阅读(255) 评论(0) 推荐(0)

dolphinscheduler docker-compose 运行简单说明

摘要: 因为官方提供的dolphinscheduler 有一些问题,所以自己调整环境变量的配置,方便直接运行 运行 docker-compose 文件 version: "3" services: dolphinscheduler-postgresql: image: bitnami/postgresql: 阅读全文

posted @ 2023-07-30 10:41 荣锋亮 阅读(335) 评论(0) 推荐(0)

dolphinscheduler 调度spark on k8s

摘要: dolphinscheduler 对于k8s的支持可以使用spark任务模式选择k8s 配置,当然也可以直接通过k8s 集成通过容器镜像模式运行,两种方式各有利弊,但是完全基于k8s模式会比较方便些 集成玩法说明 spark 任务模式 此模式我们需要配置SPARK_HOME 给每个dolphinsc 阅读全文

posted @ 2023-07-30 10:27 荣锋亮 阅读(1248) 评论(0) 推荐(0)

2023年7月10日

vite-plugin-federation vite&rollup 模块联邦插件

摘要: vite-plugin-federation vite&rollup 模块联邦插件,和webpack 的模块联邦插件兼容模块联邦是一个很不错的前端模块化机制,对于微前端领域是一个很不错的选择,而且vite-plugin-federation 可以直接与webpack 的构建兼容,对于使用不同构建工具 阅读全文

posted @ 2023-07-10 11:02 荣锋亮 阅读(737) 评论(0) 推荐(0)

OpenFeature 特性flag 标准协议

摘要: OpenFeature 属于cncf 一个沙箱项目 OpenFeature 特性 社区驱动的标准协议 一个sdk 可以支持各种后端 目前包含了不少支持工具(包含了开源的以及商业工具) 支持不少客户端(目前支持了js,java,golang,c#,php) 核心概念 OpenFeature 提供了一些 阅读全文

posted @ 2023-07-10 10:14 荣锋亮 阅读(374) 评论(0) 推荐(0)

gain 基于io_uring 的golang 网络框架

摘要: io_uring 是linux kernel 从5.1开始支持的新的io 操作模式,性能很不错,gain 是一个golang 实现 参考使用 main.go package main import ( "fmt" "log" "net" "os" "sync/atomic" "time" "gith 阅读全文

posted @ 2023-07-10 09:58 荣锋亮 阅读(229) 评论(0) 推荐(0)

2023年7月3日

bpftune oracle linux 试用体验

摘要: 今天有测试bpftune 与Rocky linux 的集成,发现构建是可以成功的,但是运行会有问题(提示不支持,应该通过修改可以解决),为了 更好的测试,自己跑了一个oracle linux 虚拟机跑下 环境搭建 通过utm+oracle linux 8.8 ,还是比较简单的 ios 下载地址: 链 阅读全文

posted @ 2023-07-03 22:08 荣锋亮 阅读(125) 评论(0) 推荐(0)

bpftune oracle 开源的基于bpf 的系统linux 系统优化工具

摘要: bpftune oracle 开源的基于bpf 的系统linux 系统优化工具, 同时对于oracle linux 官方已经提供了支持,可以直接安装使用 但是注意非oracle linux 当前测试构建木有成功 参考使用 为了简单基于了docker 版本的oracle linux 启动 docker 阅读全文

posted @ 2023-07-03 00:38 荣锋亮 阅读(93) 评论(0) 推荐(0)

2023年7月2日

mutagen 快速文件同步&网络转发工具

摘要: mutagen 快速文件同步&网络转发工具,可以快速实现基于云的本地开发环境构建,提供了灵活的 传输协议,支持本地,server 以及容器基础设施(实际上就是本地,ssh,以及dokcer 容器) 参考使用(同步模式) mutagen 会有一个daemon 进程,这个是自动启动的,当然也有控制命令, 阅读全文

posted @ 2023-07-02 18:46 荣锋亮 阅读(269) 评论(0) 推荐(0)

2023年7月1日

kubeskoop 阿里开源的k8s 网络分析工具

摘要: kubeskoop 是阿里开源的k8s 网络分析工具,提供了一个完整的k8s 网络分析工具集,可以快速帮助我们分析容器网络问题,支持不少cni 插件 参考图 说明 kubeskoop 技术上利用了ebpf,功能还是很强大的,同时提供了可视化ui 工具,是一个很不错的k8s网络分析工具,很值得使用下 阅读全文

posted @ 2023-07-01 08:52 荣锋亮 阅读(377) 评论(0) 推荐(0)

aws 开源的微前端发现实现 frontend-discovery

摘要: 实际上此协议已经开放一段时间了(一年左右),里边一些实践还是很不错的,对于微前端实现的同学可以参考学习 同时官方也提供了一个基于aws 服务的参考实践,作者的一些演讲也是值得学习的 参考格式 如下图,可以看到包含了一些不错的设计,以及对于实际的部署维护,包含了元数据,多版本,fallback,一致性 阅读全文

posted @ 2023-07-01 08:45 荣锋亮 阅读(53) 评论(0) 推荐(0)

长亭waf-ce 版本嵌入模式集成说明

摘要: 就在最近的ce 版本中,支持直接集成waf 能力到外部openresty (nginx 服务中),这样waf 能力就类似一个外部服务了,对于openresty 来说 就是在不同阶段使用waf-ce 提供的方法,详细安装暂时就不说了,官方已经提供了,我只说明关于集成的一些问题 集成问题 玩法参考图 注 阅读全文

posted @ 2023-07-01 08:30 荣锋亮 阅读(316) 评论(0) 推荐(0)

2023年6月26日

lakefs 提供的数据工程现状图

摘要: 此图很不错,整理了不少数据处理周边的工具,可以参考学习 参考图 参考资料 https://lakefs.io/blog/the-state-of-data-engineering-2023/ 阅读全文

posted @ 2023-06-26 23:44 荣锋亮 阅读(41) 评论(0) 推荐(0)

上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 133 下一页

导航