上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 135 下一页

2024年3月5日

resurfaceio gor linux 二进制包

摘要: resurfaceio的gor 是对于开源版本的修改 (比如开启了企业特性,同时添加了对于resurfaceio http output 的支持),为了方便对于linux 系统的使用 我拉取了官方镜像,将二进制文件放到github 了https://github.com/rongfengliang/ 阅读全文

posted @ 2024-03-05 13:18 荣锋亮 阅读(50) 评论(0) 推荐(0)

resurfaceio graylog 的api 安全方案

摘要: resurfaceio 是graylog 的api 安全方案,包含的特性 特性 简易的api 调用捕捉 立即攻击以及异常的rest 以及graphql api 处理 基于webhook ,sql 查询,以及数据导出自动化处理 快速部署本地或者基于k8s 的云环境 架构设计 resurfaceio 对 阅读全文

posted @ 2024-03-05 13:10 荣锋亮 阅读(48) 评论(0) 推荐(0)

flyte 开源工作流调度平台

摘要: flyte 开源工作流调度平台,支持数据,机器学习,flyte 基于golang 开发运行在k8s中,但是支持python,java,scala 等开发语言flyte 支持不少外部集成,比如sql,dbt,great_expectations,duckdb,mlflow,onnx ,modin 等 阅读全文

posted @ 2024-03-05 11:17 荣锋亮 阅读(166) 评论(0) 推荐(0)

dremio 文件系统支持view创建&一些问题

摘要: 实际上如果了解apache drill 会知道drill 是支持在本地活着分布式创建view,实际上dremio 也是可以支持的,但是 此玩法不太符合官方的设计思想,给禁用了 FileSystemPlugin check 处理 参考代码 public boolean createOrUpdateVi 阅读全文

posted @ 2024-03-05 08:01 荣锋亮 阅读(38) 评论(0) 推荐(0)

2024年3月4日

minio sql 查询parquet文件

摘要: minio 支持sql 查询操作,属于一个比较方便的功能,对于parquet 功能的支持默认没开启,需要配置 参考配置 基于docker-compose 核心是MINIO_API_SELECT_PARQUET: on version: "3" services: minio: image: mini 阅读全文

posted @ 2024-03-04 22:41 荣锋亮 阅读(303) 评论(0) 推荐(0)

dremio 查询执行阶段简单说明

摘要: 内容实际来自官方架构介绍,图以前也在博客中放过,现在进行说明下 参考执行图 阶段说明 参考上图,dremio将执行分为可4个阶段 客户端通过jdbc,odbc,rest 提交查询到协调节点 计划阶段 此阶段可以细分3步 a. 协调节点解析查询为dremio的通用关系模型 b. 协调节点基于数据源的统 阅读全文

posted @ 2024-03-04 08:00 荣锋亮 阅读(94) 评论(0) 推荐(0)

2024年3月3日

dremio ProfileStore 简单说明

摘要: 以前简单说明过dremio 的jobprofile query,现在简单说明下dremio ProfileStore 参考实现 如下图,实际上只有一个LocalProfileStore,数据是存储咱爱kv storage 中的,但是对于kv 存储的只有完成的profile,其他阶段的数据是直接存储在 阅读全文

posted @ 2024-03-03 08:00 荣锋亮 阅读(33) 评论(0) 推荐(0)

2024年3月2日

Open Data Contract Standard(ODCS) data contracts 标准

摘要: ODCS 属于一个linux 基金会项目,目前处于沙箱阶段 包含的特性 data contracts 框架 Fundamentals,Datasets & Schema,Data Quality,Pricing,Stakeholders,Security,Sevice-Level agreement 阅读全文

posted @ 2024-03-02 08:49 荣锋亮 阅读(60) 评论(0) 推荐(0)

通过@vercel/ncc 优化node npm 项目的大小

摘要: 以前我写过关于使用@vercel/ncc 进行node 应用快速部署的,同时对于node 应用的大小会减少不少 app 参考玩法 简单说明:简单玩法可以直接基于ncc 构建就行了,我们可以all-in-one 然后基于ncc build, 会自动处理我们的依赖包,然后我们的项目复制构建之后目录的文件 阅读全文

posted @ 2024-03-02 08:00 荣锋亮 阅读(228) 评论(0) 推荐(0)

dremio jobprofile查询简单说明

摘要: dremio提供了方便的jobprofile 能力,可以进行共享以及分析dremio 查询的性能问题,以下是关于jobprofile 下载功能的简单说明 下载处理 SupportResource.java @POST @Path("download") @Consumes(MediaType.APP 阅读全文

posted @ 2024-03-02 08:00 荣锋亮 阅读(52) 评论(0) 推荐(0)

2024年3月1日

data contracts 参考资料

摘要: 基于data contracts 的数据质量处理似乎是一个很不错的数据开发模式,机制上比较类似微服务开发中的service contracts 我们基于契约对于数据的生产者以及消费者进行约定,确保数据的质量,提高数据团队的协作,同时还有不少工具可以参考 说明 open-data-contract-s 阅读全文

posted @ 2024-03-01 08:01 荣锋亮 阅读(34) 评论(0) 推荐(0)

dremio web ui手工format 处理简单说明

摘要: 以前我介绍过通过自动提升处理format,当然dremio也支持手工操作,对于处理包含了文件以及文件夹类型的,我主要说下 关于文件夹的 处理简单说明 对于ui部分是首先进行预处理,获取可能的类型格式,然后就是通过格式预览服务进行数据处理 folder_format参考处理 代码 包含了一个快速以及默 阅读全文

posted @ 2024-03-01 08:00 荣锋亮 阅读(37) 评论(0) 推荐(0)

dremio CTAS 与数据DML 操作

摘要: dremio对于文件系统支持CTAS (s3,nas,hdfs。。。),以前版本默认创建是是parquet 格式的文件,新版本默认使用iceberg 格式 基于iceberg 的格式很有意思,我们不只可以进行数据的显式物化,同时还可以进行数据的多DML,同时还能复用iceberg 强大的数据管理 能 阅读全文

posted @ 2024-03-01 08:00 荣锋亮 阅读(54) 评论(0) 推荐(0)

2024年2月29日

dremio sample source 简单说明

摘要: dremio 不管是社区版或者企业版默认会包含一个sample的对象存储source,可以让我们直接体验dremio 的能力,以下是关于sample source 的一个简单说明 sample source 说明 是一个s3类型的source 里边的内容是dremio 使用的aws s3 的一个开放 阅读全文

posted @ 2024-02-29 08:00 荣锋亮 阅读(22) 评论(0) 推荐(0)

2024年2月28日

dremio 存储插件查找&home space&用户创建space处理简单说明

摘要: dremio中space或者home 中的view 实际后边都会转换到实际存储插件对应的table,只是处理上少有不同 整体简单处理 核心是dremio 通过apache calcite 的sql 校验中的处理,catalogreader 是自己的实现DremioCatalogReader,里边需要 阅读全文

posted @ 2024-02-28 08:00 荣锋亮 阅读(43) 评论(0) 推荐(0)

2024年2月27日

dremio 自动提升分片字段处理简单说明

摘要: dremio自动提升支持自动将文件夹转换为一个列,同时可以实现数据的过滤查询,是一个很不错的功能,比如我们在一些数据归档类的应用中可以基于事件进行分区,之后通过自动提升可以方便的进行数据查询 效果 查询效果 debug 效果 内部处理 对于dremio 自动提升的处理我已经介绍过了,实际上核心是分区 阅读全文

posted @ 2024-02-27 08:00 荣锋亮 阅读(60) 评论(0) 推荐(0)

2024年2月26日

dremio 元数据自动提升为物理数据集的功能简单说明

摘要: dremio包含了一个元数据自动提升为物理数据集的功能,对于文件系统我们就不用进行格式提升了,dremio 就可以直接查询了,配置如下 当然此功能的前提是数据格式可以被自动发现(dremio 的easy foramt 能力),以下是一个内部处理的简单说明 一个参考调用链 stack com.drem 阅读全文

posted @ 2024-02-26 08:00 荣锋亮 阅读(51) 评论(0) 推荐(0)

2024年2月25日

通过ncc 打包unpkg 服务

摘要: 默认unpkg 是基于rollup 构建的,构建之后还如果实际运行还是需要安装依赖的,基于ncc 是一个很不错的选择 可以实现all-in-one 这样实际运行以及docker 容器和会小很多,以下是一个简单说明 参考配置 主要是添加package script 以及依赖 package scrip 阅读全文

posted @ 2024-02-25 10:03 荣锋亮 阅读(89) 评论(0) 推荐(0)

dremio 从S3StoragePlugin看一个存储插件的开发模式

摘要: 以前对于S3StoragePlugin 有过简单的说明,以下结合S3StoragePlugin 说明下如何开发一个存储扩展 一些标准模式 选择实现的存储插件的接口 比如s3的因为实际上就是文件系统,所以S3StoragePlugin 实现了FileSystemPlugin 接口的,同时可以复用不少已 阅读全文

posted @ 2024-02-25 08:00 荣锋亮 阅读(40) 评论(0) 推荐(0)

2024年2月24日

follow-redirects 可以直接替换node http & https 的npm 模块

摘要: follow-redirects 可以直接替换node http & https 的npm 模块 包含的特性 支持重定向功能 支持重定向参数配置,比如最大重定向,以及最大请求大小,支持beforeredirect 请求处理(比如认证处理) 支持agents 说明 对于业务系统的请求会包含重定向场景的 阅读全文

posted @ 2024-02-24 21:19 荣锋亮 阅读(212) 评论(0) 推荐(0)

pkl apple 开源的配置即代码语言

摘要: pkl apple 开源的配置即代码语言 应用场景 生成静态配置 可以方便的生成json,yaml,xml 格式配置 应用运行时配置 官方提供了swift,go,java,kotlin 语言的支持,可以方便使用 说明 github 上的start 不少,值得看看,同时也直接可以集成到spring b 阅读全文

posted @ 2024-02-24 08:00 荣锋亮 阅读(61) 评论(0) 推荐(0)

2024年2月23日

dremio cloner 简单试用

摘要: 以前简单介绍过dremio cloner 工具,以下是一个简单试用 dremio 环境准备 基于docker-compose,具体可以参考https://github.com/rongfengliang/dremio_cluster_docker-compose 完成配置 安装dremio clon 阅读全文

posted @ 2024-02-23 08:01 荣锋亮 阅读(60) 评论(0) 推荐(0)

2024年2月22日

unpkg 淘宝registry 不能使用的问题

摘要: 以前修改过一个unpkg,可以支持本地私服部署,今天有一位网友在使用淘宝registry 的时候发现有问题,会有重定向的问题 造成不能使用 原因分析 尽管我们配置的是 registry.npmmirror.com 但是对于内容的下载npmmirror 会使用另外一个域名cdn.npmmirror.c 阅读全文

posted @ 2024-02-22 14:51 荣锋亮 阅读(116) 评论(0) 推荐(0)

dremio SupportsExternalQuery 简单说明

摘要: dremio 的外部查询实际上就是让我们可以通过sql 直接查询source 而不是通过复杂的处理,可以解决一些sql 函数不能使用的问题 对于实现了SupportsExternalQuery 接口的存储扩展就可以实现此功能,比如jdbc 的(属于ce 扩展) 参考语法 SELECT * FROM 阅读全文

posted @ 2024-02-22 08:00 荣锋亮 阅读(48) 评论(0) 推荐(0)

2024年2月21日

dremio FileDatasetHandle 简单说明

摘要: FileDatasetHandle 是DatasetHandle的扩展,核心是对于文件系统类的处理(dremio 对于文件系统的支持主要是基于hdfs)同时支持对于不同表格式的处理(delta lake,iceber,parquet),单独说明FileDatasetHandle主要是因为此实现比较重 阅读全文

posted @ 2024-02-21 08:01 荣锋亮 阅读(27) 评论(0) 推荐(0)

pkl cli 简单试用

摘要: 以前简单介绍过apple 开源的pkl 配置即代码工具(当然也提供了语言上的支持),以下是一个简单试用 安装 mac 系统 cli 命令 curl -L -o pkl https://github.com/apple/pkl/releases/download/0.25.2/pkl-macos-am 阅读全文

posted @ 2024-02-21 08:00 荣锋亮 阅读(51) 评论(0) 推荐(0)

2024年2月20日

native-lib-loader java native 库的java 包

摘要: native-lib-loader 可以方便native 库的查找,只要我们的c 库符合格式,基于native-lib-loader 就可以方便的进行包的加载 参考c 库 jar 格式 /natives /linux_32 libxxx[-vvv].so /linux_64 libxxx[-vvv] 阅读全文

posted @ 2024-02-20 14:26 荣锋亮 阅读(119) 评论(0) 推荐(0)

dlt 与dbt的直接集成简单试用

摘要: dlt 直接基于cli包装了dbt 的运行,对于希望通过dlt 进行etl 之后,还想运行dbt 的模型处理的场景就比较方便了,而且dlt 与dbt 的集成也是官方 一个很不错的特性,以下是一个简单试用 环境准备 docker-compose version: "3" services: pg: i 阅读全文

posted @ 2024-02-20 08:00 荣锋亮 阅读(174) 评论(0) 推荐(0)

2024年2月19日

dremio node节点统计信息显示问题简单说明

摘要: 可能有人注意到dremio 管理界面的统计信息为N/A ,而且因为web 端进行了一些额外显示处理,造成一些疑惑 界面效果 接口返回数据信息 目前从官方代码来说,此显示是正常的,因为计算的是百分比,而且当系统负载比较低的时候,结果基本就为0 web 处理 NodeActivityView.js 参考 阅读全文

posted @ 2024-02-19 18:05 荣锋亮 阅读(56) 评论(0) 推荐(0)

magika google 开源的基于深度学习的文件类型检测框架

摘要: magika google 开源的基于深度学习的文件类型检测框架,基于了一个keras 模型,包含了1MB的参数,而且需要的资源比较少不以来GPU 包含的特性 支持python cli 以及nodejs 使用(基于tfjs) 训练超过了25M的文件数,超过100中类型 支持递归检测 支持3中类型的预 阅读全文

posted @ 2024-02-19 09:39 荣锋亮 阅读(105) 评论(0) 推荐(0)

dremio DatasetHandle 简单说明

摘要: DatasetHandle 主要是关于dataset handle 处理的,不同存储插件会有不同的具体实现,同时不同的表格式也会有不同的实现(iceberg,parquet) 功能简单介绍 主要是关于dataset如何处理的handle,实际的实现会包含一些上下文信息,当进行其他api 调用的时候 阅读全文

posted @ 2024-02-19 08:01 荣锋亮 阅读(45) 评论(0) 推荐(0)

2024年2月18日

dremio source 禁用source 不可用禁止移除与反射的一些问题

摘要: 实际上dremio 的反射比较有意思,而且也比较强大,比如我们可以会想通过反射,当上游系统不可用的时候依然可以查询 但是实际效果并不是这样的 参考配置 如下 问题 The source [s3] is currently unavailable. Metadata is not accessible 阅读全文

posted @ 2024-02-18 08:00 荣锋亮 阅读(57) 评论(0) 推荐(0)

2024年2月17日

dlt s3 集成试用

摘要: 属于一个简单试用,dlt 支持destinations 为filesystem,当然也支持source 为filesystem,内部处理是使用了s3fs 环境准备 这个比较简单,推荐基于venv dlt pip install dlt[filesystem] s3 通过docker 部署,同时可以需 阅读全文

posted @ 2024-02-17 08:00 荣锋亮 阅读(47) 评论(0) 推荐(0)

dlt 简单试用

摘要: 以下主要是一个简单的体验 环境初始化 以前也简单说明dlt实际上就是一个python包,实际使用推荐结合python 的venv 安装 安装 python -m venv venv pip install -r requirements.txt requirements.txt 文件( 主要是一些依 阅读全文

posted @ 2024-02-17 08:00 荣锋亮 阅读(105) 评论(0) 推荐(0)

2024年2月16日

dremio SystemStoragePluginInitializer 简单说明

摘要: 以前在关于ManagedStoragePlugin部分,简单说明了下SystemStoragePluginInitializer,今天再明确说明下 SystemStoragePluginInitializer 的特点 继承自Initializer接口,可以实现一些轻量级服务的启动 SystemSto 阅读全文

posted @ 2024-02-16 08:01 荣锋亮 阅读(16) 评论(0) 推荐(0)

dlt开源数据加载工具

摘要: dlt是一个开源数据加载工具,基于python 开发 特点 一个库 dlt 就是一个python包,其他地方需要我们自己开发 非黑盒系统 我们可以基于代码灵活的进行自定义开发 基于乘法的玩法,而不是加法 自动代码生成 包含了类似dbt 的一些处理cli 基于python 的玩法 dlt 对于数据的处 阅读全文

posted @ 2024-02-16 08:00 荣锋亮 阅读(282) 评论(0) 推荐(0)

2024年2月15日

nginx 1.25.4 发布

摘要: 就在昨天nginx 发布了1.25.4,主要修改是关于http 3的安全问题,当然还有一些其他bug 修改 说明 目前看越新的技术,出现安全问题的风险越大(主要是当前新的http协议实现越来越复杂了) 参考资料 https://nginx.org/https://nginx.org/en/secur 阅读全文

posted @ 2024-02-15 09:53 荣锋亮 阅读(238) 评论(0) 推荐(0)

git RPC failed; curl 92 HTTP/2 stream 5 was not closed cleanly 类似问题解决

摘要: 今天在使用git 通过http 协议进行git repo clone 的时候发现的问题,记录下 参考解决方法 使用http1.1 协议 git config --global http.version HTTP/1.1 增加buffer git config --global http.postBu 阅读全文

posted @ 2024-02-15 08:00 荣锋亮 阅读(3461) 评论(0) 推荐(0)

2024年2月14日

jvm shutdownHook + spring 自定义事件实现业务处理

摘要: jvm 的shutdownHook 可以实现对于jvm 退出的一些处理,比如资源清理,异常事件通知,spring 自定义事件(或者使用内部的)可以实现 bean 的一些事件驱动处理,两个结合起来可以方便我们进行一些业务处理 一些业务场景 资源清理 服务停止业务状态一致性补偿 服务注册场景中的取消注册 阅读全文

posted @ 2024-02-14 08:00 荣锋亮 阅读(61) 评论(0) 推荐(0)

2024年2月13日

dremio cloner 基于python 的dremio ci/cd 工具

摘要: dremio cloner 是dremio 官方团队开发的一个python cli 工具 主要应用场景 dremio 环境迁移 比如社区版到企业版 ci/cd 集成 部分备份恢复 安全审计报告 反射报告 参考资料 https://github.com/deane-dremio/dremio-clon 阅读全文

posted @ 2024-02-13 10:33 荣锋亮 阅读(41) 评论(0) 推荐(0)

上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 135 下一页

导航