随笔分类 -  apache spark

sail 架构简单说明
摘要:内容来自官方文档,实际上目前官方介绍比较简单,sail 运行包含了本地以及集群模式 本地模式 可以看到是本地进程运行的local job runner ,通过多线程实现数据分片的并行执行 集群模式 集群模式sail 使用了类似control plan 以及data plan 的套路,sail 基于了 阅读全文

posted @ 2025-07-07 08:00 荣锋亮 阅读(23) 评论(0) 推荐(0)

sail 的配置简单说明
摘要:sail 的配置在官方文档基本没写多少,但是通过代码可以看到实际上有一个比较完整的基于yaml 的配置文件application.yaml 完整内容 application.yaml 可以看到里边有关于集群运行模式,driver 监听配置,parquet 读取 - key: mode type: s 阅读全文

posted @ 2025-07-06 08:00 荣锋亮 阅读(18) 评论(0) 推荐(0)

sail python SparkConnectServer的处理简单说明
摘要:sail 基于rust 开发,对于python包的支持基于了比较火的框架pyo3,目前包含了python (主要是spark connect server 启动的)以及python udf 的,以下简单说明下SparkConnectServer 的 服务启动的处理 基于pyo3 暴露了SparkCo 阅读全文

posted @ 2025-07-05 08:00 荣锋亮 阅读(18) 评论(0) 推荐(0)

sail s3 集成简单测试
摘要:sail 是基于object-store这个包实现对于对象存储的支持的,以下是一个简单的测试 启动配置 s3 minio services: minio: image: minio/minio ports: - "9000:9000" - "19001:19001" environment: MIN 阅读全文

posted @ 2025-07-03 08:00 荣锋亮 阅读(13) 评论(0) 推荐(0)

sail 简单试用
摘要:sail 自身是自包含的,对于python包,同时提供了worker 以及server, 对于新版本sail 是需要独立安装spark conenct client 参考使用 安装sail python pip install "pysail==0.3.0" 安装spark connect clie 阅读全文

posted @ 2025-07-02 08:00 荣锋亮 阅读(24) 评论(0) 推荐(0)

sail ai 领域的大数据处理平台
摘要:sail 是支持批流处理的面相ai 工作负载的计算平台,基于rust 编写,使用了apache arrow 以及datafusion,可以用来替换spark sql 以及spark dataframe api ,设计上比较有意思,sail 提供了spark connect 兼容的grpc 协议,这样 阅读全文

posted @ 2025-07-01 08:00 荣锋亮 阅读(40) 评论(0) 推荐(0)

dremio nessie 集成玩法
摘要:昨天我简单写了dremio 集成nessie 的玩法, 实际上dremio 与nessie 的集成可以分为两大类,一类是使用nessie 做为catalog 服务 (当然也是支持写入iceberg 的),一类是基于外部工具(spark,flink) 使用nessie 做为metadata stora 阅读全文

posted @ 2023-12-30 13:55 荣锋亮 阅读(154) 评论(0) 推荐(0)

apache spark connect 试用
摘要:spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了 connect server 启动 实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中 启动 ./sbin/start-connect-server.sh --packa 阅读全文

posted @ 2023-08-22 22:02 荣锋亮 阅读(609) 评论(0) 推荐(0)

spark on k8s 开发部署简单实践
摘要:实际上就是一个简单的实践,方便参考,对于开发以及运行,集成ci/cd 以及dophinscheduler 任务调度为了方便开发的spark 应用共享以及使用基于s3 进行文件存储(当然dophinscheduler 也是支持自己的资源库的) 参考图 玩法说明 基于gitlab 进行代码管理,通过ci 阅读全文

posted @ 2023-08-21 22:38 荣锋亮 阅读(155) 评论(0) 推荐(0)

dolphinscheduler 调度spark on k8s
摘要:dolphinscheduler 对于k8s的支持可以使用spark任务模式选择k8s 配置,当然也可以直接通过k8s 集成通过容器镜像模式运行,两种方式各有利弊,但是完全基于k8s模式会比较方便些 集成玩法说明 spark 任务模式 此模式我们需要配置SPARK_HOME 给每个dolphinsc 阅读全文

posted @ 2023-07-30 10:27 荣锋亮 阅读(1221) 评论(0) 推荐(0)

apache spark conenct 提升spark 能力
摘要:spark 是一个很强大的工具,但是大家可能也会使用比较费事,包含了集群管理,以及多租户管理,所以社区开发了不少基于spark 的扩展,apachekyuubi 就是一个典型提供了多租户以及直接使用sql 进行spark 操作的能力 原有spark 集成模式 新spark 集成模式 说明 apach 阅读全文

posted @ 2022-07-09 20:19 荣锋亮 阅读(146) 评论(0) 推荐(0)

All the Apache Streaming Projects: An Exploratory Guide
摘要:The speed at which data is generated, consumed, processed, and analyzed is increasing at an unbelievably rapid pace. Social media, the Internet of Thi 阅读全文

posted @ 2018-08-30 16:28 荣锋亮 阅读(480) 评论(0) 推荐(0)

apache spark kubernets 部署试用
摘要:spark 是一个不错的平台,支持rdd 分析stream 机器学习。。。 以下为使用kubernetes 部署的说明,以及注意的地方 具体的容器镜像使用别人已经构建好的 deploy yaml 文件 deploy-k8s.yaml apiVersion: extensions/v1beta1 ki 阅读全文

posted @ 2018-08-30 15:12 荣锋亮 阅读(891) 评论(1) 推荐(0)

导航