随笔分类 -  Beam

摘要:一、介绍 除了主输入PCollection之外,还可以以旁路输入(side inputs)的形式向ParDo转换提供额外的输入。旁路输入是一个额外的输入,DoFn每次处理input PCollection中的一个元素时都可以访问它。当您指定一个side inputs时,您将创建一些其他数据的视图(P 阅读全文
posted @ 2024-01-08 15:11 粒子先生 阅读(82) 评论(0) 推荐(0)
摘要:简介 Apache Beam 是谷歌开源的统一批处理和流处理的编程模型和SDK。 核心概念 Pipeline:管道是整个数据的处理流程,包括数据输入,转换,数据输出。每个程序必须创建Pipeline,并通过Pipeline指定执行Runner和执行方式等。 PCollection:Pipeline处 阅读全文
posted @ 2020-11-05 17:27 粒子先生 阅读(712) 评论(0) 推荐(0)
摘要:注解方式 @DefaultSchema(JavaFieldSchema.class) public class Address { public final String city; public final String street; public final int pincode; @Sch 阅读全文
posted @ 2020-11-05 16:55 粒子先生 阅读(240) 评论(0) 推荐(0)
摘要:复制模式的 Pipeline PCollection<Video> videoDataCollection = ...; // 生成高画质视频 PCollection<Video> highResolutionVideoCollection = videoDataCollection.apply(" 阅读全文
posted @ 2020-11-05 16:16 粒子先生 阅读(182) 评论(0) 推荐(0)