随笔分类 -  大数据

摘要:场景 数据量两千万左右,数据列不固定,需要每天更新一次数据,使用MongoDB存储(其他存储可能更佳,此处不考虑)。数据使用方式: 通过_id检索 通过任意列(一列或多列)进行count查询 实现1:单表全量覆盖写入 spark任务每天全量写入MongoDB,并创建索引,数据写入耗时19分钟左右,构 阅读全文
posted @ 2021-07-13 16:45 肆玖爺 阅读(530) 评论(0) 推荐(0)
摘要:背景 需要对埋点数据进行增量清洗,增量更新parquet数据文件,步骤如下: 首次清洗历史所有数据 后续每次取增量数据和上次清洗结果做合并 问题 1、如何判断为首次任务,实现方案: 方案1:判断指定目录下是否存在数据文件 方案2:默认按照增量处理,首次不存在数据文件,通过异常捕获机制全量清洗 2、增 阅读全文
posted @ 2021-06-08 18:44 肆玖爺 阅读(316) 评论(0) 推荐(0)
摘要:背景 需要创建数据全字段索引,因此把带检索数据列以内嵌文档的方式写入,在内嵌文档上加索引,加速查询 方案1:内嵌文档上加索引 数据存储格式如下: { "_id" : "AB16105869340072961", "info" : { "payment_bank_code" : "BRI", "ord 阅读全文
posted @ 2021-06-04 19:01 肆玖爺 阅读(893) 评论(0) 推荐(0)
摘要:背景 数据列不固定,每次全量覆盖数据到Mysql,涉及到数据表结构的变更,需要调整自动创建数据表结构 方案1:DataFrameWriter.jdbc 使用spark原生提供的DataFrameWriter.jdbc,参考代码如下: /** * 数据覆盖写入指定mysql表 * 批量读写参数设置参考 阅读全文
posted @ 2021-06-04 14:07 肆玖爺 阅读(3020) 评论(0) 推荐(0)