大数据 - 随笔分类 - 肆玖爺

Spark分区写入MongoDb实现

摘要：场景数据量两千万左右，数据列不固定，需要每天更新一次数据，使用MongoDB存储(其他存储可能更佳，此处不考虑)。数据使用方式：通过_id检索通过任意列（一列或多列）进行count查询实现1：单表全量覆盖写入 spark任务每天全量写入MongoDB，并创建索引，数据写入耗时19分钟左右，构阅读全文

posted @ 2021-07-13 16:45 肆玖爺阅读(530) 评论(0) 推荐(0)

读取parquet文件后和其它表join后回写问题

摘要：背景需要对埋点数据进行增量清洗，增量更新parquet数据文件，步骤如下：首次清洗历史所有数据后续每次取增量数据和上次清洗结果做合并问题 1、如何判断为首次任务，实现方案：方案1:判断指定目录下是否存在数据文件方案2:默认按照增量处理，首次不存在数据文件，通过异常捕获机制全量清洗 2、增阅读全文

posted @ 2021-06-08 18:44 肆玖爺阅读(316) 评论(0) 推荐(0)

Mongodb内嵌文档索引创建问题

摘要：背景需要创建数据全字段索引，因此把带检索数据列以内嵌文档的方式写入，在内嵌文档上加索引，加速查询方案1：内嵌文档上加索引数据存储格式如下： { "_id" : "AB16105869340072961", "info" : { "payment_bank_code" : "BRI", "ord 阅读全文

posted @ 2021-06-04 19:01 肆玖爺阅读(894) 评论(0) 推荐(0)

Spark大数据量写入Mysql效率问题

摘要：背景数据列不固定，每次全量覆盖数据到Mysql，涉及到数据表结构的变更，需要调整自动创建数据表结构方案1：DataFrameWriter.jdbc 使用spark原生提供的DataFrameWriter.jdbc，参考代码如下： /** * 数据覆盖写入指定mysql表 * 批量读写参数设置参考阅读全文

posted @ 2021-06-04 14:07 肆玖爺阅读(3020) 评论(0) 推荐(0)

坐而论道，起而行之

随笔分类 - 大数据

公告