会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
坐而论道,起而行之
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
下一页
2021年6月8日
读取parquet文件后和其它表join后回写问题
摘要: 背景 需要对埋点数据进行增量清洗,增量更新parquet数据文件,步骤如下: 首次清洗历史所有数据 后续每次取增量数据和上次清洗结果做合并 问题 1、如何判断为首次任务,实现方案: 方案1:判断指定目录下是否存在数据文件 方案2:默认按照增量处理,首次不存在数据文件,通过异常捕获机制全量清洗 2、增
阅读全文
posted @ 2021-06-08 18:44 肆玖爺
阅读(305)
评论(0)
推荐(0)
2021年6月4日
Mongodb内嵌文档索引创建问题
摘要: 背景 需要创建数据全字段索引,因此把带检索数据列以内嵌文档的方式写入,在内嵌文档上加索引,加速查询 方案1:内嵌文档上加索引 数据存储格式如下: { "_id" : "AB16105869340072961", "info" : { "payment_bank_code" : "BRI", "ord
阅读全文
posted @ 2021-06-04 19:01 肆玖爺
阅读(879)
评论(0)
推荐(0)
Spark大数据量写入Mysql效率问题
摘要: 背景 数据列不固定,每次全量覆盖数据到Mysql,涉及到数据表结构的变更,需要调整自动创建数据表结构 方案1:DataFrameWriter.jdbc 使用spark原生提供的DataFrameWriter.jdbc,参考代码如下: /** * 数据覆盖写入指定mysql表 * 批量读写参数设置参考
阅读全文
posted @ 2021-06-04 14:07 肆玖爺
阅读(3011)
评论(0)
推荐(0)
2021年4月25日
TLS过程中Server Hello无响应或者RST被复位
摘要: 问题 使用pyppeteer爬取数据时,goto指定页面报错pyppeteer.errors.PageError: net::ERR_CERT_AUTHORITY_INVALID,通过抓包请求过程如下: 当前请求被重定向了,切换到https请求,因此需要走TLS协议,但是Client hello后没
阅读全文
posted @ 2021-04-25 16:31 肆玖爺
阅读(4574)
评论(3)
推荐(0)
2021年4月8日
Mysql之案例分析(二)
摘要: 间隙锁加锁分析 以下案例均基于以下表及数据 CREATE TABLE `t` ( `id` int(11) NOT NULL, `c` int(11) DEFAULT NULL, `d` int(11) DEFAULT NULL, PRIMARY KEY (`id`), KEY `c` (`c`)
阅读全文
posted @ 2021-04-08 10:03 肆玖爺
阅读(153)
评论(0)
推荐(0)
2021年4月7日
Mysql之案例分析(一)
摘要: 可见性分析 CREATE TABLE `t` ( `id` int(11) NOT NULL, `k` int(11) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB; insert into t(id, k) values(1,1),(2,2);
阅读全文
posted @ 2021-04-07 15:52 肆玖爺
阅读(352)
评论(0)
推荐(0)
2021年4月6日
Mysql之join机制
摘要: Index Nested-Loop Join(NLJ) 从驱动表上逐行读取数据,在被驱动表上通过索引匹配数据,假设驱动表N表数据,被驱动表M条数据 Index Nested-Loop Join Batched Key Access(BKA,NLJ算法的优化) NLJ算法,每条数据都需要被驱动表两个索
阅读全文
posted @ 2021-04-06 17:01 肆玖爺
阅读(147)
评论(0)
推荐(0)
2021年4月2日
scrapy注意事项汇总
摘要: callback执行异常处理 如果Request请求成功后,在解析文本时异常,如下所示: def parse_details(self, response): ... item['metres'] = round(float( response.xpath('/html/body/section[1
阅读全文
posted @ 2021-04-02 14:15 肆玖爺
阅读(843)
评论(0)
推荐(0)
2021年3月30日
Mysql之锁机制
摘要: 全局锁 全局锁就是对整个数据库实例加锁。MySQL 提供了一个加全局读锁的方法FTWRL Flush tables with read lock 全局锁的典型使用场景是,做全库逻辑备份,也就是把整库每个表都 select 出来存成文本。在备份过程中整个库完全处于只读状态,存在以下问题: 如果你在主库
阅读全文
posted @ 2021-03-30 15:18 肆玖爺
阅读(241)
评论(0)
推荐(0)
2021年3月29日
搞懂十大排序算法
摘要: 算法分类 十大经典排序算法(动图演示) 算法实践 package learning.sort; import java.lang.reflect.Method; import java.util.*; /** * 排序算法集合 * 交换排序:冒泡排序、快速排序、三路切分快速排序 * 选择排序:简单选
阅读全文
posted @ 2021-03-29 10:42 肆玖爺
阅读(78)
评论(0)
推荐(0)
上一页
1
2
3
4
下一页
公告