随笔分类 -  spark

spark 使用 及 源码 解析
摘要:spark读取关系型数据库大表jdbc OOM 除非获取大小设置为Integer.MIN_VALUE ,否则JDBC驱动程序总是获取所有行. 默认情况下,ResultSets被完全检索并存储在内存中。 在大多数情况下,这是最有效的操作方式,并且由于MySQL网络协议的设计更容易实现。 如果您正在使用 阅读全文
posted @ 2021-04-13 17:08 foola 阅读(604) 评论(1) 推荐(0)
摘要:背景 数据处理平台从oracle迁移到hadoop平台后,原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定,经常有资源竞争导致处理过程意外停止,数据倾斜导致任务执行失败。 为减少出错概率,需要对sparkSql进行规范与优化。 转换 exist 转换 为 le 阅读全文
posted @ 2020-05-25 18:44 foola 阅读(1097) 评论(0) 推荐(0)