随笔分类 - spark
spark 使用 及 源码 解析
摘要:spark读取关系型数据库大表jdbc OOM 除非获取大小设置为Integer.MIN_VALUE ,否则JDBC驱动程序总是获取所有行. 默认情况下,ResultSets被完全检索并存储在内存中。 在大多数情况下,这是最有效的操作方式,并且由于MySQL网络协议的设计更容易实现。 如果您正在使用
阅读全文
摘要:背景 数据处理平台从oracle迁移到hadoop平台后,原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定,经常有资源竞争导致处理过程意外停止,数据倾斜导致任务执行失败。 为减少出错概率,需要对sparkSql进行规范与优化。 转换 exist 转换 为 le
阅读全文

浙公网安备 33010602011771号