会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
对知识保持敬畏
首页
新随笔
联系
订阅
管理
上一页
1
2
2021年10月13日
[Spark][pyspark]cache persist checkpoint 对RDD与DataFrame的使用记录
摘要: 结论 cache操作通过调用persist实现,默认将数据持久化至内存(RDD)内存和硬盘(DataFrame),效率较高,存在内存溢出等潜在风险。 persist操作可通过参数调节持久化地址,内存,硬盘,堆外内存,是否序列化,存储副本数,存储文件为临时文件,作业完成后数据文件自动删除。 check
阅读全文
posted @ 2021-10-13 19:51 riaris
阅读(1285)
评论(0)
推荐(0)
上一页
1
2
公告