会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
西西嘛呦
从自己能做到的开始,一件件来,缓慢而坚定地前进,尽力而为
博客园
首页
新随笔
联系
管理
2020年8月14日
pyspark之常用算子
摘要: rdd=sc.paralelize([1,2,3,4,5]) #查看分区数 rdd.getNumPartitions()输出:4 #数据按照分区形式打印 rd.glom().collect()输出:[[1],[2],[3],[4,5]] 1、map和flatMap 2、reduce、fold、agg
阅读全文
posted @ 2020-08-14 21:23 西西嘛呦
阅读(927)
评论(0)
推荐(0)
公告