• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






zhangmingmkzj

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理

2024年2月3日

2.3学习进度
摘要: 常用api用法 agg:groupdata对象的api,作用是在里面可以写多个聚合 alias:column对象的api,可以针对一个列进行改名 withcolumnrenamed:dataframe的api,可以对df中的列进行改名,一次改一个列 ,改多个列,可以链式调用7.sparksql数据清 阅读全文
posted @ 2024-02-03 11:44 zhangmingmingkjz 阅读(19) 评论(0) 推荐(0)
 
2.2学习进度
摘要: spark并行度推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数5.spark的任务调度sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作DAG调度器:讲 阅读全文
posted @ 2024-02-03 11:43 zhangmingmingkjz 阅读(10) 评论(0) 推荐(0)
 
2.1学习进度
摘要: 有向无环图有向:有方向无环:没有闭环DAG:有方向没有形成闭环的一个执行流程图action:执行链条的开关,返回值不是rdd算子一个action会产生一个job(一个应用程序内的子任务),每个job会产生一个DAG图一个action = 一个DAG = 一个JOB一个application中,每一个 阅读全文
posted @ 2024-02-03 11:42 zhangmingmingkjz 阅读(11) 评论(0) 推荐(0)