• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






zhangmingmkzj

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理
上一页 1 2 3 4 5 6 ··· 25 下一页

2024年2月3日

2.2学习进度
摘要: spark并行度推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数5.spark的任务调度sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作DAG调度器:讲 阅读全文
posted @ 2024-02-03 11:43 zhangmingmingkjz 阅读(10) 评论(0) 推荐(0)
 
2.1学习进度
摘要: 有向无环图有向:有方向无环:没有闭环DAG:有方向没有形成闭环的一个执行流程图action:执行链条的开关,返回值不是rdd算子一个action会产生一个job(一个应用程序内的子任务),每个job会产生一个DAG图一个action = 一个DAG = 一个JOB一个application中,每一个 阅读全文
posted @ 2024-02-03 11:42 zhangmingmingkjz 阅读(11) 评论(0) 推荐(0)
 

2024年2月1日

1.31学习进度
摘要: 第一章1.sparkshufflemap和reduce在shuffle过程中,提供数据的称之为ma段,几首数据的称之为reduce端在spark的两个阶段中,总是前一个阶段产生一批map提供数据,下一阶段喊声一批reduce接收数据2.spark提供2中shuffle管理器 hashshufflem 阅读全文
posted @ 2024-02-01 18:39 zhangmingmingkjz 阅读(22) 评论(0) 推荐(0)
 

2024年1月30日

1.30学习进度
摘要: .catalyst优化点 谓词下推、断言下推:讲逻辑判断提前到前面,以减少shuffle阶段的数据量 列值裁剪:将加载的列进行裁剪,尽量减少被处理数据的密度3.sparksql的执行流程 提交sparksql代码 catalyst优化 drive执行环境入口搭建 DAG调度器规划逻辑任务 task调 阅读全文
posted @ 2024-01-30 17:36 zhangmingmingkjz 阅读(12) 评论(0) 推荐(0)
 

2024年1月29日

1.29学习进度
摘要: datafram的组成在结构层面: structtype对象描述整个datafrme的表结构 structfield对象描述一个列的信息在数据层面: row对象记录一行数据 column对象记录一列数据并包含列的信息2.dataframe的代码构建–基于rdd方式 dataframe对象可以从rdd 阅读全文
posted @ 2024-01-29 19:32 zhangmingmingkjz 阅读(5) 评论(0) 推荐(0)
 

2024年1月28日

1.28学习进度
摘要: 1.python语言开发spark程序的步骤 主要是获取spark context对象,就isparkcontext对象作为执行环境入口2.如何提交spark应用将程序代码上传到服务器上通过spark客户端工具进行提交注意:1.在代码中不要设置master,如果设置一代码为准spark-submit 阅读全文
posted @ 2024-01-28 18:23 zhangmingmingkjz 阅读(14) 评论(0) 推荐(0)
 

2024年1月27日

1.27学习进度
摘要: 1.jieba库可以对中文进行分词2.由于yarn是集群运行,executor可以在所有服务器上执行,所以每个服务器都需要有哦jieba库提供支撑3.如何尽量提高任务计算的资源计算cpu核心和内存量,通过–executor-memory指定executor内存,通过–executor-cores指定 阅读全文
posted @ 2024-01-27 18:01 zhangmingmingkjz 阅读(15) 评论(0) 推荐(0)
 

2024年1月26日

1.26学习进度
摘要: rdd的创建方法 通过并行化集合的方式(本地集合转分布式集合) 读取数据的方式创建8.rdd分区数查看方法 通过个体怒骂partitions api查看,返回值int9.transformation和action的区别 转换算子的返回值100%是rdd,而action算子的返回值100%不是rdd 阅读全文
posted @ 2024-01-26 19:50 zhangmingmingkjz 阅读(8) 评论(0) 推荐(0)
 

2024年1月25日

1.25学习进度
摘要: 1.rdd的数据是过程数据rdd之间进行相互迭代计算,当执行开启后,新rdd的产生,代表老rdd的消失rdd的数据是过程数据,只在处理的过程中存在,一旦处理完成,就不见了这样可以最大化的利用资源2.rdd的缓存sparkt提供了缓存api,可以让我们通过调用api,将指定的rdd数据保留在内存或者硬 阅读全文
posted @ 2024-01-25 13:22 zhangmingmingkjz 阅读(16) 评论(0) 推荐(0)
 

2024年1月24日

1.24学习进度
摘要: 1.RDD的创建通过并行化集合创建(本地对象 转 分布式RDD)读取外部数据源(读取文件): textfile api(可以读取本地数据)2.算子是什么算子:分布式集合对象上的api方法/函数:本地对象的api3.算子的分类 Transformation:转换算子(返回值是rdd)特性:这类算子时l 阅读全文
posted @ 2024-01-24 17:56 zhangmingmingkjz 阅读(13) 评论(0) 推荐(0)
 
上一页 1 2 3 4 5 6 ··· 25 下一页