会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
悄悄成长
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
9
10
11
12
13
14
15
16
17
···
38
下一页
2021年1月12日
spark学习进度16(Scala编程初级实践)
摘要: 一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4.熟练掌握 Scala 的 REPL
阅读全文
posted @ 2021-01-12 11:03 喜欢爬的孩子
阅读(198)
评论(0)
推荐(0)
2021年1月11日
spark学习进度15(SparkSQL是什么、初体验)
摘要: 数据分析的方式: 命令式 在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算. 命令式的优点 操作粒度更细, 能够控制数据的每一个处理环节 操作更明确, 步骤更清晰, 容易维护 支持非结构化数据的操作 命令式的缺点 需要一
阅读全文
posted @ 2021-01-11 23:01 喜欢爬的孩子
阅读(123)
评论(0)
推荐(0)
软件需求最佳实践-阅读笔记01
摘要: 最近看的是第一章:需求实践现状分析: 失败的根源: “在中国做软件太难了,客户连自己的需求都说不清楚”。这句话经常在我们耳边响起。但是正所谓:“它山之石可以攻玉”。 在做项目的时候,很多项目都是进度超期、成本超支。最主要的原因之一就是项目的重新启动, 在Standish Group总结的十大成功保证
阅读全文
posted @ 2021-01-11 20:46 喜欢爬的孩子
阅读(121)
评论(0)
推荐(0)
spark学习进度14(spark逻辑图和物理图和运行过程)
摘要: 逻辑图: 表达的是什么: 逻辑图就是数据处理和存储的过程表达 什么是RDD之间的依赖关系: 什么是关系(依赖关系) ? 从算子视角上来看, splitRDD 通过 map 算子得到了 tupleRDD, 所以 splitRDD 和 tupleRDD 之间的关系是 map 但是仅仅这样说, 会不够全面
阅读全文
posted @ 2021-01-11 17:07 喜欢爬的孩子
阅读(278)
评论(0)
推荐(0)
spark学习进度13(spark总体介绍)
摘要: 这一节基本上全是概念::: 更新的几种写法: 部署: 逻辑: 其实 RDD 并没有什么严格的逻辑执行图和物理执行图的概念, 这里也只是借用这个概念, 从而让整个 RDD 的原理可以解释, 好理解. 对于 RDD 的逻辑执行图, 起始于第一个入口 RDD 的创建, 结束于 Action 算子执行之前,
阅读全文
posted @ 2021-01-11 13:45 喜欢爬的孩子
阅读(98)
评论(0)
推荐(0)
spark学习进度12(RDD的Checkpoint)
摘要: 1. Checkpoint 目标 Checkpoint 的作用 Checkpoint 的使用 、 1.1. Checkpoint 的作用 Checkpoint 的主要作用是斩断 RDD 的依赖链, 并且将数据存储在可靠的存储引擎中, 例如支持分布式存储和副本机制的 HDFS. Checkpoint
阅读全文
posted @ 2021-01-11 12:42 喜欢爬的孩子
阅读(143)
评论(0)
推荐(0)
2021年1月10日
spark学习进度11(RDD分区和我shuffle以及缓存)
摘要: 一、RDD的分区和Shuffle 目标 RDD 的分区操作 Shuffle 的原理 分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassan
阅读全文
posted @ 2021-01-10 20:50 喜欢爬的孩子
阅读(287)
评论(0)
推荐(0)
spark学习进度10(阶段练习)
摘要: 阶段练习 一、看看数据集格式 二、明确需求 三、明确步骤 1、读取文件 2、抽取需要的列 3、以年月为基础,进行reduceByKey统计东四地区的PM 4、排序 5、获取结果 四、编码 1、拷贝数据集 2、创建类 3、编写代码 4、运行测试 @Test def reduce():Unit={ //
阅读全文
posted @ 2021-01-10 12:32 喜欢爬的孩子
阅读(109)
评论(0)
推荐(0)
spark学习进度09(RDD算子-action-针对KV类型的数据-针对数字类型的数据)
摘要: (所有转换操作的算子都是惰性的,在执行的时候。并不会真的去调度运行,求得结果。而是是生成对应的RDD,只有在Action操作的时候,才会真的运行求得结果) 一、Action操作: 1、collect(并不能适应所有的场景) 2、reduce 作用 对整个结果集规约, 最终生成一条数据, 是整个数据集
阅读全文
posted @ 2021-01-10 10:58 喜欢爬的孩子
阅读(255)
评论(0)
推荐(0)
2021年1月9日
spark学习进度08(RDD算子-转换)
摘要: 一、转换操作: 1、mapPartitions的相关操作 @Test def mapPartitions():Unit={ //1、数据生成 //2、算子使用 //3、获取结果 sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitions(iter=>{ ite
阅读全文
posted @ 2021-01-09 23:50 喜欢爬的孩子
阅读(170)
评论(0)
推荐(0)
上一页
1
···
9
10
11
12
13
14
15
16
17
···
38
下一页
公告