会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
LCZ
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
21
下一页
2024年2月27日
2.27总结
摘要: 切分的输出和组织架构 架构切分的输出实际上就是一个系统的模型,对于一个整体问题,有多少的相关方,每个相关方需要承担哪些权利和义务,不同的相关方是如何结合起来完成系统的整体任务的。有的时候是从上往下切(企业),有的时候是从下往上合并,有的时候两者皆有之(人类社会的发展)。而切分的结果最终都会体现在组织
阅读全文
posted @ 2024-02-27 19:13 lcz111
阅读(9)
评论(0)
推荐(0)
2024年1月26日
学习笔记10
摘要: 一、实验目的1.掌握Scala 语言的基本语法、数据结构和控制结构;2.掌握面向对象编程的基础知识,能够编写自定义类和特质;3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉Scala 的容器类库的基本层次结构,熟练使用常用的容器类进行数据;4.熟练掌握Scala 的REPL 运行模式和编译运
阅读全文
posted @ 2024-01-26 17:38 lcz111
阅读(14)
评论(0)
推荐(0)
2024年1月24日
学习笔记9
摘要: 一、实验目的(1)掌握Linux虚拟机的安装方法。Spark和Hadoop等大数据软件在Linux操作系统上运行可以发挥最佳性能,因此,本教程中,Spark都是在Linux系统中进行相关操作,同时,下一章的Scala语言也会在Linux系统中安装和操作。鉴于目前很多读者正在使用Windows操作系统
阅读全文
posted @ 2024-01-24 16:12 lcz111
阅读(10)
评论(0)
推荐(0)
2024年1月20日
学习笔记8
摘要: Streaming 原理可以参考官网教程:http://spark.apache.org/docs/latest/streaming-programming-guide.html,Spark Streaming提供了称为离散流或DStream的高级抽象,它表示连续的数据流,在内部DStream表示为
阅读全文
posted @ 2024-01-20 22:02 lcz111
阅读(19)
评论(0)
推荐(0)
2024年1月18日
学习笔记7
摘要: DataFrame的创建Spark2.0版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能; Spa
阅读全文
posted @ 2024-01-18 18:16 lcz111
阅读(45)
评论(0)
推荐(0)
2024年1月17日
学习笔记6
摘要: Scala匿名函数(函数字面量)Scala中的匿名函数也叫做函数字面量,既可以作为函数的参数使用,也可以将其赋值给一个变量,在匿名函数的定义中“=>”可理解为一个转换器,它使用右侧的算法,将左侧的输入数据转换为新的输出数据,使用匿名函数后,我们的代码变得更简洁了。 val test = (x:Int
阅读全文
posted @ 2024-01-17 18:19 lcz111
阅读(9)
评论(0)
推荐(0)
2024年1月16日
学习笔记5
摘要: RDD分区RDD是弹性分布式数据集,通常RDD很大,会被分成很多个分区分别保存在不同的节点上,分区的作用:(1)增加并行度(2)减少通信开销。RDD分区原则是使得分区的个数尽量等于集群中的CPU核心(core)数目,对于不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、
阅读全文
posted @ 2024-01-16 18:46 lcz111
阅读(28)
评论(0)
推荐(0)
2024年1月13日
学习笔记4
摘要: RDD操作对于RDD而言,每一次转换操作都会产生不同的RDD,供给下一个“转换”使用,转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作; 常用的RDD转换操作,总结如下
阅读全文
posted @ 2024-01-13 22:26 lcz111
阅读(51)
评论(0)
推荐(0)
2024年1月12日
学习笔记3
摘要: RDD概念/特性许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,共同之处是不同计算阶段之间会重用中间结果, MapReduce框架把中间结果写入到稳定存储(如磁盘)中,带来大量的数据复制、磁盘IO和序列化开销。 RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,开发者不必
阅读全文
posted @ 2024-01-12 22:24 lcz111
阅读(35)
评论(0)
推荐(0)
2024年1月11日
学习笔记2
摘要: Spark启动和验证直接无参数启动./spark-shell ,运行的是本地模式: 启动./spark-shell –master yarn,运行的是on yarn模式,前提是yarn配置成功并可用: 在hdfs文件系统中创建文件README.md,并读入RDD中,使用RDD自带的参数转换,RDD默
阅读全文
posted @ 2024-01-11 23:18 lcz111
阅读(22)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
21
下一页
公告