lcz111 - 博客园

2024年2月27日

摘要：切分的输出和组织架构架构切分的输出实际上就是一个系统的模型，对于一个整体问题，有多少的相关方，每个相关方需要承担哪些权利和义务，不同的相关方是如何结合起来完成系统的整体任务的。有的时候是从上往下切（企业），有的时候是从下往上合并，有的时候两者皆有之（人类社会的发展）。而切分的结果最终都会体现在组织阅读全文

posted @ 2024-02-27 19:13 lcz111 阅读(14) 评论(0) 推荐(0)

2024年1月26日

学习笔记10

摘要：一、实验目的1.掌握Scala 语言的基本语法、数据结构和控制结构；2.掌握面向对象编程的基础知识，能够编写自定义类和特质；3.掌握函数式编程的基础知识，能够熟练定义匿名函数。熟悉Scala 的容器类库的基本层次结构，熟练使用常用的容器类进行数据；4.熟练掌握Scala 的REPL 运行模式和编译运阅读全文

posted @ 2024-01-26 17:38 lcz111 阅读(21) 评论(0) 推荐(0)

2024年1月24日

学习笔记9

摘要：一、实验目的（1）掌握Linux虚拟机的安装方法。Spark和Hadoop等大数据软件在Linux操作系统上运行可以发挥最佳性能，因此，本教程中，Spark都是在Linux系统中进行相关操作，同时，下一章的Scala语言也会在Linux系统中安装和操作。鉴于目前很多读者正在使用Windows操作系统阅读全文

posted @ 2024-01-24 16:12 lcz111 阅读(14) 评论(0) 推荐(0)

2024年1月20日

学习笔记8

摘要： Streaming 原理可以参考官网教程：http://spark.apache.org/docs/latest/streaming-programming-guide.html，Spark Streaming提供了称为离散流或DStream的高级抽象，它表示连续的数据流，在内部DStream表示为阅读全文

posted @ 2024-01-20 22:02 lcz111 阅读(28) 评论(0) 推荐(0)

2024年1月18日

学习笔记7

摘要： DataFrame的创建Spark2.0版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能； Spa 阅读全文

posted @ 2024-01-18 18:16 lcz111 阅读(49) 评论(0) 推荐(0)

2024年1月17日

学习笔记6

摘要： Scala匿名函数(函数字面量)Scala中的匿名函数也叫做函数字面量，既可以作为函数的参数使用，也可以将其赋值给一个变量，在匿名函数的定义中“=>”可理解为一个转换器，它使用右侧的算法，将左侧的输入数据转换为新的输出数据，使用匿名函数后，我们的代码变得更简洁了。 val test = (x:Int 阅读全文

posted @ 2024-01-17 18:19 lcz111 阅读(14) 评论(0) 推荐(0)

2024年1月16日

学习笔记5

摘要： RDD分区RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区分别保存在不同的节点上，分区的作用：（1）增加并行度（2）减少通信开销。RDD分区原则是使得分区的个数尽量等于集群中的CPU核心（core）数目，对于不同的Spark部署模式而言（本地模式、Standalone模式、YARN模式、阅读全文

posted @ 2024-01-16 18:46 lcz111 阅读(35) 评论(0) 推荐(0)

2024年1月13日

学习笔记4

摘要： RDD操作对于RDD而言，每一次转换操作都会产生不同的RDD，供给下一个“转换”使用，转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作；常用的RDD转换操作，总结如下阅读全文

posted @ 2024-01-13 22:26 lcz111 阅读(58) 评论(0) 推荐(0)

2024年1月12日

学习笔记3

摘要： RDD概念/特性许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具，共同之处是不同计算阶段之间会重用中间结果， MapReduce框架把中间结果写入到稳定存储（如磁盘）中，带来大量的数据复制、磁盘IO和序列化开销。 RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，开发者不必阅读全文

posted @ 2024-01-12 22:24 lcz111 阅读(48) 评论(0) 推荐(0)

2024年1月11日

学习笔记2

摘要： Spark启动和验证直接无参数启动./spark-shell ，运行的是本地模式：启动./spark-shell –master yarn，运行的是on yarn模式，前提是yarn配置成功并可用：在hdfs文件系统中创建文件README.md，并读入RDD中，使用RDD自带的参数转换，RDD默阅读全文

posted @ 2024-01-11 23:18 lcz111 阅读(27) 评论(0) 推荐(0)

LCZ

公告