椰糖 - 博客园

公告

2024年1月14日

摘要：分布式计算需要: • 分区控制 • Shuffle控制 • 数据存储\序列化\发送 • 数据计算API • 等一系列功能这些功能, 不能简单的通过Python内置的本地集合对象(如 List\ 字典等)去完成. 我们在分布式框架中, 需要有一个统一的数据抽象对象, 来实现上述分布式计算所需功能. 阅读全文

posted @ 2024-01-14 22:29 椰糖阅读(16) 评论(0) 推荐(0)

2024年1月13日

寒假学习

摘要： Spark解决什么问题？海量数据的计算，可以进行离线批处理以及实时流计算 Spark有哪些模块？核心SparkCore、SQL计算（SparkSQL）、流计算（SparkStreaming ）、图计算（GraphX）、机器学习（MLlib） Spark特点有哪些？速度快、使用简单、通用性强、多阅读全文

posted @ 2024-01-13 23:15 椰糖阅读(15) 评论(0) 推荐(0)

2024年1月12日

寒假学习

摘要： Spark提供多种运行模式，包括：  本地模式（单机）本地模式就是以一个独立的进程，通过其内部的多个线程来模拟整个Spark运行时环境  Standalone模式（集群） Spark中的各个角色以独立进程的形式存在，并组成Spark集群环境  Hadoop YARN模式（集群） Spark中阅读全文

posted @ 2024-01-12 23:08 椰糖阅读(16) 评论(0) 推荐(0)

2024年1月11日

寒假学习

摘要： park 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上 Spark Core：Spark的核心，Spark核心功能均由Spark Core模块提供，是Spark运阅读全文

posted @ 2024-01-11 20:54 椰糖阅读(16) 评论(0) 推荐(0)

2024年1月10日

寒假学习

摘要：由于Apache Spark支持内存计算，并且通过DAG（有向无环图）执行引擎支持无环数据流，所以官方宣称其在内存中的运算速度要比 Hadoop的MapReduce快100倍，在硬盘中要快10倍。 Spark处理数据与MapReduce处理数据相比，有如下两个不同点：  其一、Spark处理数据时阅读全文

posted @ 2024-01-10 23:39 椰糖阅读(7) 评论(0) 推荐(0)

寒假学习

摘要： 1.1 Spark是什么定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction 阅读全文

posted @ 2024-01-10 23:39 椰糖阅读(11) 评论(0) 推荐(0)

2023年12月7日

uml学习

摘要： 1 用例图用例图包含参与者、用例和关系这三种核心元素，不同的视角可以得到不同的用例视图，它展现了系统的功能性需求。所谓不同的视角，可以对应面向对象分析设计的三阶段。 2 类图类图用于展示系统中的类及其相互之间的关系。类图建模常用的方式是从概念层，到说明层，最后到实现层这么一个抽象层次逐步降低阅读全文

posted @ 2023-12-07 18:47 椰糖阅读(29) 评论(0) 推荐(0)

2023年10月13日

摘要： 1 阅读全文

posted @ 2023-10-13 22:52 椰糖阅读(11) 评论(0) 推荐(0)

2023年9月3日

摘要： 1 阅读全文

posted @ 2023-09-03 14:03 椰糖阅读(13) 评论(0) 推荐(0)

2023年8月20日

摘要： 1 阅读全文

posted @ 2023-08-20 23:33 椰糖阅读(11) 评论(0) 推荐(0)

yetang307

公告