yetang307

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 2 3 4 5 6 7 ··· 13 下一页

2024年1月14日

摘要: 分布式计算需要: • 分区控制 • Shuffle控制 • 数据存储\序列化\发送 • 数据计算API • 等一系列功能 这些功能, 不能简单的通过Python内置的本地集合对象(如 List\ 字典等)去完成. 我们在分布式框架中, 需要有一个统一的数据抽象对象, 来实现上述分布式计算所需功能. 阅读全文
posted @ 2024-01-14 22:29 椰糖 阅读(3) 评论(0) 推荐(0) 编辑

2024年1月13日

摘要: Spark解决什么问题? 海量数据的计算,可以进行离线批处理以及实时流计算 Spark有哪些模块? 核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming )、图计算(GraphX)、机器学习(MLlib) Spark特点有哪些? 速度快、使用简单、通用性强、多 阅读全文
posted @ 2024-01-13 23:15 椰糖 阅读(1) 评论(0) 推荐(0) 编辑

2024年1月12日

摘要: Spark提供多种运行模式,包括:  本地模式(单机) 本地模式就是以一个独立的进程,通过其内部的多个线程来模拟整个Spark运行时环境  Standalone模式(集群) Spark中的各个角色以独立进程的形式存在,并组成Spark集群环境  Hadoop YARN模式(集群) Spark中 阅读全文
posted @ 2024-01-12 23:08 椰糖 阅读(2) 评论(0) 推荐(0) 编辑

2024年1月11日

摘要: park 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上 Spark Core:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spark运 阅读全文
posted @ 2024-01-11 20:54 椰糖 阅读(1) 评论(0) 推荐(0) 编辑

2024年1月10日

摘要: 由于Apache Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比 Hadoop的MapReduce快100倍,在硬盘中要快10倍。 Spark处理数据与MapReduce处理数据相比,有如下两个不同点:  其一、Spark处理数据时 阅读全文
posted @ 2024-01-10 23:39 椰糖 阅读(1) 评论(0) 推荐(0) 编辑

摘要: 1.1 Spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction 阅读全文
posted @ 2024-01-10 23:39 椰糖 阅读(1) 评论(0) 推荐(0) 编辑

2023年12月7日

摘要: 1 用例图 用例图包含参与者、用例和关系这三种核心元素,不同的视角可以得到不同的用例视图,它展现了系统的功能性需求。 所谓不同的视角,可以对应面向对象分析设计的三阶段。 2 类图 类图用于展示系统中的类及其相互之间的关系。 类图建模常用的方式是从概念层,到说明层,最后到实现层这么一个抽象层次逐步降低 阅读全文
posted @ 2023-12-07 18:47 椰糖 阅读(4) 评论(0) 推荐(0) 编辑

2023年10月13日

摘要: 1 阅读全文
posted @ 2023-10-13 22:52 椰糖 阅读(4) 评论(0) 推荐(0) 编辑

2023年9月3日

摘要: 1 阅读全文
posted @ 2023-09-03 14:03 椰糖 阅读(2) 评论(0) 推荐(0) 编辑

2023年8月20日

摘要: 1 阅读全文
posted @ 2023-08-20 23:33 椰糖 阅读(2) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 13 下一页