上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 69 下一页

2022年4月12日

|NO.Z.00085|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|Spark 原理 源码|作业执行原理&任务调度概述|

摘要: 一、作业执行原理 ### 任务调度概述 ~~~ 再次简要回顾 Spark 中的几个重要概念: ~~~ Job 是以 Action 方法为界,遇到一个 Action 方法则触发一个 Job ~~~ Stage 是 Job 的子集,以 RDD 宽依赖(即 Shuffle)为界,遇到 Shuffle 做一 阅读全文

posted @ 2022-04-12 13:47 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00086|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|Spark 原理 源码|作业执行原理&job触发|

摘要: 一、作业执行原理 ### job触发 ~~~ Action 操作后会触发 Job 的计算,并交给 DAGScheduler 来提交。 二、作业执行原理 ### 作业执行原理 ~~~ Action 触发 sc.runJob ~~~ 触发 dagScheduler.runJob ~~~ spark.lo 阅读全文

posted @ 2022-04-12 13:47 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00084|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:46 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00083|——————————|BigDataEnd|——|Hadoop&Spark.V09|——|Spark.v09|Spark 原理 源码|Spark Context&三大组件启动流程|

摘要: 一、三大组件启动流程 ### 三大组件启动流程 ~~~ DAGScheduler(高层调度器,class): ~~~ 负责将 DAG 拆分成不同Stage的具有依赖关系(包含RDD的依赖关系)的多批任务, ~~~ 然后提交给TaskScheduler进行具体处理 ~~~ TaskScheduler( 阅读全文

posted @ 2022-04-12 13:45 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00081|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|Spark 原理 源码|Spark Context&Spark Env内部组件|

摘要: 一、Spark Env内部组件 ### SparkEnv内部组件 ~~~ SparkEnv是spark计算层的基石,不管是 Driver 还是 Executor, ~~~ 都需要依赖SparkEnv来进行计算,它是Spark的执行环境对象, ~~~ 其中包括与众多Executor执行相关的对象。 ~ 阅读全文

posted @ 2022-04-12 13:44 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00082|——————————|BigDataEnd|——|Hadoop&Spark.V08|——|Spark.v08|Spark 原理 源码|Spark Context&Spark Context启动流程|

摘要: 一、SparkContext启动流程 ### sparkContext启动流程 ~~~ SparkContext 涉及到的组件多,源码比较庞大。 ~~~ 有些边缘性的模块主要起到辅助的功能,暂时省略。 ~~~ 本文主要关心 SparkContext整体启动流程、三大组件的启动。 ~~~ 初始化部分的 阅读全文

posted @ 2022-04-12 13:44 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00078|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|Spark 原理 源码|Master Worker解析&Worker启动流程|

摘要: 一、Master Worker解析 ### 源码提取说明:Worker启动流程 ~~~ # 源码提取说明:Worker.scala ~~~ # 18行~90行 package org.apache.spark.deploy.worker private[deploy] class Worker( o 阅读全文

posted @ 2022-04-12 13:43 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00079|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|Spark 原理 源码|Master Worker解析&模拟程序|

摘要: 一、模拟程序 ### 编程代码实现: package org.apache.spark.deploy import java.text.SimpleDateFormat import java.util.{Date, Locale} import java.util.concurrent.TimeU 阅读全文

posted @ 2022-04-12 13:43 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00080|——————————|BigDataEnd|——|Hadoop&Spark.V06|——|Spark.v06|Spark 原理 源码|Spark Context&Spark Context内部组件|

摘要: 一、SparkContext ### SparkContext内部组件 ~~~ Spark应用程序的第一步就是创建并初始化SparkContext, ~~~ SparkContext的初始化过程包含了内部组件的创建和准备, ~~~ 主要涉及网络通信、分布式、消息、存储、计算、调度、缓存、度量、清理、 阅读全文

posted @ 2022-04-12 13:43 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00077|——————————|BigDataEnd|——|Hadoop&Spark.V03|——|Spark.v03|Spark 原理 源码|Master Worker解析&Master启动流程|

摘要: 一、Master 启动流程 ### Master启动流程 ~~~ Master是RpcEndpoint,实现了 RpcEndpoint 接口 ~~~ Master的生命周期遵循 constructor -> onStart -> receive* -> onStop 的步骤 ~~~ Master 的 阅读全文

posted @ 2022-04-12 13:42 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00075|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|Spark 原理 源码|Spark Runtime|

摘要: 一、Spark 原理 ### Spark 原理主要包括 : ~~~ 核心组件的运行机制(Master、Worker、SparkContext等) ~~~ 任务调度的原理 ~~~ Shuffle原理 ~~~ 内存管理 ~~~ 数据倾斜处理 ~~~ Spark优化 ~~~ 熟练掌握 Spark 内核原理 阅读全文

posted @ 2022-04-12 13:41 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00076|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|Spark 原理 源码|Master Worker解析&Spark RPC框架|

摘要: 一、Master & Worker 解析 ### Spark RPC 框架 ~~~ RPC(Remote Procedure Call)远程过程调用。 ~~~ 两台服务器A、B,A服务器上的应用,想要调用B服务器上应用提供的函数/方法, ~~~ 由于不在一个内存空间,不能直接调用,需要通过网络来表达 阅读全文

posted @ 2022-04-12 13:41 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:41 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00074|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:40 yanqi_vip 阅读(7) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:40 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00073|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|Spark GraphX|Spark GraphX计算|寻找相同用户合并信息|

摘要: 一、Spark GraphX计算:寻找相同的用户,合并信息 ### 寻找相同的用户,合并信息 ~~~ 假设有五个不同信息可以作为用户标识,分别为:1X、2X、3X、4X、5X; ~~~ 每次可以选择使用若干为字段作为标识 ~~~ 部分标识可能发生变化,如:12 => 13 或 24 => 25 ## 阅读全文

posted @ 2022-04-12 13:39 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00071|——————————|BigDataEnd|——|Hadoop&Spark.V03|——|Spark.v03|Spark GraphX|Spark GraphX计算|图基本操作|

摘要: 一、Spark GraphX计算 ### Spark GraphX计算 ~~~ 图的定义 ~~~ 属性操作 ~~~ 转换操作 ~~~ 结构操作 ~~~ 关联操作 ~~~ 聚合操作 ~~~ Pregel API 二、图的基本操作 三、编程实现:SparkGraphX计算 ### 在pom.xml下添加 阅读全文

posted @ 2022-04-12 13:38 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00072|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|Spark GraphX|Spark GraphX计算|连通图算法|

摘要: 一、Spark GraphX计算:连通图算法 ### 编程代码实现:给定数据文件,找到存在的连通体 package cn.yanqi.graphx import org.apache.spark.graphx.{Graph, GraphLoader} import org.apache.spark. 阅读全文

posted @ 2022-04-12 13:38 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00070|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|Spark GraphX|基础|

摘要: 一、Spark GraphX 基础 ### SparkGraphX基础 ~~~ 架构 ~~~ 存储模式 ~~~ 核心数据结构 ~~~ GraphX 与 Spark 其他组件相比相对独立,拥有自己的核心数据结构与算子。 二、GraphX 架构 ### GraphX的整体架构可以分为三个部分: ~~~ 阅读全文

posted @ 2022-04-12 13:37 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00069|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|Spark GraphX|概述|

摘要: 一、Spark GraphX ### Spark GraphX概述 ~~~ GraphX 是 Spark 一个组件,专门用来表示图以及进行图的并行计算。 ~~~ GraphX 通过重新定义了图的抽象概念来拓展了 RDD: 定向多图,其属性附加到每个顶点和边。 ~~~ 为了支持图计算, ~~~ Gra 阅读全文

posted @ 2022-04-12 13:36 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00068|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:36 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00067|——————————|^^ 重要 ^^|——|Hadoop&Spark.V05|——|Spark.v05|Spark Streaming|与kafka整合|Redis管理Offse|

摘要: 一、Redis管理的Offset ### 要想将Offset保存到外部存储中,关键要实现以下几个功能: ~~~ Streaming程序启动时,从外部存储获取保存的Offsets(执行一次) ~~~ 在foreachRDD中,每个批次数据处理之后,更新外部存储的offsets(多次执行) ### 在p 阅读全文

posted @ 2022-04-12 13:35 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00066|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|Spark Streaming|与kafka整合|offset管理|

摘要: 一、Offset 管理 ### Offset管理 ~~~ Spark Streaming集成Kafka,允许从Kafka中读取一个或者多个 topic 的数据。 ~~~ 一个Kafka Topic包含一个或多个分区,每个分区中的消息顺序存储,并使用 offset 来标记消息的位置。 ~~~ 开发者可 阅读全文

posted @ 2022-04-12 13:34 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00065|——————————|^^ 重要 ^^|——|Hadoop&Spark.V03|——|Spark.v03|Spark Streaming|与kafka整合|Kafka-010接口|

摘要: 一、Kafka-010 接口 ### kafka-010接口 ~~~ Spark Streaming与kafka 0.10的整合,和0.8版本的 Direct 方式很像。 ~~~ Kafka的分区和Spark的RDD分区是一一对应的,可以获取 offsets 和元数据, ~~~ API 使用起来没有 阅读全文

posted @ 2022-04-12 13:34 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00063|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|Spark Streaming|与kafka整合|

摘要: 一、与Kafka整合 ### 与kafka整合 ~~~ 官网:http://spark.apache.org/docs/2.4.5/streaming-kafka-integration.html ### Streaming与kafka整合版本对照 ~~~ 针对不同的spark、kafka版本,集成 阅读全文

posted @ 2022-04-12 13:33 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.00064|——————————|^^ 重要 ^^|——|Hadoop&Spark.V02|——|Spark.v02|Spark Streaming|与kafka整合|Kafka-08 接口|

摘要: 一、Kafka-08 接口 ### Receiver based Approach ~~~ 基于 Receiver 的方式使用 Kafka 旧版消费者高阶API实现。 ~~~ 对于所有的 Receiver,通过 Kafka 接收的数据被存储于 Spark 的 Executors上, ~~~ 底层是写 阅读全文

posted @ 2022-04-12 13:33 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00060|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|Spark Streaming|DStream转换操作|有状态转换|

摘要: 一、有状态转换 ### 有状态转换 ~~~ 有状态的转换主要有两种:窗口操作、状态跟踪操作 ### 窗口操作 ~~~ Window Operations可以设置窗口大小和滑动窗口间隔来动态的获取当前Streaming的状态。 ~~~ 基于窗口的操作会在一个比 StreamingContext 的 b 阅读全文

posted @ 2022-04-12 13:32 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00061|——————————|BigDataEnd|——|Hadoop&Spark.V08|——|Spark.v08|Spark Streaming|DStream输出操作|

摘要: 一、DStream输出操作 ### DStream输出操作 ~~~ 输出操作定义 DStream 的输出操作。 ~~~ 与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作, ~~~ 那么这些 DStream 就都不会被求值。 ~~~ 如果 St 阅读全文

posted @ 2022-04-12 13:32 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00062|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:32 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00058|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|Spark Streaming|DStream转换操作|

摘要: 一、DStream转换操作 ### DStream转换操作 ~~~ DStream上的操作与RDD的类似, ~~~ 分为 Transformations(转换)和 OutputOperations(输出)两种, ~~~ 此外转换操作中还有一些比较特殊的方法,如: ~~~ updateStateByK 阅读全文

posted @ 2022-04-12 13:31 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00059|——————————|BigDataEnd|——|Hadoop&Spark.V06|——|Spark.v06|Spark Streaming|DStream转换操作|无状态转换|

摘要: 一、无状态转换 ### 无状态转换 ~~~ 无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上, ~~~ 也就是转化DStream 中的每一个 RDD。 ~~~ 常见的无状态转换包括:map、flatMap、filter、repartition、reduceByKey、groupByKey 阅读全文

posted @ 2022-04-12 13:31 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|Spark Streaming|DStream数据源|RDD队列流|

摘要: 一、RDD队列流 ### RDD队列流 ~~~ 调试Spark Streaming应用程序的时候, ~~~ 可使用streamingContext.queueStream(queueOfRDD) 创建基于RDD队列的DStream; ### 源码提取说明 ~~~ # 源码提取说明:Streaming 阅读全文

posted @ 2022-04-12 13:30 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00056|——————————|BigDataEnd|——|Hadoop&Spark.V03|——|Spark.v03|Spark Streaming|DStream数据源|socket数据流|

摘要: 一、socket数据流 ### Socket数据流 ~~~ Spark Streaming可以通过Socket端口监听并接收数据,然后进行相应处理; ~~~ 新开一个命令窗口,启动 nc 程序: nc -lk 9999 # yum install nc ~~~ # 随后可以在nc窗口中随意输入一些单 阅读全文

posted @ 2022-04-12 13:29 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00055|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|Spark Streaming|DStream数据源|文件数据流|

摘要: 一、DStream基础数据源 ### DStream基础数据源 ~~~ 基础数据源包括:文件数据流、socket数据流、RDD队列流;这些数据源主要用于测试。 ### 引入依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId 阅读全文

posted @ 2022-04-12 13:29 yanqi_vip 阅读(15) 评论(0) 推荐(0)

|NO.Z.00054|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|Spark Streaming|概述|

摘要: 一、Spark Streaming ### Spark Streaming ~~~ 随着大数据技术的不断发展,人们对于大数据的实时性处理要求也在不断提高, ~~~ 传统的 MapReduce 等批处理框架在某些特定领域, ~~~ 例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的 阅读全文

posted @ 2022-04-12 13:28 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00053|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:26 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:26 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:26 yanqi_vip 阅读(6) 评论(0) 推荐(0)

|NO.Z.00052|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v12|spark sql原理|sql解析过程|

摘要: 一、SQL解析过程 ### sql解析过程 ~~~ Spark SQL 可以说是 Spark 中的精华部分。 ~~~ 原来基于 RDD 构建大数据计算任务,重心在向 DataSet 转移,原来基于 RDD 写的代码也在迁移。 ~~~ 使用 Spark SQL 编码好处是非常大的,尤其是在性能方面,有 阅读全文

posted @ 2022-04-12 13:25 yanqi_vip 阅读(102) 评论(0) 推荐(0)

|NO.Z.00051|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v11|spark sql原理|SparkSQL中的join|

摘要: 一、Spark SQL原理 ### SparkSQL中的join ~~~ 数据分析中将两个数据集进行 Join 操作是很常见的场景。 ~~~ 在 Spark 的物理计划阶段, ~~~ Spark 的 Join Selection 类会根据 Join hints 策略、Join 表的大小、 ~~~ J 阅读全文

posted @ 2022-04-12 13:24 yanqi_vip 阅读(43) 评论(0) 推荐(0)

上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 69 下一页

导航