随笔分类 -  Spark

Spark相关
摘要:在家闲着没事干, 写个简单的疫情数据处理Demo, 顺便回顾下SparkSQL。 模拟数据(以下数据皆为虚构, 如有雷同不胜荣幸) 市民信息(civic_info.csv) 票务信息(简化为仅高铁, ticket_info.csv) 需要导入的Maven坐标 先测试一下读取csv文件 然后直接干业务 阅读全文
posted @ 2020-02-01 17:14 wellDoneGaben 阅读(630) 评论(0) 推荐(0)
摘要:简介 机器学习算法中,有种依据概率原则进行分类的朴素贝叶斯算法,正如气象学家预测天气一样,朴素贝叶斯算法就是应用先前事件的有关数据来估计未来事件发生的概率 公式 P(A|B) = P(A) P(B|A)/P(B) 解释: P(A): A事件发生的概率。 P(B): B事件发生的概率。 P(A | B 阅读全文
posted @ 2019-11-29 19:06 wellDoneGaben 阅读(3429) 评论(0) 推荐(0)
摘要:简单理解 就是用一条直线较为精确地描述数据之间的关系, 这样当出现新的数据的时候, 就能够预测出一个简单的值。 一些概念: 回归平均值(regression to the mean) 因变量(dependent variable): y=a1x1+a2x2+a3x3......+anxn 中的y, 阅读全文
posted @ 2019-11-29 10:52 wellDoneGaben 阅读(416) 评论(0) 推荐(0)
摘要:1. 资源调优 (1). 在部署 spark 集群中指定资源分配的默认参数 在 spark 安装包的 conf 下的 spark env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCES 每台机器启动 worker 数 阅读全文
posted @ 2019-11-06 14:27 wellDoneGaben 阅读(237) 评论(0) 推荐(0)
摘要:Spark算子总结 算子分类 Transformation(转换) | 转换算子 | 含义 | | | | | map(func) | 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 | | filter(func) | 过滤, 返回一个新的RDD, 该RDD由经过func函 阅读全文
posted @ 2019-10-30 22:45 wellDoneGaben 阅读(558) 评论(0) 推荐(0)
摘要:1. 简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的准实时数据流处理。 实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。 例如:map, 阅读全文
posted @ 2019-10-29 15:44 wellDoneGaben 阅读(229) 评论(0) 推荐(0)
摘要:Spark SQL 1. 简介 SparkSQL 的前身是 Shark, SparkSQL 产生的根本原因是其完全脱离了 Hive 的限制。(Shark 底层依赖于 Hive 的解析器, 查询优化器) SparkSQL 支持查询原生的 RDD。 能够在 scala/java 中写 SQL 语句。 支 阅读全文
posted @ 2019-10-28 21:13 wellDoneGaben 阅读(589) 评论(0) 推荐(0)
摘要:Spark 内存管理 Spark 执行应用程序时, 会启动 Driver 和 Executor 两种 JVM 进程 Driver 负责创建 SparkContext 上下文, 提交任务, task的分发等。 Executor 负责 task 的计算任务, 并将结果返回给 Driver, 同时需要为需 阅读全文
posted @ 2019-10-26 14:02 wellDoneGaben 阅读(295) 评论(0) 推荐(0)
摘要:1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是 对的形式, 这样每一个 key 对应 一个聚合起来的 value。 问题: 聚合之前, 每 阅读全文
posted @ 2019-10-26 08:31 wellDoneGaben 阅读(198) 评论(0) 推荐(0)
摘要:1. 广播变量 理解图 使用示例 源码 scala package org.apache.spark.broadcast import java.io.Serializable import scala.reflect.ClassTag import org.apache.spark.SparkEx 阅读全文
posted @ 2019-10-25 16:10 wellDoneGaben 阅读(241) 评论(0) 推荐(0)
摘要:Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况。 当 Spark 提交一个 Application 后, 根据 RDD 之间的依赖关系将 Application 形成一个 DAG 阅读全文
posted @ 2019-10-24 20:36 wellDoneGaben 阅读(887) 评论(0) 推荐(0)
摘要:Spark 集群的模式及提交任务的方式 本文大致的内容图 Spark 集群的两种模式: Standalone 模式 Standalone client 任务提交方式 提交命令 || 执行原理 执行流程 1. client 模式提交任务后, 会在客户端启动Driver进程 2. Driver 会向 M 阅读全文
posted @ 2019-10-23 22:16 wellDoneGaben 阅读(2153) 评论(0) 推荐(0)
摘要:RDD 宽窄依赖 RDD之间有一系列的依赖关系, 可分为窄依赖和宽依赖 窄依赖 从 RDD 的 parition 角度来看 父 RRD 的 parition 和 子 RDD 的 parition 之间的关系是一对一的 (或 者是多对一的)。 不会有 shuffle 产生 宽依赖 父 RRD 的 pa 阅读全文
posted @ 2019-10-23 17:49 wellDoneGaben 阅读(386) 评论(0) 推荐(0)
摘要:spark 资源调度包 Stage(阶段) 类解析 Stage 概念 Spark 任务会根据 RDD 之间的依赖关系, 形成一个DAG有向无环图, DAG会被提交给DAGScheduler, DAGSchedular 会把DAG划分为相互依赖的多个stage。 而划分stage的依据就是RDD之间的 阅读全文
posted @ 2019-10-22 22:48 wellDoneGaben 阅读(379) 评论(0) 推荐(0)
摘要:1. 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不 阅读全文
posted @ 2019-10-21 22:17 wellDoneGaben 阅读(558) 评论(0) 推荐(0)