随笔分类 - Spark
摘要:spark 数据倾斜优化 倾斜优化 数据倾斜产生的原因 1、数据分布不均,有的key很多,有的key很少 2、有shuffle的过程 这两个原因也是解决数据倾斜的两个入手的方面 数据倾斜七种解决方案 其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理
阅读全文
摘要:spark 参数调优 参数调优 num-executors 一般为Task数的1/3或1/2左右,这个参数是必须要设置的 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个
阅读全文
摘要:spark案例 精准搜索需求 数据: {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","i
阅读全文
摘要:spark 调优、spark 代码的优化 目录 spark 调优 spark 代码的优化 对多次使用的RDD进行持久化 使用高性能的算子 使用foreachPartitions替代foreach Action算子 重分区 使用filter之后进行coalesce操作 广播大变量 使用Kryo优化序列
阅读全文
摘要:Spark MLlibl 目录 Spark MLlib 导入依赖 稠密向量和稀疏向量 Spark MLlib 线性回归 程序示例 Spark MLlib 逻辑回归 程序示例 使用已经训练好的模型 image(图片) 训练模型 Spark MLlib Spark 机器学习 机器学习是人工智能的一个分支
阅读全文
摘要:了解:机器学习、算法 目录 机器学习数学模型 有监督和无监督 机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法 决策树算法 随机森林算法 逻辑回归算法 k-means聚类 人工神经网络 深度学习 降低维度算法 机器学习/数据挖掘建模过程 常用的机器学习/数据挖掘建模工具 朴素贝叶斯分类 贝叶
阅读全文
摘要:DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因 目录 DStream、RDD、DataFrame 的相互转换 spark 比 MapReduce 快的原因 1、当对同一个rdd多次使用的时候可以将这个rdd缓存起来 2、spark -- 粗粒度的
阅读全文
摘要:了解:有状态算子、滑动窗口和滚动窗口 目录 有状态算子 滑动窗口和滚动窗口 滑动窗口的使用及优化(包含滚动窗口) 有状态算子 之前我们在运行 Spark Streaming 的时候发现微批处理之中,每一个批次都是相对独立的 如何让其能够产生累加的效果呢? package com.shujia.str
阅读全文
摘要:Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图 目录 Spark Streaming 离线计算、实时计算、实时查询 Spark Streaming 原理 S
阅读全文
摘要:查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作 一、查看 spark-sql 的 SQL语法树 查看 spark-sql 的web界面的一种方式 在通过 spark-sql --master yarn-client 命令进入 spark-sq
阅读全文
摘要:spark-sql 写代码的三种方式 一、在idea里面将代码编写好打包上传到集群中运行 上线使用 spark-submit提交(项目常用) 1、编写代码 编写代码三步骤: (1)创建环境 (2)读取文件、编写逻辑 (3)保存数据 package com.shujia.sql import org.
阅读全文
摘要:DSL的语法 SQL中的执行顺序 from --> join --> on --> where --> group by --> having --> select --> order by --> limit 在DSL中没有having,where可以放在分组前,也可以放在分组后 select()
阅读全文
摘要:spark source API:构建DF、RDD与DF之间的相互转换、show()的三种用法 读取csv格式的文件,构建DF 读取json格式的文件,构建DF 1、不需要指定分割方式 2、不需要指定字段名和字段类型(json自带字段和字段类型) 3、 json格式的文件相对于csv,会占用额外的空
阅读全文
摘要:Spark SQL的介绍和WordCount案例 Hive SQL是在Hive命令行里编写 DataSource API 数据源API Spark SQL可以读取很多格式的数据,常用的有以下三种: 1、CSV 文本格式 2、JSON 3、JDBC 数据库的格式 DataFrame API 数据框AP
阅读全文
摘要:spark 累加器、广播变量、Executor 的结构 spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccum
阅读全文
摘要:Spark中的RDD缓存 cache 前面说到,spark中的RDD是没有数据的,因为数据流过而不留下, 有时候对同一个RDD我们需要使用多次,每次使用该RDD,数据都要重新调用,非常麻烦; 这时候我们可以通过对RDD进行缓存,将RDD缓存在内存或者磁盘里面, 这样就使RDD中含有数据了。 RDD缓
阅读全文
摘要:spark在Yarn上的资源调度和任务调度 一、spark的执行架构 spark代码会分为两部分:Driver端、Executor端 二、spark on yarn的资源调度(申请资源) 大数据引擎的执行过程: 1、资源调度(申请资源):申请CPU、内存、Executor的数量 2、任务调度(执行t
阅读全文
摘要:Spark独立集群(了解即可)、Spark如何在Yarn上运行、 集群模式 这里仅仅只是记录一下 Spark Standalone -- 独立集群模式 如何搭建 在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架 所以不需要搭建 Standalone 架构
阅读全文
摘要:Spark中的算子 Transformations:转换算子 Actions:操作算子 所谓的转换算子,其实就是通过调用RDD对象的方法,将旧的RDD转换为新的RDD,通过转换,将多个功能组合在一起;如果一个算子的返回值是一个新的rdd,那么这个算子就是转换算子 所有会产生shuffle的算子都可以
阅读全文
摘要:RDD 分区数的设置、访问 spark web界面,查看任务运行状态 目录 RDD 分区数的设置 访问 spark web界面,查看任务运行状态 RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import or
阅读全文

浙公网安备 33010602011771号