Spark - 随笔分类 - 阿伟宝座

spark 数据倾斜优化

摘要：spark 数据倾斜优化倾斜优化数据倾斜产生的原因 1、数据分布不均，有的key很多，有的key很少 2、有shuffle的过程这两个原因也是解决数据倾斜的两个入手的方面数据倾斜七种解决方案其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理阅读全文

posted @ 2022-03-23 15:26 阿伟宝座阅读(328) 评论(0) 推荐(0)

spark 参数调优

摘要：spark 参数调优参数调优 num-executors 一般为Task数的1/3或1/2左右，这个参数是必须要设置的参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个阅读全文

posted @ 2022-03-23 15:24 阿伟宝座阅读(733) 评论(0) 推荐(0)

spark案例----精准搜索需求

摘要：spark案例精准搜索需求数据： {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","i 阅读全文

posted @ 2022-03-23 15:16 阿伟宝座阅读(62) 评论(0) 推荐(0)

spark 调优、spark 代码的优化

摘要：spark 调优、spark 代码的优化目录 spark 调优 spark 代码的优化对多次使用的RDD进行持久化使用高性能的算子使用foreachPartitions替代foreach Action算子重分区使用filter之后进行coalesce操作广播大变量使用Kryo优化序列阅读全文

posted @ 2022-03-21 17:18 阿伟宝座阅读(195) 评论(0) 推荐(0)

了解：Spark MLlibl

摘要：Spark MLlibl 目录 Spark MLlib 导入依赖稠密向量和稀疏向量 Spark MLlib 线性回归程序示例 Spark MLlib 逻辑回归程序示例使用已经训练好的模型 image(图片) 训练模型 Spark MLlib Spark 机器学习机器学习是人工智能的一个分支阅读全文

posted @ 2022-03-17 23:26 阿伟宝座阅读(99) 评论(0) 推荐(0)

了解：机器学习、算法

摘要：了解：机器学习、算法目录机器学习数学模型有监督和无监督机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法决策树算法随机森林算法逻辑回归算法 k-means聚类人工神经网络深度学习降低维度算法机器学习/数据挖掘建模过程常用的机器学习/数据挖掘建模工具朴素贝叶斯分类贝叶阅读全文

posted @ 2022-03-17 22:47 阿伟宝座阅读(79) 评论(0) 推荐(0)

DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因

摘要：DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因目录 DStream、RDD、DataFrame 的相互转换 spark 比 MapReduce 快的原因 1、当对同一个rdd多次使用的时候可以将这个rdd缓存起来 2、spark -- 粗粒度的阅读全文

posted @ 2022-03-16 19:51 阿伟宝座阅读(512) 评论(0) 推荐(0)

了解：有状态算子、滑动窗口和滚动窗口

摘要：了解：有状态算子、滑动窗口和滚动窗口目录有状态算子滑动窗口和滚动窗口滑动窗口的使用及优化(包含滚动窗口) 有状态算子之前我们在运行 Spark Streaming 的时候发现微批处理之中，每一个批次都是相对独立的如何让其能够产生累加的效果呢？ package com.shujia.str 阅读全文

posted @ 2022-03-16 19:07 阿伟宝座阅读(514) 评论(0) 推荐(0)

Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图

摘要：Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图目录 Spark Streaming 离线计算、实时计算、实时查询 Spark Streaming 原理 S 阅读全文

posted @ 2022-03-13 23:20 阿伟宝座阅读(192) 评论(0) 推荐(0)

查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作

摘要：查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作一、查看 spark-sql 的 SQL语法树查看 spark-sql 的web界面的一种方式在通过 spark-sql --master yarn-client 命令进入 spark-sq 阅读全文

posted @ 2022-03-13 21:44 阿伟宝座阅读(252) 评论(0) 推荐(0)

spark-sql 写代码的三种方式

摘要：spark-sql 写代码的三种方式一、在idea里面将代码编写好打包上传到集群中运行上线使用 spark-submit提交(项目常用) 1、编写代码编写代码三步骤： (1)创建环境 (2)读取文件、编写逻辑 (3)保存数据 package com.shujia.sql import org. 阅读全文

posted @ 2022-03-13 21:10 阿伟宝座阅读(1716) 评论(0) 推荐(0)

DSL的语法

摘要：DSL的语法 SQL中的执行顺序 from --> join --> on --> where --> group by --> having --> select --> order by --> limit 在DSL中没有having，where可以放在分组前，也可以放在分组后 select() 阅读全文

posted @ 2022-03-13 14:57 阿伟宝座阅读(2010) 评论(0) 推荐(0)

Spark source API：构建DF、RDD与DF之间的相互转换、show()的三种用法

摘要：spark source API：构建DF、RDD与DF之间的相互转换、show()的三种用法读取csv格式的文件，构建DF 读取json格式的文件，构建DF 1、不需要指定分割方式 2、不需要指定字段名和字段类型(json自带字段和字段类型) 3、 json格式的文件相对于csv，会占用额外的空阅读全文

posted @ 2022-03-12 20:43 阿伟宝座阅读(1063) 评论(0) 推荐(0)

Spark SQL的介绍和WordCount案例

摘要：Spark SQL的介绍和WordCount案例 Hive SQL是在Hive命令行里编写 DataSource API 数据源API Spark SQL可以读取很多格式的数据，常用的有以下三种： 1、CSV 文本格式 2、JSON 3、JDBC 数据库的格式 DataFrame API 数据框AP 阅读全文

posted @ 2022-03-12 14:13 阿伟宝座阅读(404) 评论(0) 推荐(0)

spark 累加器、广播变量、Executor 的结构

摘要：spark 累加器、广播变量、Executor 的结构 spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccum 阅读全文

posted @ 2022-03-11 21:38 阿伟宝座阅读(99) 评论(0) 推荐(0)

Spark中的RDD缓存----cache

摘要：Spark中的RDD缓存 cache 前面说到，spark中的RDD是没有数据的，因为数据流过而不留下，有时候对同一个RDD我们需要使用多次，每次使用该RDD，数据都要重新调用，非常麻烦；这时候我们可以通过对RDD进行缓存，将RDD缓存在内存或者磁盘里面，这样就使RDD中含有数据了。 RDD缓阅读全文

posted @ 2022-03-11 20:55 阿伟宝座阅读(736) 评论(0) 推荐(0)

Spark在Yarn上的资源调度和任务调度

摘要：spark在Yarn上的资源调度和任务调度一、spark的执行架构 spark代码会分为两部分：Driver端、Executor端二、spark on yarn的资源调度(申请资源) 大数据引擎的执行过程： 1、资源调度(申请资源)：申请CPU、内存、Executor的数量 2、任务调度(执行t 阅读全文

posted @ 2022-03-11 01:28 阿伟宝座阅读(1481) 评论(1) 推荐(0)

Spark独立集群(了解即可)、Spark如何在Yarn上运行

摘要：Spark独立集群(了解即可)、Spark如何在Yarn上运行、集群模式这里仅仅只是记录一下 Spark Standalone -- 独立集群模式如何搭建在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架所以不需要搭建 Standalone 架构阅读全文

posted @ 2022-03-10 19:17 阿伟宝座阅读(958) 评论(0) 推荐(0)

Spark的核心----算子(重点)

摘要：Spark中的算子 Transformations：转换算子 Actions：操作算子所谓的转换算子，其实就是通过调用RDD对象的方法，将旧的RDD转换为新的RDD，通过转换，将多个功能组合在一起；如果一个算子的返回值是一个新的rdd,那么这个算子就是转换算子所有会产生shuffle的算子都可以阅读全文

posted @ 2022-03-09 22:22 阿伟宝座阅读(445) 评论(0) 推荐(0)

RDD 分区数的设置、访问 spark web界面，查看任务运行状态

摘要：RDD 分区数的设置、访问 spark web界面，查看任务运行状态目录 RDD 分区数的设置访问 spark web界面，查看任务运行状态 RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import or 阅读全文

posted @ 2022-03-07 22:46 阿伟宝座阅读(404) 评论(0) 推荐(0)

阿伟宝座

随笔分类 - Spark

公告