阿伟宝座

2022年3月13日

摘要： DSL的语法 SQL中的执行顺序 from --> join --> on --> where --> group by --> having --> select --> order by --> limit 在DSL中没有having，where可以放在分组前，也可以放在分组后 select() 阅读全文

posted @ 2022-03-13 14:57 阿伟宝座阅读(2054) 评论(0) 推荐(0)

2022年3月12日

Spark source API：构建DF、RDD与DF之间的相互转换、show()的三种用法

摘要： spark source API：构建DF、RDD与DF之间的相互转换、show()的三种用法读取csv格式的文件，构建DF 读取json格式的文件，构建DF 1、不需要指定分割方式 2、不需要指定字段名和字段类型(json自带字段和字段类型) 3、 json格式的文件相对于csv，会占用额外的空阅读全文

posted @ 2022-03-12 20:43 阿伟宝座阅读(1076) 评论(0) 推荐(0)

Spark SQL的介绍和WordCount案例

摘要： Spark SQL的介绍和WordCount案例 Hive SQL是在Hive命令行里编写 DataSource API 数据源API Spark SQL可以读取很多格式的数据，常用的有以下三种： 1、CSV 文本格式 2、JSON 3、JDBC 数据库的格式 DataFrame API 数据框AP 阅读全文

posted @ 2022-03-12 14:13 阿伟宝座阅读(422) 评论(0) 推荐(0)

2022年3月11日

spark 累加器、广播变量、Executor 的结构

摘要： spark 累加器、广播变量、Executor 的结构 spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccum 阅读全文

posted @ 2022-03-11 21:38 阿伟宝座阅读(107) 评论(0) 推荐(0)

Spark中的RDD缓存----cache

摘要： Spark中的RDD缓存 cache 前面说到，spark中的RDD是没有数据的，因为数据流过而不留下，有时候对同一个RDD我们需要使用多次，每次使用该RDD，数据都要重新调用，非常麻烦；这时候我们可以通过对RDD进行缓存，将RDD缓存在内存或者磁盘里面，这样就使RDD中含有数据了。 RDD缓阅读全文

posted @ 2022-03-11 20:55 阿伟宝座阅读(751) 评论(0) 推荐(0)

Spark在Yarn上的资源调度和任务调度

摘要： spark在Yarn上的资源调度和任务调度一、spark的执行架构 spark代码会分为两部分：Driver端、Executor端二、spark on yarn的资源调度(申请资源) 大数据引擎的执行过程： 1、资源调度(申请资源)：申请CPU、内存、Executor的数量 2、任务调度(执行t 阅读全文

posted @ 2022-03-11 01:28 阿伟宝座阅读(1539) 评论(1) 推荐(0)

2022年3月10日

Spark独立集群(了解即可)、Spark如何在Yarn上运行

摘要： Spark独立集群(了解即可)、Spark如何在Yarn上运行、集群模式这里仅仅只是记录一下 Spark Standalone -- 独立集群模式如何搭建在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架所以不需要搭建 Standalone 架构阅读全文

posted @ 2022-03-10 19:17 阿伟宝座阅读(971) 评论(0) 推荐(0)

2022年3月9日

Spark的核心----算子(重点)

摘要： Spark中的算子 Transformations：转换算子 Actions：操作算子所谓的转换算子，其实就是通过调用RDD对象的方法，将旧的RDD转换为新的RDD，通过转换，将多个功能组合在一起；如果一个算子的返回值是一个新的rdd,那么这个算子就是转换算子所有会产生shuffle的算子都可以阅读全文

posted @ 2022-03-09 22:22 阿伟宝座阅读(464) 评论(0) 推荐(0)

2022年3月7日

RDD 分区数的设置、访问 spark web界面，查看任务运行状态

摘要： RDD 分区数的设置、访问 spark web界面，查看任务运行状态目录 RDD 分区数的设置访问 spark web界面，查看任务运行状态 RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import or 阅读全文

posted @ 2022-03-07 22:46 阿伟宝座阅读(415) 评论(0) 推荐(0)

RDD基础----RDD的五大特性、spark WordCount流程图

摘要： RDD基础 RDD的五大特性、spark WordCount流程图 RDD：弹性的分布式数据集，可以理解为一个分布式的List集合 RDD：ResilientDistributedDataset Rdd默认没有数据，它是一个抽象的编程模型 1、RDD的五大特性 (1)由一系列的分区组成。默认一个bl 阅读全文

posted @ 2022-03-07 22:33 阿伟宝座阅读(365) 评论(0) 推荐(0)

Spark的配置和WordCount案例

摘要： Spark的配置和WordCount案例 Spark运行模式: (1)Local：多用于测试 (2)Standalone：独立集群(通常不用) (3)Mesos：(通常不用) (4)YARN：最具前景(管理内存的CPU) (5)k8s：虚拟化模型一、spark的配置 1、在spark的pom.xm 阅读全文

posted @ 2022-03-07 22:03 阿伟宝座阅读(137) 评论(0) 推荐(0)

spark的介绍

摘要： spark的介绍 1、什么是spark？分布式计算引擎，也是快速通用的大规模数据处理引擎 2、spark的特点 (1)速度快 spark的计算是基于内存的;spark具有优秀的作业调度策略 (2)易使用 spark提供了支持多种语言的API（scala、python、javan、R等; scala 阅读全文

posted @ 2022-03-07 20:04 阿伟宝座阅读(2783) 评论(0) 推荐(0)

Scala练习题

摘要： 1 阅读全文

posted @ 2022-03-07 20:02 阿伟宝座阅读(32) 评论(0) 推荐(0)

2022年3月6日

Scala的反射

摘要： Scala的反射先创建一个类 Demo34 package com.shujia.scala object Demo33{ def main(args: Array[String]): Unit = { /** * 反射 * 类对象： class文件在jvm这种的存在形式 * * 类对象的作用 * 阅读全文

posted @ 2022-03-06 23:52 阿伟宝座阅读(105) 评论(0) 推荐(0)

Scala中的偏应用函数

摘要： Scala中的偏应用函数偏应用函数：可以先传一部分参数，会返回一个函数，后面的参数可以传多次不一样的 package com.shujia.scala object Demo32 { def main(args: Array[String]): Unit = { //定义一个函数 def fu 阅读全文

posted @ 2022-03-06 22:43 阿伟宝座阅读(57) 评论(0) 推荐(0)

公告