会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
阿伟宝座
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
16
下一页
2022年3月13日
DSL的语法
摘要: DSL的语法 SQL中的执行顺序 from --> join --> on --> where --> group by --> having --> select --> order by --> limit 在DSL中没有having,where可以放在分组前,也可以放在分组后 select()
阅读全文
posted @ 2022-03-13 14:57 阿伟宝座
阅读(1994)
评论(0)
推荐(0)
2022年3月12日
Spark source API:构建DF、RDD与DF之间的相互转换、show()的三种用法
摘要: spark source API:构建DF、RDD与DF之间的相互转换、show()的三种用法 读取csv格式的文件,构建DF 读取json格式的文件,构建DF 1、不需要指定分割方式 2、不需要指定字段名和字段类型(json自带字段和字段类型) 3、 json格式的文件相对于csv,会占用额外的空
阅读全文
posted @ 2022-03-12 20:43 阿伟宝座
阅读(1042)
评论(0)
推荐(0)
Spark SQL的介绍和WordCount案例
摘要: Spark SQL的介绍和WordCount案例 Hive SQL是在Hive命令行里编写 DataSource API 数据源API Spark SQL可以读取很多格式的数据,常用的有以下三种: 1、CSV 文本格式 2、JSON 3、JDBC 数据库的格式 DataFrame API 数据框AP
阅读全文
posted @ 2022-03-12 14:13 阿伟宝座
阅读(392)
评论(0)
推荐(0)
2022年3月11日
spark 累加器、广播变量、Executor 的结构
摘要: spark 累加器、广播变量、Executor 的结构 spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccum
阅读全文
posted @ 2022-03-11 21:38 阿伟宝座
阅读(93)
评论(0)
推荐(0)
Spark中的RDD缓存----cache
摘要: Spark中的RDD缓存 cache 前面说到,spark中的RDD是没有数据的,因为数据流过而不留下, 有时候对同一个RDD我们需要使用多次,每次使用该RDD,数据都要重新调用,非常麻烦; 这时候我们可以通过对RDD进行缓存,将RDD缓存在内存或者磁盘里面, 这样就使RDD中含有数据了。 RDD缓
阅读全文
posted @ 2022-03-11 20:55 阿伟宝座
阅读(729)
评论(0)
推荐(0)
Spark在Yarn上的资源调度和任务调度
摘要: spark在Yarn上的资源调度和任务调度 一、spark的执行架构 spark代码会分为两部分:Driver端、Executor端 二、spark on yarn的资源调度(申请资源) 大数据引擎的执行过程: 1、资源调度(申请资源):申请CPU、内存、Executor的数量 2、任务调度(执行t
阅读全文
posted @ 2022-03-11 01:28 阿伟宝座
阅读(1467)
评论(1)
推荐(0)
2022年3月10日
Spark独立集群(了解即可)、Spark如何在Yarn上运行
摘要: Spark独立集群(了解即可)、Spark如何在Yarn上运行、 集群模式 这里仅仅只是记录一下 Spark Standalone -- 独立集群模式 如何搭建 在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架 所以不需要搭建 Standalone 架构
阅读全文
posted @ 2022-03-10 19:17 阿伟宝座
阅读(948)
评论(0)
推荐(0)
2022年3月9日
Spark的核心----算子(重点)
摘要: Spark中的算子 Transformations:转换算子 Actions:操作算子 所谓的转换算子,其实就是通过调用RDD对象的方法,将旧的RDD转换为新的RDD,通过转换,将多个功能组合在一起;如果一个算子的返回值是一个新的rdd,那么这个算子就是转换算子 所有会产生shuffle的算子都可以
阅读全文
posted @ 2022-03-09 22:22 阿伟宝座
阅读(441)
评论(0)
推荐(0)
2022年3月7日
RDD 分区数的设置、访问 spark web界面,查看任务运行状态
摘要: RDD 分区数的设置、访问 spark web界面,查看任务运行状态 目录 RDD 分区数的设置 访问 spark web界面,查看任务运行状态 RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import or
阅读全文
posted @ 2022-03-07 22:46 阿伟宝座
阅读(394)
评论(0)
推荐(0)
RDD基础----RDD的五大特性、spark WordCount流程图
摘要: RDD基础 RDD的五大特性、spark WordCount流程图 RDD:弹性的分布式数据集,可以理解为一个分布式的List集合 RDD:ResilientDistributedDataset Rdd默认没有数据,它是一个抽象的编程模型 1、RDD的五大特性 (1)由一系列的分区组成。默认一个bl
阅读全文
posted @ 2022-03-07 22:33 阿伟宝座
阅读(339)
评论(0)
推荐(0)
Spark的配置和WordCount案例
摘要: Spark的配置和WordCount案例 Spark运行模式: (1)Local:多用于测试 (2)Standalone:独立集群(通常不用) (3)Mesos:(通常不用) (4)YARN:最具前景(管理内存的CPU) (5)k8s:虚拟化模型 一、spark的配置 1、在spark的pom.xm
阅读全文
posted @ 2022-03-07 22:03 阿伟宝座
阅读(123)
评论(0)
推荐(0)
spark的介绍
摘要: spark的介绍 1、什么是spark? 分布式计算引擎,也是快速通用的大规模数据处理引擎 2、spark的特点 (1)速度快 spark的计算是基于内存的;spark具有优秀的作业调度策略 (2)易使用 spark提供了支持多种语言的API(scala、python、javan、R等; scala
阅读全文
posted @ 2022-03-07 20:04 阿伟宝座
阅读(2746)
评论(0)
推荐(0)
Scala练习题
摘要: 1
阅读全文
posted @ 2022-03-07 20:02 阿伟宝座
阅读(31)
评论(0)
推荐(0)
2022年3月6日
Scala的反射
摘要: Scala的反射 先创建一个类 Demo34 package com.shujia.scala object Demo33{ def main(args: Array[String]): Unit = { /** * 反射 * 类对象: class文件在jvm这种的存在形式 * * 类对象的作用 *
阅读全文
posted @ 2022-03-06 23:52 阿伟宝座
阅读(85)
评论(0)
推荐(0)
Scala中的偏应用函数
摘要: Scala中的偏应用函数 偏应用函数: 可以先传一部分参数,会返回一个函数, 后面的参数可以传多次不一样的 package com.shujia.scala object Demo32 { def main(args: Array[String]): Unit = { //定义一个函数 def fu
阅读全文
posted @ 2022-03-06 22:43 阿伟宝座
阅读(39)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
16
下一页
公告