上一页 1 2 3 4 5 6 7 8 ··· 16 下一页
摘要: DSL的语法 SQL中的执行顺序 from --> join --> on --> where --> group by --> having --> select --> order by --> limit 在DSL中没有having,where可以放在分组前,也可以放在分组后 select() 阅读全文
posted @ 2022-03-13 14:57 阿伟宝座 阅读(1994) 评论(0) 推荐(0)
摘要: spark source API:构建DF、RDD与DF之间的相互转换、show()的三种用法 读取csv格式的文件,构建DF 读取json格式的文件,构建DF 1、不需要指定分割方式 2、不需要指定字段名和字段类型(json自带字段和字段类型) 3、 json格式的文件相对于csv,会占用额外的空 阅读全文
posted @ 2022-03-12 20:43 阿伟宝座 阅读(1042) 评论(0) 推荐(0)
摘要: Spark SQL的介绍和WordCount案例 Hive SQL是在Hive命令行里编写 DataSource API 数据源API Spark SQL可以读取很多格式的数据,常用的有以下三种: 1、CSV 文本格式 2、JSON 3、JDBC 数据库的格式 DataFrame API 数据框AP 阅读全文
posted @ 2022-03-12 14:13 阿伟宝座 阅读(392) 评论(0) 推荐(0)
摘要: spark 累加器、广播变量、Executor 的结构 spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccum 阅读全文
posted @ 2022-03-11 21:38 阿伟宝座 阅读(93) 评论(0) 推荐(0)
摘要: Spark中的RDD缓存 cache 前面说到,spark中的RDD是没有数据的,因为数据流过而不留下, 有时候对同一个RDD我们需要使用多次,每次使用该RDD,数据都要重新调用,非常麻烦; 这时候我们可以通过对RDD进行缓存,将RDD缓存在内存或者磁盘里面, 这样就使RDD中含有数据了。 RDD缓 阅读全文
posted @ 2022-03-11 20:55 阿伟宝座 阅读(729) 评论(0) 推荐(0)
摘要: spark在Yarn上的资源调度和任务调度 一、spark的执行架构 spark代码会分为两部分:Driver端、Executor端 二、spark on yarn的资源调度(申请资源) 大数据引擎的执行过程: 1、资源调度(申请资源):申请CPU、内存、Executor的数量 2、任务调度(执行t 阅读全文
posted @ 2022-03-11 01:28 阿伟宝座 阅读(1467) 评论(1) 推荐(0)
摘要: Spark独立集群(了解即可)、Spark如何在Yarn上运行、 集群模式 这里仅仅只是记录一下 Spark Standalone -- 独立集群模式 如何搭建 在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架 所以不需要搭建 Standalone 架构 阅读全文
posted @ 2022-03-10 19:17 阿伟宝座 阅读(948) 评论(0) 推荐(0)
摘要: Spark中的算子 Transformations:转换算子 Actions:操作算子 所谓的转换算子,其实就是通过调用RDD对象的方法,将旧的RDD转换为新的RDD,通过转换,将多个功能组合在一起;如果一个算子的返回值是一个新的rdd,那么这个算子就是转换算子 所有会产生shuffle的算子都可以 阅读全文
posted @ 2022-03-09 22:22 阿伟宝座 阅读(441) 评论(0) 推荐(0)
摘要: RDD 分区数的设置、访问 spark web界面,查看任务运行状态 目录 RDD 分区数的设置 访问 spark web界面,查看任务运行状态 RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import or 阅读全文
posted @ 2022-03-07 22:46 阿伟宝座 阅读(394) 评论(0) 推荐(0)
摘要: RDD基础 RDD的五大特性、spark WordCount流程图 RDD:弹性的分布式数据集,可以理解为一个分布式的List集合 RDD:ResilientDistributedDataset Rdd默认没有数据,它是一个抽象的编程模型 1、RDD的五大特性 (1)由一系列的分区组成。默认一个bl 阅读全文
posted @ 2022-03-07 22:33 阿伟宝座 阅读(339) 评论(0) 推荐(0)
摘要: Spark的配置和WordCount案例 Spark运行模式: (1)Local:多用于测试 (2)Standalone:独立集群(通常不用) (3)Mesos:(通常不用) (4)YARN:最具前景(管理内存的CPU) (5)k8s:虚拟化模型 一、spark的配置 1、在spark的pom.xm 阅读全文
posted @ 2022-03-07 22:03 阿伟宝座 阅读(123) 评论(0) 推荐(0)
摘要: spark的介绍 1、什么是spark? 分布式计算引擎,也是快速通用的大规模数据处理引擎 2、spark的特点 (1)速度快 spark的计算是基于内存的;spark具有优秀的作业调度策略 (2)易使用 spark提供了支持多种语言的API(scala、python、javan、R等; scala 阅读全文
posted @ 2022-03-07 20:04 阿伟宝座 阅读(2746) 评论(0) 推荐(0)
摘要: 1 阅读全文
posted @ 2022-03-07 20:02 阿伟宝座 阅读(31) 评论(0) 推荐(0)
摘要: Scala的反射 先创建一个类 Demo34 package com.shujia.scala object Demo33{ def main(args: Array[String]): Unit = { /** * 反射 * 类对象: class文件在jvm这种的存在形式 * * 类对象的作用 * 阅读全文
posted @ 2022-03-06 23:52 阿伟宝座 阅读(85) 评论(0) 推荐(0)
摘要: Scala中的偏应用函数 偏应用函数: 可以先传一部分参数,会返回一个函数, 后面的参数可以传多次不一样的 package com.shujia.scala object Demo32 { def main(args: Array[String]): Unit = { //定义一个函数 def fu 阅读全文
posted @ 2022-03-06 22:43 阿伟宝座 阅读(39) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 16 下一页