摘要: 1、SparkSql概述 1、什么是SparkSql? SparkSql用于处理结构化数据,底层还是RDD 2、SparkSql的两个数据抽象: DataFrame、DataSet 1、什么是DataFrame DataFrame可以当做一个二维表格,有schema信息<有列名、列类型> DataF 阅读全文
posted @ 2021-11-08 22:53 KaneQi 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 数据读取与保存 Text文件 基本语法 数据读取:textFile(String) 数据保存:saveAsTextFile(String) Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在Spark 阅读全文
posted @ 2021-11-07 15:09 KaneQi 阅读(32) 评论(0) 推荐(0) 编辑
摘要: RDD创建 根据本地创建 makeRDD: 底层就是使用的parallelize parallelize 读取文件创建 根据读取文件创建RDD spark读取文件的方式: 如果集群配置文件中有配置 HADOOP_CONF_DIR配置,此时默认读取是HDFS文件 【公司一般有配置HADOOP_CONF 阅读全文
posted @ 2021-11-07 15:07 KaneQi 阅读(31) 评论(0) 推荐(0) 编辑
摘要: SparkCore-基本概述 RDD概述 弹性分布式数据集,Spark中最基本的数据抽象。代码中的是一个抽象类,其代表一个弹性、不可变、可分区、内部元素可并行计算的集合 RDD特点 弹性 存储:内存与硬盘自动切换,可以存储在内存或者磁盘中 计算:数据丢失可以自动恢复 容错:计算出错有重试机制 分片: 阅读全文
posted @ 2021-11-07 15:05 KaneQi 阅读(48) 评论(0) 推荐(0) 编辑
摘要: Spark概述 描述:基于内存的快速、通用、可扩展的分析计算引擎 MR与Spark对比 MR 从数据源获取数据,经过map、shuffle、reduce计算,将结果输出到指定位置,其核心是一次计算,不适合迭代计算和图计算 Spark 从数据源获取数据,将计算逻辑封装成RDD,经过特定算子计算,将结果 阅读全文
posted @ 2021-11-07 15:02 KaneQi 阅读(54) 评论(0) 推荐(0) 编辑
摘要: Scala-集合 简介 说明 集合三大类:序列(seq)、集(set)、映射(map),所有的集合都拓展自iterable特质 对于几乎所有的集合类,Scala都提供了可变和不变的版本,分别位于scala.collection.immutable(不可变集合)、scala.collection.mu 阅读全文
posted @ 2021-10-29 18:25 KaneQi 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 函数式编程 方法 对象: 封装数据 方法:步骤的封装 方法定义方式: def 方法名(参数名:参数类型,…………):返回值类型={ 方法体 } 方法的简化 方法体中的语句只有一句可以省略{},类似Java中的if省略一句的情况 由于存在自动类型推断,可以省略方法中的返回值(但最后一句必须是可以作为返 阅读全文
posted @ 2021-10-22 19:52 KaneQi 阅读(32) 评论(0) 推荐(0) 编辑
摘要: Scala scala入门 Scala和Java的关系 语言特点 Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言。 Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程。 Scala源代码(.scala)会被编译成J 阅读全文
posted @ 2021-10-22 19:50 KaneQi 阅读(35) 评论(0) 推荐(0) 编辑
摘要: HBASE简介 定义: 基于hdfs的分布式,高可用,非关系型数据库 数据模型部分相关概念: 命名空间(name space):类似关系型数据库中的库 行键(row):类似关系型数据库中的行,一般按照字典序排序 列簇(Column Family):就是一个列族,其内部还可有多个下设列 列限定符(Co 阅读全文
posted @ 2021-10-13 20:46 KaneQi 阅读(40) 评论(0) 推荐(0) 编辑
摘要: redis简介 部分基本概念 Redis:Remote Dictionary Server(远程字典服务器) Redis的特点: 使用c语言开发 短小精悍,整个Redis一共只有5w行代码,核心代码只有2w行,性能强劲 基于内存 单线程(一次只能执行一条命令),多路IO复用(读写速度快) NoSQL 阅读全文
posted @ 2021-10-08 20:04 KaneQi 阅读(24) 评论(0) 推荐(0) 编辑