12 2019 档案

摘要:1. null值处理,子串,拼接,类型转换 (1) 空字段赋值(null值处理) 当表中的某个字段为null时,比如奖金,当你要统计一个人的总工资时,字段为null的值就无法处理,这个时候就可以使用NVL函数 NVL:给值为NULL的数据赋值,它的格式是NVL( string1, replace_w 阅读全文
posted @ 2019-12-30 20:41 一y样 阅读(622) 评论(0) 推荐(0)
摘要:1. 分桶表以及分桶抽样查询 1.1 分桶表 对Hive(Inceptor)表分桶可以将表中记录按分桶键(某个字段对应的的值)的哈希值分散进多个文件中,这些小文件称为桶。 如要按照name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到 阅读全文
posted @ 2019-12-27 15:10 一y样 阅读(804) 评论(0) 推荐(0)
摘要:1. hive的简介(具体见文档) Hive是分析处理结构化数据的工具 本质:将hive sql转化成MapReduce程序或者spark程序 Hive处理的数据一般存储在HDFS上,其分析数据底层的实现是MapReduce/spark,执行程序运行在Yarn上 其大致可以按如下图理解(具体可见HI 阅读全文
posted @ 2019-12-23 23:15 一y样 阅读(452) 评论(0) 推荐(0)
摘要:1. 读取数据库的形式创建DataFrame DataFrameFromJDBC object DataFrameFromJDBC { def main(args: Array[String]): Unit = { // 创建SparkSession实例 val spark: SparkSessio 阅读全文
posted @ 2019-12-19 15:06 一y样 阅读(450) 评论(0) 推荐(0)
摘要:1. sortBy是Transformation算子,为什么会触发Action sortBy需要对数据进行全局排序,其需要用到RangePartitioner,而在创建RangePartitioner时需要大概知道有多少数据,以及数据的范围(采样),其内部获取这个范围(rangeBounds)是通过 阅读全文
posted @ 2019-12-15 17:33 一y样 阅读(626) 评论(0) 推荐(0)
摘要:1. Spark执行流程 知识补充:RDD的依赖关系 RDD的依赖关系分为两类:窄依赖(Narrow Dependency)和宽依赖(Shuffle Dependency) (1)窄依赖 窄依赖指的是父RDD中的一个分区最多只会被子RDD中的一个分区使用,意味着父RDD的一个分区内的数据是不能被分割 阅读全文
posted @ 2019-12-11 11:37 一y样 阅读(493) 评论(0) 推荐(0)
摘要:1. 学科最受欢迎老师解法补充 day21中该案例的解法四还有一个问题,就是当各个老师受欢迎度是一样的时候,其排序规则就处理不了,以下是对其优化的解法 实现方式五 FavoriteTeacher5 package com._51doit.spark04 import org.apache.spark 阅读全文
posted @ 2019-12-09 23:47 一y样 阅读(308) 评论(0) 推荐(0)
摘要:1. 广播变量 1.1 补充知识(来源:https://blog.csdn.net/huashetianzu/article/details/7821674) 之所以存在reduce side join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中 阅读全文
posted @ 2019-12-07 11:26 一y样 阅读(382) 评论(0) 推荐(0)
摘要:1 RDD编程实战案例一 数据样例 字段说明: 其中cid中1代表手机,2代表家具,3代表服装 1.1 计算订单分类成交金额 需求:在给定的订单数据,根据订单的分类ID进行聚合,然后管理订单分类名称,统计出某一天商品各个分类的成交金额,并保存至Mysql中 (1)法一,将json数据解析出来,直接使 阅读全文
posted @ 2019-12-04 11:28 一y样 阅读(661) 评论(0) 推荐(0)
摘要:0. 零碎概念 (1) 这个有点疑惑,有可能是错误的。 (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间看HaDoopRDD这个方法的源码,用来计算分区数量的) 物理切片:实际将数据切分开,即以前的将数据 阅读全文
posted @ 2019-12-01 11:35 一y样 阅读(508) 评论(0) 推荐(0)