摘要: spark的udf和udaf的注册 一、udf 二、udaf 1. 弱类型的自定义聚合函数 是不安全的 1. 强类型的自定义聚合函数 程序运行时候会检查数据的类型,是安全的 阅读全文
posted @ 2020-02-12 21:11 jeasonchen001 阅读(973) 评论(0) 推荐(0)
摘要: java动态代理的两种方式 使用动态代理的好处:可以进行类的功能的加强,同时减少耦合和代码的冗余,耦合的意思是不用吧加强的部分写到各个实现类里面,冗余的意思是如果对每个实现类加强的部分是一样的,通过一个代理类即可实现 基于jdk的动态代理 通过jdk中自带的Proxy类进行动态的代理,Proxy创建 阅读全文
posted @ 2019-10-07 17:14 jeasonchen001 阅读(668) 评论(0) 推荐(0)
摘要: 1.hbase的数据库介绍(掌握) 2.hbase的基础架构(掌握) 3.hbase的集群的搭建 4.hbase shell 5.hbase的api开发(重点) 6.hbase的底层原理(重点) ​ 1)hbase的详细架构 ​ 2)hbase的数据读写流程 7.rowkey的设计技巧 1.hbas 阅读全文
posted @ 2019-08-04 23:20 jeasonchen001 阅读(188) 评论(0) 推荐(0)
摘要: 1.oozie的介绍 oozie:是一个任务调度管理系统。通过xml实现任务的定制。底层是通过mapreduce来完成任务的执行。实际跑的就是一个maptask。任务之间是通过DAG(有向无环图)来进行调度。 2.oozie的架构 1)client:客户端用于提交任务,通过命令提交任务。 2)ser 阅读全文
posted @ 2019-08-04 23:19 jeasonchen001 阅读(165) 评论(0) 推荐(0)
摘要: 1.impala的介绍 1.impala是cloudera公司提供的一个查询工具。通过sql进行数据的查询。impala和hive是紧耦合。impala的 查询速度要比hive高出3--10倍。它摒弃了mapreduce,通过C来快速的完成数据的检索查询。 impala是基于内存进行运算。 2.im 阅读全文
posted @ 2019-08-04 23:18 jeasonchen001 阅读(957) 评论(0) 推荐(0)
摘要: 1.数据的收集 flume taildir 2.数据的预处理 1)数据的预处理:处理掉无法进行分析的无效数据. 2) pageView:按照页面的角度进行数据的处理。 3)visit:按照用户的角度进行数据的处理。session 1.数据仓库的建模 1.维度表:按照一定的维度去创建一张表。维度就是对 阅读全文
posted @ 2019-08-04 23:17 jeasonchen001 阅读(109) 评论(0) 推荐(0)
摘要: 1.Flume介绍 flume:是一个分布式的数据采集系统。 flume的主要作用:最主要的就是收集日志文件。 现在采用的是ng版本,是cloudera公司作为自身一款产品开发的。 flume的运行机制 最核心的角色:agent(代理),由我们设定一个数据收的方式,一个代理代表一个服务 agent的 阅读全文
posted @ 2019-08-04 23:15 jeasonchen001 阅读(136) 评论(0) 推荐(0)
摘要: 1.数据仓库 数据仓库的概念:DW DWH data warehouse,将传统的数据进行集成,进行分析和决策的作用。 仓库:存储物品的地方。作为仓库而言,既不会生产物品,也不会消耗物品。 数据仓库:既不会生产数据,也不会删除数据,主要存储的是历史数据,用于分析和决策使用。 数据仓库的特征: (1) 阅读全文
posted @ 2019-08-04 23:14 jeasonchen001 阅读(175) 评论(0) 推荐(0)
摘要: hive 1.数据仓库 数据仓库的概念:DW DWH data warehouse,将传统的数据进行集成,进行分析和决策的作用。 仓库:存储物品的地方。作为仓库而言,既不会生产物品,也不会消耗物品。 数据仓库:既不会生产数据,也不会删除数据,主要存储的是历史数据,用于分析和决策使用。 数据仓库的特征 阅读全文
posted @ 2019-08-04 23:14 jeasonchen001 阅读(200) 评论(0) 推荐(0)
摘要: 1.Mapreduce的分区和reducetask的数量 1.分区:将相同的数据按照一定规则发送到同一个reduce中进行数据的处理。 原则:物理类聚 人以群分 2.reducetask的数量: 1个reducetask最终对应1个生成的文件 默认情况下,只有一个reducetask 3.hashp 阅读全文
posted @ 2019-08-04 23:13 jeasonchen001 阅读(133) 评论(0) 推荐(0)