posts - 26,comments - 1,trackbacks - 0

摘要:问题总结 一、java问题汇总 线程池创建的问题 场景:在推荐系统开发过程中,有一个数据的获取场景,模型输出的结果必须要查redis进行映射才能得到最后的结果,redis中的数据是通过hash格式存储的,每个key对固定的field的值对应了一个结果。一次post请求要查询300次redis,为了满 阅读全文
posted @ 2020-08-30 21:31 jeasonchen001 阅读(60) 评论(1) 推荐(0) 编辑
摘要:第1章 基础 调用函数和方法 调用函数,以math包中的函数调用为例 import scala.math._ "_"相当于java中的* pow(2, 4) 返回16.0。如果是scala开头的包,可以省略scala 方法,scala中没有静态方法 与之对应的是每一个类都有一个同名的伴生对象,定义在 阅读全文
posted @ 2020-08-30 21:16 jeasonchen001 阅读(49) 评论(0) 推荐(0) 编辑
摘要:spark的udf和udaf的注册 一、udf 二、udaf 1. 弱类型的自定义聚合函数 是不安全的 1. 强类型的自定义聚合函数 程序运行时候会检查数据的类型,是安全的 阅读全文
posted @ 2020-02-12 21:11 jeasonchen001 阅读(157) 评论(0) 推荐(0) 编辑
摘要:java动态代理的两种方式 使用动态代理的好处:可以进行类的功能的加强,同时减少耦合和代码的冗余,耦合的意思是不用吧加强的部分写到各个实现类里面,冗余的意思是如果对每个实现类加强的部分是一样的,通过一个代理类即可实现 基于jdk的动态代理 通过jdk中自带的Proxy类进行动态的代理,Proxy创建 阅读全文
posted @ 2019-10-07 17:14 jeasonchen001 阅读(312) 评论(0) 推荐(0) 编辑
摘要:1.hbase的数据库介绍(掌握) 2.hbase的基础架构(掌握) 3.hbase的集群的搭建 4.hbase shell 5.hbase的api开发(重点) 6.hbase的底层原理(重点) ​ 1)hbase的详细架构 ​ 2)hbase的数据读写流程 7.rowkey的设计技巧 1.hbas 阅读全文
posted @ 2019-08-04 23:20 jeasonchen001 阅读(39) 评论(0) 推荐(0) 编辑
摘要:1.oozie的介绍 oozie:是一个任务调度管理系统。通过xml实现任务的定制。底层是通过mapreduce来完成任务的执行。实际跑的就是一个maptask。任务之间是通过DAG(有向无环图)来进行调度。 2.oozie的架构 1)client:客户端用于提交任务,通过命令提交任务。 2)ser 阅读全文
posted @ 2019-08-04 23:19 jeasonchen001 阅读(38) 评论(0) 推荐(0) 编辑
摘要:1.impala的介绍 1.impala是cloudera公司提供的一个查询工具。通过sql进行数据的查询。impala和hive是紧耦合。impala的 查询速度要比hive高出3--10倍。它摒弃了mapreduce,通过C来快速的完成数据的检索查询。 impala是基于内存进行运算。 2.im 阅读全文
posted @ 2019-08-04 23:18 jeasonchen001 阅读(74) 评论(0) 推荐(0) 编辑
摘要:1.数据的收集 flume taildir 2.数据的预处理 1)数据的预处理:处理掉无法进行分析的无效数据. 2) pageView:按照页面的角度进行数据的处理。 3)visit:按照用户的角度进行数据的处理。session 1.数据仓库的建模 1.维度表:按照一定的维度去创建一张表。维度就是对 阅读全文
posted @ 2019-08-04 23:17 jeasonchen001 阅读(35) 评论(0) 推荐(0) 编辑
摘要:1.Flume介绍 flume:是一个分布式的数据采集系统。 flume的主要作用:最主要的就是收集日志文件。 现在采用的是ng版本,是cloudera公司作为自身一款产品开发的。 flume的运行机制 最核心的角色:agent(代理),由我们设定一个数据收的方式,一个代理代表一个服务 agent的 阅读全文
posted @ 2019-08-04 23:15 jeasonchen001 阅读(39) 评论(0) 推荐(0) 编辑
摘要:1.数据仓库 数据仓库的概念:DW DWH data warehouse,将传统的数据进行集成,进行分析和决策的作用。 仓库:存储物品的地方。作为仓库而言,既不会生产物品,也不会消耗物品。 数据仓库:既不会生产数据,也不会删除数据,主要存储的是历史数据,用于分析和决策使用。 数据仓库的特征: (1) 阅读全文
posted @ 2019-08-04 23:14 jeasonchen001 阅读(29) 评论(0) 推荐(0) 编辑