07 2021 档案

离线数据仓库项目(电商)--启动/事件日志采集
摘要:需求 日志文件 => Flume => HDFS => ODS 步骤 总体思路 1.taildir source监控多个目录; 2.编写自定义拦截器,不同来源的数据加上不同个标志 3.hdfs sink根据标志写文件到hdfs Agent配置(source 、channel 、sink) a1.so 阅读全文

posted @ 2021-07-30 17:15 咕噜_咕噜 阅读(234) 评论(0) 推荐(0)

电商离线数仓项目实战(上)--第五阶段模块一作业
摘要:需求 1、在会员分析中计算最近七天连续三天活跃会员数。 2、项目的数据采集过程中,有哪些地方能够优化,如何实现? 详解(1) 1、在会员分析中计算最近七天连续三天活跃会员数。 分析: 连续值求解问题,常用四路 -- 1、使用 row_number 在组内给数据编号(rownum)-- 2、某个值 - 阅读全文

posted @ 2021-07-29 16:53 咕噜_咕噜 阅读(330) 评论(0) 推荐(0)

kafka作业详解(HTML+Nginx+ngx_kafka_module+Kafka)
摘要:需求 需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)1、HTML可以理解为拉勾的职位浏览页面2、Ngi 阅读全文

posted @ 2021-07-19 17:00 咕噜_咕噜 阅读(495) 评论(0) 推荐(0)

Zookeeper知识点总结
摘要:知识点结构图 简介 环境搭建 Zookeeper的数据结构和监听机制 基本使用 内部原理 应用实践 Hadoop HA 未完待续 阅读全文

posted @ 2021-07-15 18:00 咕噜_咕噜 阅读(43) 评论(0) 推荐(0)

zookeeper的安装(集群版安装和单机版安装)
摘要:单机版安装 1.下载、上传、解压 下载稳定版本的zookeeper http://zookeeper.apache.org/releases.html 将zookeeper压缩包 zookeeper-3.4.14.tar.gz上传到linux系统/opt/lagou/software 解压至特定文件 阅读全文

posted @ 2021-07-15 13:55 咕噜_咕噜 阅读(79) 评论(0) 推荐(0)

Redis搭建集群环境
摘要:Redis下载地址 官网地址:http://redis.io/中文官网地址:http://www.redis.cn/下载地址:http://download.redis.io/releases/ Redis安装环境 Redis没有官方的window版本,所以建议在linux环境下安装。此次安装在ce 阅读全文

posted @ 2021-07-09 15:47 咕噜_咕噜 阅读(119) 评论(0) 推荐(0)

Azkaban作业题--统计今日活跃用户数
摘要:题目 现有用户点击行为数据文件,每天产生会上传到hdfs目录,按天区分目录,现在我们需要每天凌晨两点定时导入Hive表指定分区中,并统计出今日活跃用户数插入指标表中。 日志文件(clicklog) userId click_time index uid1 2020-06-21 12:10:10 a. 阅读全文

posted @ 2021-07-01 09:08 咕噜_咕噜 阅读(226) 评论(0) 推荐(0)

Zookeeper作业题--实现简易版配置中心
摘要:需求 基于Zookeeper实现简易版配置中心要求实现以下功能: 1. 创建一个Web项目,将数据库连接信息交给Zookeeper配置中心管理,即:当项目Web项目启动时,从Zookeeper进行MySQL配置参数的拉取 2. 要求项目通过数据库连接池访问MySQL(连接池可以自由选择熟悉的) 3. 阅读全文

posted @ 2021-07-01 09:07 咕噜_咕噜 阅读(291) 评论(0) 推荐(0)