随笔分类 -  Bigdata

Spark原理及源码解析【第六阶段模块四】
摘要:简答题: 以下代码: import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object JoinDemo { def main(args: Array[String]): Unit = { 阅读全文

posted @ 2021-09-17 18:26 咕噜_咕噜 阅读(128) 评论(1) 推荐(0)

Spark作业(下)
摘要:题目一 将sample.log的数据发送到Kafka中,经过Spark Streaming处理,将数据格式变为以下形式: commandid | houseid | gathertime | srcip | destip |srcport| destport | domainname | proxy 阅读全文

posted @ 2021-09-06 08:51 咕噜_咕噜 阅读(155) 评论(0) 推荐(0)

Spark作业(上)
摘要:需求1、找到ip所属区域 描述 http.log:用户访问网站所产生的日志。日志格式为:时间戳、IP地址、访问网址、访问数据、浏览器信息等 ip.dat:ip段数据,记录着一些ip段范围对应的位置 文件位置:data/http.log、data/ip.dat # http.log样例数据。格式:时间 阅读全文

posted @ 2021-08-28 22:50 咕噜_咕噜 阅读(461) 评论(0) 推荐(0)

Scala作业
摘要:第一题、百元喝酒 作业要求:每瓶啤酒2元,3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒?(不允许借啤酒) 思路:利用递归算法,一次性买完,然后递归算出瓶盖和空瓶能换的啤酒数 package com.lagou.homework /** * 作业要求:每瓶啤酒2元,3个空酒瓶或者5个 阅读全文

posted @ 2021-08-11 14:38 咕噜_咕噜 阅读(225) 评论(0) 推荐(0)

电商离线数仓项目实战(下)--第五阶段模块二作业
摘要:题目 1.用拉链表实现核心交易分析中DIM层商家维表,并实现该拉链表的回滚(自己构造数据,编写SQL,并要有相应的文字说明); 2. 在会员分析中计算 沉默会员数 和 流失会员数 沉默会员的定义:只在安装当天启动过App,而且安装时间是在7天前 流失会员的定义:最近30天未登录的会员 3. 在核心交 阅读全文

posted @ 2021-08-04 14:36 咕噜_咕噜 阅读(380) 评论(0) 推荐(0)

离线数据仓库项目(电商)--启动/事件日志采集
摘要:需求 日志文件 => Flume => HDFS => ODS 步骤 总体思路 1.taildir source监控多个目录; 2.编写自定义拦截器,不同来源的数据加上不同个标志 3.hdfs sink根据标志写文件到hdfs Agent配置(source 、channel 、sink) a1.so 阅读全文

posted @ 2021-07-30 17:15 咕噜_咕噜 阅读(233) 评论(0) 推荐(0)

电商离线数仓项目实战(上)--第五阶段模块一作业
摘要:需求 1、在会员分析中计算最近七天连续三天活跃会员数。 2、项目的数据采集过程中,有哪些地方能够优化,如何实现? 详解(1) 1、在会员分析中计算最近七天连续三天活跃会员数。 分析: 连续值求解问题,常用四路 -- 1、使用 row_number 在组内给数据编号(rownum)-- 2、某个值 - 阅读全文

posted @ 2021-07-29 16:53 咕噜_咕噜 阅读(326) 评论(0) 推荐(0)

kafka作业详解(HTML+Nginx+ngx_kafka_module+Kafka)
摘要:需求 需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)1、HTML可以理解为拉勾的职位浏览页面2、Ngi 阅读全文

posted @ 2021-07-19 17:00 咕噜_咕噜 阅读(494) 评论(0) 推荐(0)

Zookeeper知识点总结
摘要:知识点结构图 简介 环境搭建 Zookeeper的数据结构和监听机制 基本使用 内部原理 应用实践 Hadoop HA 未完待续 阅读全文

posted @ 2021-07-15 18:00 咕噜_咕噜 阅读(42) 评论(0) 推荐(0)

zookeeper的安装(集群版安装和单机版安装)
摘要:单机版安装 1.下载、上传、解压 下载稳定版本的zookeeper http://zookeeper.apache.org/releases.html 将zookeeper压缩包 zookeeper-3.4.14.tar.gz上传到linux系统/opt/lagou/software 解压至特定文件 阅读全文

posted @ 2021-07-15 13:55 咕噜_咕噜 阅读(79) 评论(0) 推荐(0)

Redis搭建集群环境
摘要:Redis下载地址 官网地址:http://redis.io/中文官网地址:http://www.redis.cn/下载地址:http://download.redis.io/releases/ Redis安装环境 Redis没有官方的window版本,所以建议在linux环境下安装。此次安装在ce 阅读全文

posted @ 2021-07-09 15:47 咕噜_咕噜 阅读(117) 评论(0) 推荐(0)

Azkaban作业题--统计今日活跃用户数
摘要:题目 现有用户点击行为数据文件,每天产生会上传到hdfs目录,按天区分目录,现在我们需要每天凌晨两点定时导入Hive表指定分区中,并统计出今日活跃用户数插入指标表中。 日志文件(clicklog) userId click_time index uid1 2020-06-21 12:10:10 a. 阅读全文

posted @ 2021-07-01 09:08 咕噜_咕噜 阅读(225) 评论(0) 推荐(0)

Zookeeper作业题--实现简易版配置中心
摘要:需求 基于Zookeeper实现简易版配置中心要求实现以下功能: 1. 创建一个Web项目,将数据库连接信息交给Zookeeper配置中心管理,即:当项目Web项目启动时,从Zookeeper进行MySQL配置参数的拉取 2. 要求项目通过数据库连接池访问MySQL(连接池可以自由选择熟悉的) 3. 阅读全文

posted @ 2021-07-01 09:07 咕噜_咕噜 阅读(291) 评论(0) 推荐(0)

Hbase作业题--社交关系表
摘要:题目 在社交网站,社交APP上会存储有大量的用户数据以及用户之间的关系数据,比如A用户的好友列表会展示出他所有的好友,现有一张Hbase表,存储就是当前注册用户的好友关系数据。 需求 1. 使用Hbase相关API创建一张结构如上的表2. 删除好友操作实现(好友关系双向,一方删除好友,另一方也会被迫 阅读全文

posted @ 2021-06-30 22:40 咕噜_咕噜 阅读(240) 评论(0) 推荐(0)