摘要: kafka的安装 1.安装jdk 2.安装ZooKeeper 3.安装kafka 4.验证、启动和关闭 启动ZooKeeper:zkServer.sh start 验证启动状态:zkServer.sh status 启动kafka:kafka-server-start.sh server.prope 阅读全文
posted @ 2021-10-16 09:40 咕噜_咕噜 阅读(814) 评论(0) 推荐(0) 编辑
摘要: 简答题: 以下代码: import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object JoinDemo { def main(args: Array[String]): Unit = { 阅读全文
posted @ 2021-09-17 18:26 咕噜_咕噜 阅读(104) 评论(1) 推荐(0) 编辑
摘要: 题目一 将sample.log的数据发送到Kafka中,经过Spark Streaming处理,将数据格式变为以下形式: commandid | houseid | gathertime | srcip | destip |srcport| destport | domainname | proxy 阅读全文
posted @ 2021-09-06 08:51 咕噜_咕噜 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 需求1、找到ip所属区域 描述 http.log:用户访问网站所产生的日志。日志格式为:时间戳、IP地址、访问网址、访问数据、浏览器信息等 ip.dat:ip段数据,记录着一些ip段范围对应的位置 文件位置:data/http.log、data/ip.dat # http.log样例数据。格式:时间 阅读全文
posted @ 2021-08-28 22:50 咕噜_咕噜 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 第一题、百元喝酒 作业要求:每瓶啤酒2元,3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒?(不允许借啤酒) 思路:利用递归算法,一次性买完,然后递归算出瓶盖和空瓶能换的啤酒数 package com.lagou.homework /** * 作业要求:每瓶啤酒2元,3个空酒瓶或者5个 阅读全文
posted @ 2021-08-11 14:38 咕噜_咕噜 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 题目 1.用拉链表实现核心交易分析中DIM层商家维表,并实现该拉链表的回滚(自己构造数据,编写SQL,并要有相应的文字说明); 2. 在会员分析中计算 沉默会员数 和 流失会员数 沉默会员的定义:只在安装当天启动过App,而且安装时间是在7天前 流失会员的定义:最近30天未登录的会员 3. 在核心交 阅读全文
posted @ 2021-08-04 14:36 咕噜_咕噜 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 需求 日志文件 => Flume => HDFS => ODS 步骤 总体思路 1.taildir source监控多个目录; 2.编写自定义拦截器,不同来源的数据加上不同个标志 3.hdfs sink根据标志写文件到hdfs Agent配置(source 、channel 、sink) a1.so 阅读全文
posted @ 2021-07-30 17:15 咕噜_咕噜 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 需求 1、在会员分析中计算最近七天连续三天活跃会员数。 2、项目的数据采集过程中,有哪些地方能够优化,如何实现? 详解(1) 1、在会员分析中计算最近七天连续三天活跃会员数。 分析: 连续值求解问题,常用四路 -- 1、使用 row_number 在组内给数据编号(rownum)-- 2、某个值 - 阅读全文
posted @ 2021-07-29 16:53 咕噜_咕噜 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 需求 需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)1、HTML可以理解为拉勾的职位浏览页面2、Ngi 阅读全文
posted @ 2021-07-19 17:00 咕噜_咕噜 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 知识点结构图 简介 环境搭建 Zookeeper的数据结构和监听机制 基本使用 内部原理 应用实践 Hadoop HA 未完待续 阅读全文
posted @ 2021-07-15 18:00 咕噜_咕噜 阅读(33) 评论(0) 推荐(0) 编辑