会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
咕噜_咕噜
博客园
首页
新随笔
联系
订阅
管理
2021年10月16日
kafka的使用详解
摘要: kafka的安装 1.安装jdk 2.安装ZooKeeper 3.安装kafka 4.验证、启动和关闭 启动ZooKeeper:zkServer.sh start 验证启动状态:zkServer.sh status 启动kafka:kafka-server-start.sh server.prope
阅读全文
posted @ 2021-10-16 09:40 咕噜_咕噜
阅读(833)
评论(0)
推荐(0)
编辑
2021年9月17日
Spark原理及源码解析【第六阶段模块四】
摘要: 简答题: 以下代码: import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object JoinDemo { def main(args: Array[String]): Unit = {
阅读全文
posted @ 2021-09-17 18:26 咕噜_咕噜
阅读(104)
评论(1)
推荐(0)
编辑
2021年9月6日
Spark作业(下)
摘要: 题目一 将sample.log的数据发送到Kafka中,经过Spark Streaming处理,将数据格式变为以下形式: commandid | houseid | gathertime | srcip | destip |srcport| destport | domainname | proxy
阅读全文
posted @ 2021-09-06 08:51 咕噜_咕噜
阅读(141)
评论(0)
推荐(0)
编辑
2021年8月28日
Spark作业(上)
摘要: 需求1、找到ip所属区域 描述 http.log:用户访问网站所产生的日志。日志格式为:时间戳、IP地址、访问网址、访问数据、浏览器信息等 ip.dat:ip段数据,记录着一些ip段范围对应的位置 文件位置:data/http.log、data/ip.dat # http.log样例数据。格式:时间
阅读全文
posted @ 2021-08-28 22:50 咕噜_咕噜
阅读(416)
评论(0)
推荐(0)
编辑
2021年8月11日
Scala作业
摘要: 第一题、百元喝酒 作业要求:每瓶啤酒2元,3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒?(不允许借啤酒) 思路:利用递归算法,一次性买完,然后递归算出瓶盖和空瓶能换的啤酒数 package com.lagou.homework /** * 作业要求:每瓶啤酒2元,3个空酒瓶或者5个
阅读全文
posted @ 2021-08-11 14:38 咕噜_咕噜
阅读(181)
评论(0)
推荐(0)
编辑
2021年8月4日
电商离线数仓项目实战(下)--第五阶段模块二作业
摘要: 题目 1.用拉链表实现核心交易分析中DIM层商家维表,并实现该拉链表的回滚(自己构造数据,编写SQL,并要有相应的文字说明); 2. 在会员分析中计算 沉默会员数 和 流失会员数 沉默会员的定义:只在安装当天启动过App,而且安装时间是在7天前 流失会员的定义:最近30天未登录的会员 3. 在核心交
阅读全文
posted @ 2021-08-04 14:36 咕噜_咕噜
阅读(270)
评论(0)
推荐(0)
编辑
2021年7月30日
离线数据仓库项目(电商)--启动/事件日志采集
摘要: 需求 日志文件 => Flume => HDFS => ODS 步骤 总体思路 1.taildir source监控多个目录; 2.编写自定义拦截器,不同来源的数据加上不同个标志 3.hdfs sink根据标志写文件到hdfs Agent配置(source 、channel 、sink) a1.so
阅读全文
posted @ 2021-07-30 17:15 咕噜_咕噜
阅读(186)
评论(0)
推荐(0)
编辑
2021年7月29日
电商离线数仓项目实战(上)--第五阶段模块一作业
摘要: 需求 1、在会员分析中计算最近七天连续三天活跃会员数。 2、项目的数据采集过程中,有哪些地方能够优化,如何实现? 详解(1) 1、在会员分析中计算最近七天连续三天活跃会员数。 分析: 连续值求解问题,常用四路 -- 1、使用 row_number 在组内给数据编号(rownum)-- 2、某个值 -
阅读全文
posted @ 2021-07-29 16:53 咕噜_咕噜
阅读(296)
评论(0)
推荐(0)
编辑
2021年7月19日
kafka作业详解(HTML+Nginx+ngx_kafka_module+Kafka)
摘要: 需求 需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)1、HTML可以理解为拉勾的职位浏览页面2、Ngi
阅读全文
posted @ 2021-07-19 17:00 咕噜_咕噜
阅读(391)
评论(0)
推荐(0)
编辑
2021年7月15日
Zookeeper知识点总结
摘要: 知识点结构图 简介 环境搭建 Zookeeper的数据结构和监听机制 基本使用 内部原理 应用实践 Hadoop HA 未完待续
阅读全文
posted @ 2021-07-15 18:00 咕噜_咕噜
阅读(33)
评论(0)
推荐(0)
编辑
下一页
公告