会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一y样
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
13
下一页
2020年5月8日
数仓day04----日志预处理2
摘要: 1.详细描述idmap的整个计算方案 (1)使用SparkSession对象读取用户不同类别的埋点日志,解析并抽取出相应的标识id,使用union进行合并,得到装有汇总标识id的rdd(ids) (2)利用ids分别构造图计算的vertex集合以及构造图计算的边集合(将出现次数小于2的边过滤掉) (
阅读全文
posted @ 2020-05-08 23:59 一y样
阅读(253)
评论(0)
推荐(0)
2020年5月5日
数仓day03-----日志预处理
摘要: 1. 为什么要构建一个地理位置维表(字典) 在埋点日志中,有用户的地理位置信息,但是原始数据形式是GPS坐标,而GPS坐标在后续(地理位置维度分析)的分析中不好使用。gps坐标的匹配,不应该做这种精确匹配,应该做范围匹配,直接去匹配两个哪怕距离很近的gps坐标,很可能匹配不上,所以需要一个地理位置维
阅读全文
posted @ 2020-05-05 23:51 一y样
阅读(420)
评论(0)
推荐(0)
数仓day02
摘要: 1. 什么是ETL,ETL都是怎么实现的? ETL中文全称为:抽取.转换.加载 extract transform load ETL是传数仓开发中的一个重要环节。它指的是,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据
阅读全文
posted @ 2020-05-05 22:09 一y样
阅读(247)
评论(0)
推荐(0)
2020年5月2日
数仓day01
摘要: 1. 该项目适用哪些行业? 主营业务在线上进行的一些公司,比如外卖公司,各类app(比如:下厨房,头条,安居客,斗鱼,每日优鲜,淘宝网等等) 这类公司通常要针对用户的线上访问行为、消费行为、业务操作行为进行统计分析,数据挖掘!以支撑公司的业务运营,提高业务转化率,改善公司运营效果 补充概念: 数据挖
阅读全文
posted @ 2020-05-02 14:55 一y样
阅读(247)
评论(0)
推荐(0)
2020年3月13日
大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程(子spring项目的创建)3.项目开发(埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补)
摘要: 1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具。log4j可以将日志定义成多种级别:ERROR / WARN / INFO / DEBUG log4j通过获取到一个logger对象来输出日志: val logger = Logger.getLogger
阅读全文
posted @ 2020-03-13 23:52 一y样
阅读(316)
评论(0)
推荐(0)
2020年3月12日
大数据学习day38----数据仓库01-----区域字典的生成
摘要: 更多内容见文档 1. 区域字典的生成 mysql中有如下表格数据 现要将这类数据转换成(GEOHASH码, 省,市,区)如下所示 (1)第一步:在mysql中使用sql语句对表格数据进行整理(此处使用到了自关联,具体见文档大数据学习day03) create table area_dict as S
阅读全文
posted @ 2020-03-12 22:08 一y样
阅读(288)
评论(0)
推荐(0)
2020年3月9日
大数据学习day37-----flume03------1 flume复习梳理 2.吞吐量调优 3. 吞吐量调优实战 4Flume自定义扩展组件(自定义拦截器和source) 5综合案例
摘要: 1 flume复习梳理 (1)flume是什么? flume是一个分布式、高可用的数据采集系统 (2)flume主要适用于哪些场景 日志文件的采集 kafka数据的采集 说明:本质上来说,flume可以读取任何数据源,然后传到任何一个数据存储。读不同的数据源有不同的source实现组件来适配,写入不
阅读全文
posted @ 2020-03-09 16:26 一y样
阅读(671)
评论(0)
推荐(0)
2020年3月4日
大数据学习day36-----flume02--------1.avro source和kafka source 2. 拦截器(Interceptor) 3. channel详解 4 sink 5 slector(选择器)6 sink processor
摘要: 1.avro source和kafka source 1.1 avro source avro source是通过监听一个网络端口来收数据,而且接受的数据必须是使用avro序列化框架序列化后的数据。avro是一种序列化框架,并且是跨语言的。 扩展:什么是序列化,什么是序列化框架? 序列化:是将一个有
阅读全文
posted @ 2020-03-04 19:02 一y样
阅读(494)
评论(0)
推荐(0)
2020年3月2日
大数据学习day35----flume01-------1 agent(关于agent的一些问题),2 event,3 有关agent和event的一些问题,4 transaction(事务控制机制),5 flume安装 6.Flume入门案例
摘要: 具体见文档,以下只是简单笔记(内容不全) 1.agent Flume中最核心的角色是agent,flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道。对于每一个Agent来说,它就是一个独立的守护进程(JVM),它负责从数据源接收数据,并发往下一个目的地,如下图所示
阅读全文
posted @ 2020-03-02 10:43 一y样
阅读(524)
评论(0)
推荐(0)
2020年2月29日
大数据学习day34---spark14------1 redis的事务(pipeline)测试 ,2. 利用redis的pipeline实现数据统计的exactlyonce ,3 SparkStreaming中数据写入Hbase实现ExactlyOnce, 4.Spark StandAlone的执行模式,5 spark on yarn
摘要: 1 redis的事务(pipeline)测试 Redis本身对数据进行操作,单条命令是原子性的,但事务不保证原子性,且没有回滚。事务中任何命令执行失败,其余的命令仍会被执行,将Redis的多个操作放到一起执行,要成功多成功,如果失败了,可以把整个操作放弃,可以实现类似事物的功能。redis事务包含三
阅读全文
posted @ 2020-02-29 17:17 一y样
阅读(459)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
13
下一页
公告