上一页 1 2 3 4 5 6 7 ··· 13 下一页
摘要: 1.详细描述idmap的整个计算方案 (1)使用SparkSession对象读取用户不同类别的埋点日志,解析并抽取出相应的标识id,使用union进行合并,得到装有汇总标识id的rdd(ids) (2)利用ids分别构造图计算的vertex集合以及构造图计算的边集合(将出现次数小于2的边过滤掉) ( 阅读全文
posted @ 2020-05-08 23:59 一y样 阅读(253) 评论(0) 推荐(0)
摘要: 1. 为什么要构建一个地理位置维表(字典) 在埋点日志中,有用户的地理位置信息,但是原始数据形式是GPS坐标,而GPS坐标在后续(地理位置维度分析)的分析中不好使用。gps坐标的匹配,不应该做这种精确匹配,应该做范围匹配,直接去匹配两个哪怕距离很近的gps坐标,很可能匹配不上,所以需要一个地理位置维 阅读全文
posted @ 2020-05-05 23:51 一y样 阅读(420) 评论(0) 推荐(0)
摘要: 1. 什么是ETL,ETL都是怎么实现的? ETL中文全称为:抽取.转换.加载 extract transform load ETL是传数仓开发中的一个重要环节。它指的是,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据 阅读全文
posted @ 2020-05-05 22:09 一y样 阅读(247) 评论(0) 推荐(0)
摘要: 1. 该项目适用哪些行业? 主营业务在线上进行的一些公司,比如外卖公司,各类app(比如:下厨房,头条,安居客,斗鱼,每日优鲜,淘宝网等等) 这类公司通常要针对用户的线上访问行为、消费行为、业务操作行为进行统计分析,数据挖掘!以支撑公司的业务运营,提高业务转化率,改善公司运营效果 补充概念: 数据挖 阅读全文
posted @ 2020-05-02 14:55 一y样 阅读(247) 评论(0) 推荐(0)
摘要: 1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具。log4j可以将日志定义成多种级别:ERROR / WARN / INFO / DEBUG log4j通过获取到一个logger对象来输出日志: val logger = Logger.getLogger 阅读全文
posted @ 2020-03-13 23:52 一y样 阅读(316) 评论(0) 推荐(0)
摘要: 更多内容见文档 1. 区域字典的生成 mysql中有如下表格数据 现要将这类数据转换成(GEOHASH码, 省,市,区)如下所示 (1)第一步:在mysql中使用sql语句对表格数据进行整理(此处使用到了自关联,具体见文档大数据学习day03) create table area_dict as S 阅读全文
posted @ 2020-03-12 22:08 一y样 阅读(288) 评论(0) 推荐(0)
摘要: 1 flume复习梳理 (1)flume是什么? flume是一个分布式、高可用的数据采集系统 (2)flume主要适用于哪些场景 日志文件的采集 kafka数据的采集 说明:本质上来说,flume可以读取任何数据源,然后传到任何一个数据存储。读不同的数据源有不同的source实现组件来适配,写入不 阅读全文
posted @ 2020-03-09 16:26 一y样 阅读(671) 评论(0) 推荐(0)
摘要: 1.avro source和kafka source 1.1 avro source avro source是通过监听一个网络端口来收数据,而且接受的数据必须是使用avro序列化框架序列化后的数据。avro是一种序列化框架,并且是跨语言的。 扩展:什么是序列化,什么是序列化框架? 序列化:是将一个有 阅读全文
posted @ 2020-03-04 19:02 一y样 阅读(494) 评论(0) 推荐(0)
摘要: 具体见文档,以下只是简单笔记(内容不全) 1.agent Flume中最核心的角色是agent,flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道。对于每一个Agent来说,它就是一个独立的守护进程(JVM),它负责从数据源接收数据,并发往下一个目的地,如下图所示 阅读全文
posted @ 2020-03-02 10:43 一y样 阅读(524) 评论(0) 推荐(0)
摘要: 1 redis的事务(pipeline)测试 Redis本身对数据进行操作,单条命令是原子性的,但事务不保证原子性,且没有回滚。事务中任何命令执行失败,其余的命令仍会被执行,将Redis的多个操作放到一起执行,要成功多成功,如果失败了,可以把整个操作放弃,可以实现类似事物的功能。redis事务包含三 阅读全文
posted @ 2020-02-29 17:17 一y样 阅读(459) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 13 下一页