一y样

2020年5月8日

摘要： 1.详细描述idmap的整个计算方案（1）使用SparkSession对象读取用户不同类别的埋点日志，解析并抽取出相应的标识id，使用union进行合并，得到装有汇总标识id的rdd（ids）（2）利用ids分别构造图计算的vertex集合以及构造图计算的边集合（将出现次数小于2的边过滤掉）（阅读全文

posted @ 2020-05-08 23:59 一y样阅读(253) 评论(0) 推荐(0)

2020年5月5日

数仓day03-----日志预处理

摘要： 1. 为什么要构建一个地理位置维表（字典）在埋点日志中，有用户的地理位置信息，但是原始数据形式是GPS坐标，而GPS坐标在后续（地理位置维度分析）的分析中不好使用。gps坐标的匹配，不应该做这种精确匹配，应该做范围匹配，直接去匹配两个哪怕距离很近的gps坐标，很可能匹配不上，所以需要一个地理位置维阅读全文

posted @ 2020-05-05 23:51 一y样阅读(420) 评论(0) 推荐(0)

数仓day02

摘要： 1. 什么是ETL，ETL都是怎么实现的？ ETL中文全称为：抽取.转换.加载 extract transform load ETL是传数仓开发中的一个重要环节。它指的是，ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据阅读全文

posted @ 2020-05-05 22:09 一y样阅读(249) 评论(0) 推荐(0)

2020年5月2日

数仓day01

摘要： 1. 该项目适用哪些行业？主营业务在线上进行的一些公司，比如外卖公司，各类app（比如：下厨房，头条，安居客，斗鱼，每日优鲜，淘宝网等等）这类公司通常要针对用户的线上访问行为、消费行为、业务操作行为进行统计分析，数据挖掘！以支撑公司的业务运营，提高业务转化率，改善公司运营效果补充概念：数据挖阅读全文

posted @ 2020-05-02 14:55 一y样阅读(250) 评论(0) 推荐(0)

2020年3月13日

大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程（子spring项目的创建）3.项目开发（埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补）

摘要： 1. log4j（具体见log4j文档） log4j是一个java系统中用于输出日志信息的工具。log4j可以将日志定义成多种级别：ERROR / WARN / INFO / DEBUG log4j通过获取到一个logger对象来输出日志： val logger = Logger.getLogger 阅读全文

posted @ 2020-03-13 23:52 一y样阅读(316) 评论(0) 推荐(0)

2020年3月12日

大数据学习day38----数据仓库01-----区域字典的生成

摘要：更多内容见文档 1. 区域字典的生成 mysql中有如下表格数据现要将这类数据转换成（GEOHASH码，省，市，区）如下所示（1）第一步：在mysql中使用sql语句对表格数据进行整理（此处使用到了自关联，具体见文档大数据学习day03） create table area_dict as S 阅读全文

posted @ 2020-03-12 22:08 一y样阅读(290) 评论(0) 推荐(0)

2020年3月9日

大数据学习day37-----flume03------1 flume复习梳理 2.吞吐量调优 3. 吞吐量调优实战 4Flume自定义扩展组件（自定义拦截器和source） 5综合案例

摘要： 1 flume复习梳理（1）flume是什么？ flume是一个分布式、高可用的数据采集系统（2）flume主要适用于哪些场景日志文件的采集 kafka数据的采集说明：本质上来说，flume可以读取任何数据源，然后传到任何一个数据存储。读不同的数据源有不同的source实现组件来适配，写入不阅读全文

posted @ 2020-03-09 16:26 一y样阅读(672) 评论(0) 推荐(0)

2020年3月4日

大数据学习day36-----flume02--------1.avro source和kafka source 2. 拦截器（Interceptor） 3. channel详解 4 sink 5 slector（选择器）6 sink processor

摘要： 1.avro source和kafka source 1.1 avro source avro source是通过监听一个网络端口来收数据，而且接受的数据必须是使用avro序列化框架序列化后的数据。avro是一种序列化框架，并且是跨语言的。扩展：什么是序列化，什么是序列化框架？序列化：是将一个有阅读全文

posted @ 2020-03-04 19:02 一y样阅读(498) 评论(0) 推荐(0)

2020年3月2日

大数据学习day35----flume01-------1 agent（关于agent的一些问题），2 event，3 有关agent和event的一些问题，4 transaction(事务控制机制)，5 flume安装 6.Flume入门案例

摘要：具体见文档，以下只是简单笔记（内容不全） 1.agent Flume中最核心的角色是agent，flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道。对于每一个Agent来说,它就是一个独立的守护进程(JVM),它负责从数据源接收数据，并发往下一个目的地，如下图所示阅读全文

posted @ 2020-03-02 10:43 一y样阅读(527) 评论(0) 推荐(0)

2020年2月29日

大数据学习day34---spark14------1 redis的事务(pipeline)测试，2. 利用redis的pipeline实现数据统计的exactlyonce ，3 SparkStreaming中数据写入Hbase实现ExactlyOnce， 4.Spark StandAlone的执行模式，5 spark on yarn

摘要： 1 redis的事务(pipeline)测试 Redis本身对数据进行操作，单条命令是原子性的，但事务不保证原子性，且没有回滚。事务中任何命令执行失败，其余的命令仍会被执行，将Redis的多个操作放到一起执行，要成功多成功，如果失败了，可以把整个操作放弃，可以实现类似事物的功能。redis事务包含三阅读全文

posted @ 2020-02-29 17:17 一y样阅读(460) 评论(0) 推荐(0)

公告