随笔分类 -  大数据离线分析平台

摘要:Etl目标 解析我们收集的日志数据,将解析后的数据保存到hbase中。这里选择hbase来存储数据的主要原因就是: hbase的宽表结构设计适合我们的这样多种数据格式的数据存储(不同event有不同的存储格式)。 在etl过程中,我们需要将我们收集得到的数据进行处理,包括ip地址解析、userAge 阅读全文
posted @ 2019-04-17 16:30 Transkai 阅读(1467) 评论(0) 推荐(0)
摘要:JsSDK设计规则在js sdk中我们需要收集launch、pageview、chargeRequest和eventDuration四种数据,所以我们需要在js中写入四个方法来分别收集这些数据,另外我们还需要提供一些操作cookie和发送数据的的公用方法。 SDK测试 启动集群上的hdfs+ngin 阅读全文
posted @ 2019-04-17 15:57 Transkai 阅读(646) 评论(0) 推荐(0)
摘要:JavaSDK设计规则 JavaSDK提供两个事件触发方法,分别为onChargeSuccess和onChargeRefund。我们在java sdk中通过一个单独的线程来发送线程数据,这样可以减少对业务系统的延时性。 SDK测试 启动集群上的hdfs+nginx+flume进程,通过模拟数据的发送 阅读全文
posted @ 2019-04-17 15:45 Transkai 阅读(957) 评论(0) 推荐(0)
摘要:数据存储设计 在本次项目中设计到数据存储的有三个地方:第一个就是将原始的日志数据按天保存到hdfs文件系统中;第二个就是将etl解析后的数据保存到hbase中;第三个就是将分析结果保存到mysql数据库中。其中存储到hbase和mysql的这两个过程需要设计具体的存储结构。 HBase表结构设计 由 阅读全文
posted @ 2019-04-17 14:29 Transkai 阅读(907) 评论(0) 推荐(0)
摘要:一、数据展示系统(bigdata_dataapi)总述 bigdata_dataapi项目的主要目标有两个:第一个就是我们需要提供一个提供json数据的Rest API;另外一个目标就是提供一个展示结果的demo页面。bigdata_dataapi使用spring+mybatis+mysql来搭建提 阅读全文
posted @ 2019-04-17 14:12 Transkai 阅读(1076) 评论(0) 推荐(0)
摘要:项目综述 在本次课程中,项目分别分为bigdata_track,bigdata_transforer和bigdata_dataapi。本次项目主要以分析七个模块的数据,分别为用户基本信息分析、操作系统分析、地域信息分析、用户浏览深度分析、外链数据分析、订单信息分析以及事件分析。那么针对不同的分析模块 阅读全文
posted @ 2019-04-17 13:10 Transkai 阅读(2753) 评论(0) 推荐(1)