随笔分类 - 大数据离线分析平台
摘要:Etl目标 解析我们收集的日志数据,将解析后的数据保存到hbase中。这里选择hbase来存储数据的主要原因就是: hbase的宽表结构设计适合我们的这样多种数据格式的数据存储(不同event有不同的存储格式)。 在etl过程中,我们需要将我们收集得到的数据进行处理,包括ip地址解析、userAge
阅读全文
摘要:JsSDK设计规则在js sdk中我们需要收集launch、pageview、chargeRequest和eventDuration四种数据,所以我们需要在js中写入四个方法来分别收集这些数据,另外我们还需要提供一些操作cookie和发送数据的的公用方法。 SDK测试 启动集群上的hdfs+ngin
阅读全文
摘要:JavaSDK设计规则 JavaSDK提供两个事件触发方法,分别为onChargeSuccess和onChargeRefund。我们在java sdk中通过一个单独的线程来发送线程数据,这样可以减少对业务系统的延时性。 SDK测试 启动集群上的hdfs+nginx+flume进程,通过模拟数据的发送
阅读全文
摘要:数据存储设计 在本次项目中设计到数据存储的有三个地方:第一个就是将原始的日志数据按天保存到hdfs文件系统中;第二个就是将etl解析后的数据保存到hbase中;第三个就是将分析结果保存到mysql数据库中。其中存储到hbase和mysql的这两个过程需要设计具体的存储结构。 HBase表结构设计 由
阅读全文
摘要:一、数据展示系统(bigdata_dataapi)总述 bigdata_dataapi项目的主要目标有两个:第一个就是我们需要提供一个提供json数据的Rest API;另外一个目标就是提供一个展示结果的demo页面。bigdata_dataapi使用spring+mybatis+mysql来搭建提
阅读全文
摘要:项目综述 在本次课程中,项目分别分为bigdata_track,bigdata_transforer和bigdata_dataapi。本次项目主要以分析七个模块的数据,分别为用户基本信息分析、操作系统分析、地域信息分析、用户浏览深度分析、外链数据分析、订单信息分析以及事件分析。那么针对不同的分析模块
阅读全文

浙公网安备 33010602011771号