高频数据收集

日活用户高达 500 万,基于现有业务模式,业务侧要求我们根据用户的行为做埋点,旨在记录用户在特定页面的所有行为、开展数据分析与第三方进行费用结算

 

 

 

 

 

 技术选型思路

原始数据海量: 对于这点,我们初步考虑使用 HBase 进行持久化

后台查询原始数据: 如果使用 HBase 直接作为查询引擎,查询速度太慢了,所以我们还需要使用 ES 来保存查询页面上作为查询条件的字段和活动 id。

根据埋点日志生成费用结算数据: 我们将费用结算数据保存在 MySQL 中。

需要一个框架将缓存中的数据进行处理,并保存到 ES、HBase 和 MySQL 中。 因为业务有准实时查询的需求,所以我们需要使用实时处理工具。目前,市面上流行的实时处理工具主要分为 Storm、Spark Streaming、Apache Flink 这三种

 

posted @ 2023-03-09 13:33  jiaozg  阅读(55)  评论(0)    收藏  举报