大数据实训业务的处理流程

数据采集

TSP云平台、云服务接受来自终端的数据,例如就车联网项目来说,终端采集设备有汽车Tbox,主要用于采集车辆相关信息,包括位置信息、车辆状态信息等。对于接受到的数据,云平台会对数据进行解析,例如讲报文数据解析成json字符串,除了上述功能外,云平台还会进行负载均衡以及保证数据的完整性。

数据传递和封装

云平台将数据上传到kafka消息队列集群中,然后flink集群会对消息队列中的数据进行消费。就车联网项目来说,具体有如下步骤:

  1. 拉去数据
  2. 对数据进行封装,将数据封装成对象
  3. 将数据根据是否具有唯一标识进行分类。具有唯一标识,判断为正常数据;如果唯一标识字段为空,则判断为异常数据。

数据存储

对于正常数据,一份保存在HDFS,一份保存在Hbase,而对于异常数据,我们则保存在HDFS上。此外,HDFS通过定时脚本映射,将数据自动写入Hive中,而对于Hbase上的数据,可以使用在phoenix组件上写SQL语句来对数据进行统计和查询工作。

数据接口和可视化

后端使用springboot编写接口来请求数据库的数据服务,前端通过superset调用接口对数据进行可视化展示,包括报表展示。

posted @ 2021-01-15 20:34  Rooooo0  阅读(226)  评论(0)    收藏  举报