大数据实训业务的处理流程
数据采集
TSP云平台、云服务接受来自终端的数据,例如就车联网项目来说,终端采集设备有汽车Tbox,主要用于采集车辆相关信息,包括位置信息、车辆状态信息等。对于接受到的数据,云平台会对数据进行解析,例如讲报文数据解析成json字符串,除了上述功能外,云平台还会进行负载均衡以及保证数据的完整性。
数据传递和封装
云平台将数据上传到kafka消息队列集群中,然后flink集群会对消息队列中的数据进行消费。就车联网项目来说,具体有如下步骤:
- 拉去数据
- 对数据进行封装,将数据封装成对象
- 将数据根据是否具有唯一标识进行分类。具有唯一标识,判断为正常数据;如果唯一标识字段为空,则判断为异常数据。
数据存储
对于正常数据,一份保存在HDFS,一份保存在Hbase,而对于异常数据,我们则保存在HDFS上。此外,HDFS通过定时脚本映射,将数据自动写入Hive中,而对于Hbase上的数据,可以使用在phoenix组件上写SQL语句来对数据进行统计和查询工作。
数据接口和可视化
后端使用springboot编写接口来请求数据库的数据服务,前端通过superset调用接口对数据进行可视化展示,包括报表展示。

浙公网安备 33010602011771号