大数据基础---道路拥堵预测项目

一、项目简介

这是一个道路拥堵情况分析预测项目。

它利用Kafka提供数据,Redis存储结果,然后用逻辑回归进行模型训练,最后根据训练的模型预测道路未来是否拥堵。

二、项目结构

├─.idea
│  └─codeStyles
├─data
└─src
    └─main
        └─scala
            └─vip
                └─shuai7boy
                    ├─trafficStreaming <!--ETL数据清洗-->
                    ├─train   <!--模型训练-->
                    └─util    <!--工具类-->

三、数据源

文本文件每行的数据源格式如下:

'310999003001', '3109990030010220140820141230292','00000000','','2014-08-20 14:09:35','0',255,'SN',  0.00,'4','','310999','310999003001','02','','','2','','','2014-08-20 14:12:30','2014-08-20 14:16:13',0,0,'2014-08-21 18:50:05','','',' '

存储介质:

文本文件,Kafka,Redis,HDFS。

四、数据转换流程

1、通过从文本文件读取数据源,加载到Kafka主题

2、利用SparkStreaming从Kafka读取数据,将数据映射为:卡口号,(一分钟内汽车的速度和,车辆数) ,然后存入Redis。

3、从Redis取数据用于逻辑回归(LBFGS用于梯度下降)训练,训练出最近5个小时内,每三秒进行一次分类的模型。最后将模型存入HDFS,并把HDFS路径存入Redis。

4、从Redis读取路径,根据路径去HDFS找到模型文件,读取模型文件进行道路预测。

项目开源链接

系列传送门

posted @ 2020-05-19 00:30  数据驱动  阅读(571)  评论(0编辑  收藏  举报