2025.2.19
今天按照上课的要求,把爬取的数据展示出来。
测试要求:
1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。
两阶段数据清洗:
(1)第一阶段:把需要的信息从原始日志中提取出来
(2)第二阶段:根据提取出来的信息做精细化操作
(3)hive数据库表结构:
create table data( ip string, time string , day string, traffic bigint,
type string, id string )
2、数据分析:在HIVE统计下列数据。
(1)统计最受欢迎的视频/文章的Top10访问次数 (video/article)
(2)按照地市统计最受欢迎的Top10课程 (ip)
(3)按照流量统计最受欢迎的Top10课程 (traffic)
3、数据可视化:
将统计结果倒入MySql数据库中,通过图形化展示的方式展现出来。
首先就是把数据导入到hive数据库中,直接把文件拖到虚拟机中,然后在LOAD DATA LOCAL INPATH '/root/cleaned_data.csv' INTO TABLE data;直接把数据导入到hive中。
1)统计最受欢迎的视频/文章的 Top10 访问次数
SELECT type, id, COUNT(*) AS visit_count
FROM data
GROUP BY type, id
ORDER BY visit_count DESC
LIMIT 10;
(2)按照地市统计最受欢迎的 Top10 课程
sql复制
SELECT city, type, id, COUNT(*) AS visit_count
FROM data
GROUP BY city, type, id
ORDER BY visit_count DESC
LIMIT 10;
(3)按照流量统计最受欢迎的 Top10 课程
sql复制
SELECT type, id, SUM(traffic) AS total_traffic
FROM data
GROUP BY type, id
ORDER BY total_traffic DESC
LIMIT 10;
然后把查询到的数据插入到mysql中,如何展现出各类图还在写。