2025.2.19

今天按照上课的要求,把爬取的数据展示出来。

测试要求:

1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中

两阶段数据清洗:

1)第一阶段:把需要的信息从原始日志中提取出来

2)第二阶段:根据提取出来的信息做精细化操作

3hive数据库表结构:

create table data(  ip string,  time string , day string, traffic bigint,

type string, id   string )

2数据分析:在HIVE统计下列数据。

1统计最受欢迎的视频/文章的Top10访问次数 (video/article

2按照地市统计最受欢迎的Top10课程 (ip

3按照流量统计最受欢迎的Top10课程 (traffic

3、数据可视化:

将统计结果倒入MySql数据库中,通过图形化展示的方式展现出来。

首先就是把数据导入到hive数据库中,直接把文件拖到虚拟机中,然后在LOAD DATA LOCAL INPATH '/root/cleaned_data.csv' INTO TABLE data;直接把数据导入到hive中。

1)统计最受欢迎的视频/文章的 Top10 访问次数

SELECT type, id, COUNT(*) AS visit_count
FROM data
GROUP BY type, id
ORDER BY visit_count DESC
LIMIT 10;

(2)按照地市统计最受欢迎的 Top10 课程

sql复制
SELECT city, type, id, COUNT(*) AS visit_count
FROM data
GROUP BY city, type, id
ORDER BY visit_count DESC
LIMIT 10;

(3)按照流量统计最受欢迎的 Top10 课程

sql复制
SELECT type, id, SUM(traffic) AS total_traffic
FROM data
GROUP BY type, id
ORDER BY total_traffic DESC
LIMIT 10;
然后把查询到的数据插入到mysql中,如何展现出各类图还在写。

 

posted @ 2025-02-19 19:57  kuku睡  阅读(9)  评论(0)    收藏  举报