期末综合大作业
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
1. 将爬虫大作业产生的 csv 文件上传到 HDFS
准备好的文件

在HDFS上创建 cjl/hive文件夹
通过使用 put 上传到HDFS
通过使用 ls 查看,上传成功

2. 对 CSV 文件处理生成无标题文本文件保存为UTF-8格式
使用 head 命令查看前 5行数据

3. 把 hdfs 中的文本文件最终导入到数据仓库 Hive 中
先开启mysql service

在Hive上创建 database,并使用


创建表db将HDFS文件的数据加载到表中

4. 在 Hive 中查看并分析数据

查询获赞前50的用户,获赞数


查询得到评论最多的30个用户,评论数


查询用户的男女比例


-1为用户未设置性别
0代表用户性别是女生
1代表用户性别是男生
如图所示,未知、女生、男生均占1/3.
查询用户评论时使用了图片的人数


查询评论为空的评论相关数据

查询使用匿名评论的用户人数


查询用户名未设置的用户人数


查询评论字数少于12字的用户名及评论



浙公网安备 33010602011771号