摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 阅读全文
posted @ 2020-12-06 21:44 endofworld 阅读(92) 评论(0) 推荐(0)
摘要: 地方 阅读全文
posted @ 2020-12-06 00:25 endofworld 阅读(48) 评论(0) 推荐(0)
摘要: 1.任务: 列出HBase所以的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据 向已经创建好的表添加和删除指定的列族或列 清空指定的表的所有记录数据 统计表的行数 2.关系型数据库中的表和数据(教材P92上),要求将其转换为适合于HBase存储的表并插入数据。 学生表 课程表 选课表 阅读全文
posted @ 2020-11-22 21:48 endofworld 阅读(135) 评论(0) 推荐(0)
摘要: 1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 阅读全文
posted @ 2020-11-06 21:57 endofworld 阅读(65) 评论(0) 推荐(0)
摘要: 1 2 3 4 5 6 7 8 9 阅读全文
posted @ 2020-10-24 21:54 endofworld 阅读(112) 评论(0) 推荐(0)
摘要: 1.用自己的图,描述HDFS体系结构、工作原理与流程。 2.伪分布式安装Hadoop 阅读全文
posted @ 2020-10-17 21:14 endofworld 阅读(78) 评论(0) 推荐(0)
摘要: 1. 熟悉 Linux系统的使用 (1)上面完成了Linux系统的安装以后,如果读者是初次使用Linux系统,请熟悉一下Linux常用命令,参考链接:Linux系统的常用命令 **操作过程截图提交作业。 (2)如果在上面步骤中,读者采用了虚拟机的方式安装了Linux系统,可以学习一下如何在Windo 阅读全文
posted @ 2020-10-10 21:02 endofworld 阅读(100) 评论(0) 推荐(0)
摘要: 1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现 Apache hadoop 的2.0版本:hadoop通用模块,支持其他hadoop模块的通用工具集;Hadoop分布式文件系统,支持对应数据高吞吐量访问的分布式文件系统;用于作业调度和集群资源管理的Hadoop YANRN框架;Hado 阅读全文
posted @ 2020-09-19 20:25 endofworld 阅读(174) 评论(0) 推荐(0)
摘要: 在网上找了一下质量,目前微信月活跃用户数量有12亿,假设每个账户每天生产或者转发10MB数据,那么总共每天就会产生大约10000TB的数据。数据类型有:音频、图片、文字、视频、链接信息等等。 我想最能体现大数据分析莫过于我们每个人都会接触到的购物APP(手机淘宝),每个用户的智能推荐的商品都是不一样 阅读全文
posted @ 2020-09-12 00:16 endofworld 阅读(177) 评论(0) 推荐(0)