摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 阅读全文
posted @ 2020-12-06 16:34 淡忘诠释着一切 阅读(136) 评论(0) 推荐(0)
摘要: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 新建表 插入数据,增加列 增加列,稀疏 扩展 配置版本数 Hbase添加和删除列族 2.关系型数据库中的表和数据( 阅读全文
posted @ 2020-11-22 21:26 淡忘诠释着一切 阅读(209) 评论(0) 推荐(0)
摘要: 1、词频统计 编写map与reduce函数 本地测试map与reduce 下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 将文本数据上传至HDFS上 用hadoop streaming提交任务 查看运行结果 计算结果取回到本地 阅读全文
posted @ 2020-11-06 19:01 淡忘诠释着一切 阅读(140) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-10-24 15:19 淡忘诠释着一切 阅读(101) 评论(0) 推荐(0)
摘要: 1.HDFS体系结构、工作原理与流程 2.伪分布式安装Hadoop 阅读全文
posted @ 2020-10-17 21:23 淡忘诠释着一切 阅读(105) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-10-10 13:04 淡忘诠释着一切 阅读(80) 评论(0) 推荐(0)
摘要: 一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 Hadoop 3.0中引入了一些重要的功能和优化,包括JDK版本的最低依赖从1.7变成了1.8; HDFS支持Erasure Encoding; Timeline Server v2版本; hadoop-client这个依赖分为hado 阅读全文
posted @ 2020-09-19 20:23 淡忘诠释着一切 阅读(245) 评论(0) 推荐(0)
摘要: 1、了解微信、微博、小视频每天产生的数据量与数据类型。 微信每天有500亿次信息发送出,有5.1亿次音视频呼叫成功。数据类型有数字、文字、图像、声音、视频等。 微博每天有5亿+的数据量,数据类型有数字、文字、图像、音频、视频等。 小视频每天有3000万+条短视频上传,数据类型有数字、文字、视频等。 阅读全文
posted @ 2020-09-12 19:01 淡忘诠释着一切 阅读(176) 评论(0) 推荐(0)