淡忘诠释着一切

2020年12月6日

摘要：一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop，启动hive 3.创建数据库，创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本阅读全文

posted @ 2020-12-06 16:34 淡忘诠释着一切阅读(139) 评论(0) 推荐(0)

2020年11月22日

Hbase操作与编程使用

摘要： 1.任务：列出HBase所有的表的相关信息，例如表名；在终端打印出指定的表的所有记录数据；向已经创建好的表添加和删除指定的列族或列；清空指定的表的所有记录数据；统计表的行数。新建表插入数据，增加列增加列，稀疏扩展配置版本数 Hbase添加和删除列族 2.关系型数据库中的表和数据（阅读全文

posted @ 2020-11-22 21:26 淡忘诠释着一切阅读(212) 评论(0) 推荐(0)

2020年11月6日

Hadoop使用实例

摘要： 1、词频统计编写map与reduce函数本地测试map与reduce 下载喜欢的电子书或大量文本数据，并保存在本地文本文件中将文本数据上传至HDFS上用hadoop streaming提交任务查看运行结果计算结果取回到本地阅读全文

posted @ 2020-11-06 19:01 淡忘诠释着一切阅读(142) 评论(0) 推荐(0)

2020年10月24日

HDFS 操作命令

摘要：阅读全文

posted @ 2020-10-24 15:19 淡忘诠释着一切阅读(102) 评论(0) 推荐(0)

2020年10月17日

Hadoop安装与HDFS体系结构

摘要： 1.HDFS体系结构、工作原理与流程 2.伪分布式安装Hadoop 阅读全文

posted @ 2020-10-17 21:23 淡忘诠释着一切阅读(107) 评论(0) 推荐(0)

2020年10月10日

Linux和MySQL的安装与操作

摘要：阅读全文

posted @ 2020-10-10 13:04 淡忘诠释着一切阅读(81) 评论(0) 推荐(0)

2020年9月19日

大数据作业二：Hadoop演进与Hadoop生态

摘要：一、了解对比Hadoop不同版本的特性，可以用图表的形式呈现。 Hadoop 3.0中引入了一些重要的功能和优化，包括JDK版本的最低依赖从1.7变成了1.8； HDFS支持Erasure Encoding； Timeline Server v2版本； hadoop-client这个依赖分为hado 阅读全文

posted @ 2020-09-19 20:23 淡忘诠释着一切阅读(254) 评论(0) 推荐(0)

2020年9月12日

作业一：大数据概述与学习资源

摘要： 1、了解微信、微博、小视频每天产生的数据量与数据类型。微信每天有500亿次信息发送出，有5.1亿次音视频呼叫成功。数据类型有数字、文字、图像、声音、视频等。微博每天有5亿+的数据量，数据类型有数字、文字、图像、音频、视频等。小视频每天有3000万+条短视频上传，数据类型有数字、文字、视频等。阅读全文

posted @ 2020-09-12 19:01 淡忘诠释着一切阅读(179) 评论(0) 推荐(0)

公告