摘要: 使用sqoop进行将Hive词频统计的结果数据传输到Mysql中。 1.mysql准备接受数据的数据库与表 2. hive准备待传输的数据 3. sqoop进行数据传输 4.mysql查看传输结果 阅读全文
posted @ 2020-12-10 17:24 欧克菲 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计1.准备电子书或其它大的文本文 阅读全文
posted @ 2020-12-04 21:50 欧克菲 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 1.任务: 列出HBase所以的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据 向已经创建好的表添加和删除指定的列族或列 清空指定的表的所有记录数据 统计表的行数 2.关系型数据库中的表和数据(教材P92上),要求将其转换为适合于HBase存储的表并插入数据。 学生表 课程表 选课表 阅读全文
posted @ 2020-11-21 16:09 欧克菲 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 1.首先安装安装包 下面是解压过程 2. 3. gedit ~/.bashrc 4. 5. 6. 7. 8. 阅读全文
posted @ 2020-11-21 11:06 欧克菲 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 词频统计 1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 hadoop jar $STREAM \ -file /home/hadoop/w 阅读全文
posted @ 2020-11-06 18:12 欧克菲 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-24 20:50 欧克菲 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的图,描述HDFS体系结构、工作原理与流程。 2.伪分布式安装Hadoop。 阅读全文
posted @ 2020-10-17 21:19 欧克菲 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 创建库: 创建表: 插入信息: 阅读全文
posted @ 2020-10-10 13:39 欧克菲 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Maho 阅读全文
posted @ 2020-09-19 20:55 欧克菲 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 1.了解微信、微博、小视频每天产生的数据量与数据类型。 微信:日登陆量达到10亿+,每天有8亿人进去朋友圈,还有4.1 亿音视频呼叫成功 微博:每天产生4亿+的数据量,数据库总量高达5.5亿+ 小视频:每天产生几十亿的数据量 数据类型:number 、string 、boolean、object、f 阅读全文
posted @ 2020-09-12 19:12 欧克菲 阅读(128) 评论(0) 推荐(0) 编辑