摘要: Sqoop安装与使用 1.mysql准备接受数据的数据库与表 2.hive准备待传输的数据 3.sqoop进行数据传输 4..mysql查看传输结果 阅读全文
posted @ 2021-01-11 13:56 何国义 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计1.准备电子书或其它大的文本文 阅读全文
posted @ 2021-01-11 13:53 何国义 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 2.编写map与reduce函数 3.本地测试map与reduce 测试代码cat 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 二.气象数据分析 气象准备数据: 阅读全文
posted @ 2021-01-11 13:51 何国义 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 一.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。Apache Hadoop:是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。它实现了Map/Reduce编程范型,计算任务会被分割成多次运行在不同的节点上。除此之外,它还提供了一款分布式文件系统,数据被存储在计算节点上以提供极高 阅读全文
posted @ 2021-01-11 13:45 何国义 阅读(45) 评论(0) 推荐(0) 编辑
摘要: 1. 微信每天产生的数据量:每天有450亿次信息发送出,有4.1亿次音视频呼叫成功,微信用户超过9亿,每天产生的数据量都是数亿tb。主要的数据类型为:打字聊天、语音聊天、视频聊天和浏览朋友圈产生的数据。 微博每天产生的数据量:微博每日产生过亿条微博,每天产生的数据量是数千万tb。主要的数据类型为:发 阅读全文
posted @ 2021-01-11 13:43 何国义 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 使用HBase Shell命令 或 使用HBase Java API完成: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 2.关系型数据库中的表和数据(教材P9 阅读全文
posted @ 2020-11-22 17:17 何国义 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-24 20:24 何国义 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-17 14:34 何国义 阅读(77) 评论(0) 推荐(0) 编辑
摘要: 数据库的安装 进入数据库 建库建表 查看数据库 阅读全文
posted @ 2020-10-10 16:16 何国义 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 1、了解微信、微博、小视频每天产生的数据量与数据类型。 微信每天有500亿次信息发送出,有5.1亿次音视频呼叫成功。数据类型有数字、文字、图像、声音、视频等。 微博每天有5亿+的数据量,数据类型有数字、文字、图像、音频、视频等。 小视频每天有3000万+条短视频上传,数据类型有数字、文字、视频等。 阅读全文
posted @ 2020-09-13 23:59 何国义 阅读(112) 评论(0) 推荐(0) 编辑