摘要: 使用HBase Shell命令 完成: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 2.关系型数据库中的表和数据(教材P92上),要求将其转换为适合于HBas 阅读全文
posted @ 2020-12-06 21:36 钟传泰 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 使用HBase Shell命令 或 使用HBase Java API完成: 1.任务: 列出HBase所以的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据 向已经创建好的表添加和删除指定的列族或列 清空指定的表的所有记录数据 统计表的行数 2.关系型数据库中的表和数据(教材P92上), 阅读全文
posted @ 2020-11-22 21:26 钟传泰 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 一.词频统计 1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 2.编写map与reduce函数 3.本地测试map与reduce 测试代码cat 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 二.气象数据分析 气 阅读全文
posted @ 2020-11-06 21:55 钟传泰 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-24 20:31 钟传泰 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 1.描述HDFS体系结构、工作原理与流程。 HDFS采用Master/Slave的架构存储数据,由HDFS Client、NameNode、DataNode和Secondary NameNode四部分组成。Client:客户端 1、文件切分。文件上传HDFS时,Client按照Block大小切分文件 阅读全文
posted @ 2020-10-17 20:03 钟传泰 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 1. 2. 阅读全文
posted @ 2020-10-10 17:10 钟传泰 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 Apache Hadoop的四大分支构成了三个系列的Hadoop版本: 0.20.X系列 主要有两个特征:Append与Security 0.21.0/0.22.X系列 整个Hadoop项目被分割成三个独立的模块: 1.Common模块 2 阅读全文
posted @ 2020-09-19 20:10 钟传泰 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 1.了解微信、微博、小视频每天产生的数据量与数据类型。 目前微信月活跃用户数量有12亿,假设每个账户每天生产或者转发10MB数据,那么总共每天就会产生大约10000TB的数据。 数据类型有:音频、图片、文字、视频、链接信息等等。小视频属于非结构化数据。 2.选择一个你感兴趣的领域应用数据思维进行分析 阅读全文
posted @ 2020-09-12 00:47 钟传泰 阅读(170) 评论(0) 推荐(0) 编辑