今天中午恰什么

导航

2021年3月13日 #

3.12

摘要: 1. Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于BigTable,即分布式NoSQL列数据库,外加Zookeeper对应于Chubby,即分布式锁设施。 HDFS HDFS(Hadoop分布式文件系统)源自于Go 阅读全文

posted @ 2021-03-13 14:48 今天中午恰什么 阅读(47) 评论(0) 推荐(0) 编辑

2020年12月30日 #

12.30

摘要: 2.1 数据准备 (1)数据集下载与查看 cd /usr/local ls sudo mkdir bigdatacase sudo chown -R hadoop:hadoop ./bigdatacase cd bigdatacase mkdir dataset cd ~/下载 ls unzip u 阅读全文

posted @ 2020-12-30 22:57 今天中午恰什么 阅读(88) 评论(0) 推荐(0) 编辑

2020年12月12日 #

作业

摘要: 测试 1.mysql准备接受数据的数据库与表 2. hive准备待传输的数据 3.sqoop进行数据传输 4.mysql查看传输结果 电子书 1.mysql准备接受数据的数据库与表 2.hive准备待传输的数据 3.sqoop进行数据传输 4.mysql查看传输结果 阅读全文

posted @ 2020-12-12 17:03 今天中午恰什么 阅读(48) 评论(0) 推荐(0) 编辑

2020年12月6日 #

作业

摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 4.hql语句进行词频统计交将结果保存到结果表中。 5.查看统计结果 二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 阅读全文

posted @ 2020-12-06 17:43 今天中午恰什么 阅读(60) 评论(0) 推荐(0) 编辑

2020年11月22日 #

Hbase操作与编程使用作业

摘要: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 2.关系型数据库中的表和数据(教材P92上),要求将其转换为适合于HBase存储的表并插入数据。 student表 阅读全文

posted @ 2020-11-22 19:33 今天中午恰什么 阅读(105) 评论(0) 推荐(0) 编辑

2020年11月13日 #

11.12作业

摘要: 一、词频统计 1.下载电子书 wget http://www.gutenberg.org/files/1342/1342-0.txt 下载电子书 2.编写mapper与reducer函数 mapper.py #!/usr/bin/env python import sys for line in s 阅读全文

posted @ 2020-11-13 00:02 今天中午恰什么 阅读(150) 评论(0) 推荐(0) 编辑

2020年10月20日 #

10.16

摘要: 阅读全文

posted @ 2020-10-20 08:40 今天中午恰什么 阅读(82) 评论(0) 推荐(0) 编辑

2020年10月10日 #

10.09作业

摘要: 阅读全文

posted @ 2020-10-10 20:48 今天中午恰什么 阅读(51) 评论(0) 推荐(0) 编辑

2020年9月18日 #

014作业9.18

摘要: 一. 1.DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主 阅读全文

posted @ 2020-09-18 11:07 今天中午恰什么 阅读(92) 评论(0) 推荐(0) 编辑