endofworld

2020年12月6日

摘要：一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop，启动hive 3.创建数据库，创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本阅读全文

posted @ 2020-12-06 21:44 endofworld 阅读(94) 评论(0) 推荐(0)

8

摘要：地方阅读全文

posted @ 2020-12-06 00:25 endofworld 阅读(50) 评论(0) 推荐(0)

2020年11月22日

第七次作业

摘要： 1.任务：列出HBase所以的表的相关信息，例如表名；在终端打印出指定的表的所有记录数据向已经创建好的表添加和删除指定的列族或列清空指定的表的所有记录数据统计表的行数 2.关系型数据库中的表和数据（教材P92上），要求将其转换为适合于HBase存储的表并插入数据。学生表课程表选课表阅读全文

posted @ 2020-11-22 21:48 endofworld 阅读(138) 评论(0) 推荐(0)

2020年11月6日

作业6

摘要： 1.下载喜欢的电子书或大量文本数据，并保存在本地文本文件中 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地阅读全文

posted @ 2020-11-06 21:57 endofworld 阅读(66) 评论(0) 推荐(0)

2020年10月24日

作业

摘要： 1 2 3 4 5 6 7 8 9 阅读全文

posted @ 2020-10-24 21:54 endofworld 阅读(114) 评论(0) 推荐(0)

2020年10月17日

安装Hadoop

摘要： 1.用自己的图，描述HDFS体系结构、工作原理与流程。 2.伪分布式安装Hadoop 阅读全文

posted @ 2020-10-17 21:14 endofworld 阅读(80) 评论(0) 推荐(0)

2020年10月10日

作业三

摘要： 1. 熟悉 Linux系统的使用（1）上面完成了Linux系统的安装以后，如果读者是初次使用Linux系统，请熟悉一下Linux常用命令，参考链接：Linux系统的常用命令 **操作过程截图提交作业。（2）如果在上面步骤中，读者采用了虚拟机的方式安装了Linux系统，可以学习一下如何在Windo 阅读全文

posted @ 2020-10-10 21:02 endofworld 阅读(102) 评论(0) 推荐(0)

2020年9月19日

作业再体验（大数据）

摘要： 1.了解对比Hadoop不同版本的特性，可以用图表的形式呈现 Apache hadoop 的2.0版本：hadoop通用模块，支持其他hadoop模块的通用工具集；Hadoop分布式文件系统，支持对应数据高吞吐量访问的分布式文件系统；用于作业调度和集群资源管理的Hadoop YANRN框架；Hado 阅读全文

posted @ 2020-09-19 20:25 endofworld 阅读(175) 评论(0) 推荐(0)

2020年9月12日

作业

摘要：在网上找了一下质量，目前微信月活跃用户数量有12亿，假设每个账户每天生产或者转发10MB数据，那么总共每天就会产生大约10000TB的数据。数据类型有：音频、图片、文字、视频、链接信息等等。我想最能体现大数据分析莫过于我们每个人都会接触到的购物APP（手机淘宝），每个用户的智能推荐的商品都是不一样阅读全文

posted @ 2020-09-12 00:16 endofworld 阅读(182) 评论(0) 推荐(0)

公告