lcf0823

2020年12月6日

摘要：一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop，启动hive 3.创建数据库，创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本阅读全文

posted @ 2020-12-06 20:26 lcf0823 阅读(84) 评论(0) 推荐(0)

2020年11月22日

作业7.Hbase操作与编程使用

摘要：使用HBase Shell命令或使用HBase Java API完成： 1.任务：列出HBase所有的表的相关信息，例如表名；在终端打印出指定的表的所有记录数据；向已经创建好的表添加和删除指定的列族或列；清空指定的表的所有记录数据；统计表的行数。 2.关系型数据库中的表和数据（教材P9 阅读全文

posted @ 2020-11-22 22:00 lcf0823 阅读(274) 评论(0) 推荐(0)

2020年11月6日

作业6.Hadoop使用实例

摘要： 1.下载喜欢的电子书或大量文本数据，并保存在本地文本文件中 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地阅读全文

posted @ 2020-11-06 20:19 lcf0823 阅读(94) 评论(0) 推荐(0)

2020年10月23日

作业5.HDFS 操作命令

摘要：本地文件系统创建一个文件，输入带姓名学号信息。查看新建文件所在目录查看新建文件内容将此文件上传到HDFS文件系统上的用户目录 HDFS上查看相应目录 HDFS上查看文件内 HDFS上查看文件大小删除本地1步骤创建的文件将HDFS上的文件下载到本地查看本地文件目录阅读全文

posted @ 2020-10-23 23:26 lcf0823 阅读(84) 评论(0) 推荐(0)

2020年10月17日

作业4.Hadoop安装与 HDFS体系结构

摘要：一、描述HDFS体系结构、工作原理与流程。 HDFS的体系结构图 HDFS读数据的过程二、伪分布式安装Hadoop 阅读全文

posted @ 2020-10-17 19:58 lcf0823 阅读(110) 评论(0) 推荐(0)

2020年9月19日

作业2.Hadoop演进与Hadoop生态

摘要：了解对比Hadoop不同版本的特性，可以用图表的形式呈现。Hadoop主要分为2个版本，分别为Hadoop1.0和2.0。2.0是1.0的升级版，Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架，被称为社区版Hadoop。他是免费的，而且资料阅读全文

posted @ 2020-09-19 19:37 lcf0823 阅读(119) 评论(0) 推荐(0)

2020年9月12日

作业1.大数据概述与学习资源

摘要： 1.了解微信、微博、小视频每天产生的数据量与数据类型。微信：根据数据显示每天有450亿次信息发送出，有4.1亿次音视频呼叫成功。其中，视频通话用户比三年前多了570%。其数据类型有：String：字符串、 Number：数字、 Object：对象、 Array：数组、 Bool：布尔值、 D 阅读全文

posted @ 2020-09-12 18:24 lcf0823 阅读(273) 评论(0) 推荐(0)

公告