朱子i - 博客园

2020年12月

摘要：一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop，启动hive 3.创建数据库，创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果二、hive用HDFS上的文件进行词频统计1.准备电子书或其它大的文本文阅读全文

posted @ 2020-12-06 17:30 朱子i 阅读(111) 评论(0) 推荐(0)

2020年11月

7.Hbase操作与编程使用

摘要： 1.列出Hbase所有的表的相关信息，如表名： 2.在终端打印出指定表的所有记录数据 3.向已经创建好的表添加和删除指定的列族或列 4.清空指定表的所有记录数据 5.统计表的行数关系型数据库中的表和数据（教材P92上)，要求将其转换为适合于HBase存储的表并插入数据。编程完成以下指定功能（教材阅读全文

posted @ 2020-11-21 23:02 朱子i 阅读(166) 评论(0) 推荐(0)

2020年10月

5 HDFS 操作命令

摘要：阅读全文

posted @ 2020-10-24 21:07 朱子i 阅读(90) 评论(0) 推荐(0)

3.Linux和MySQL的安装与基本操作

摘要： 1. 熟悉 Linux系统的使用（1）上面完成了Linux系统的安装以后，如果读者是初次使用Linux系统，请熟悉一下Linux常用命令，参考链接：Linux系统的常用命令 **操作过程截图提交作业。（2）如果在上面步骤中，读者采用了虚拟机的方式安装了Linux系统，可以学习一下如何在Windo 阅读全文

posted @ 2020-10-10 20:12 朱子i 阅读(113) 评论(0) 推荐(0)

2020年9月

Hadoop演进与Hadoop生态

摘要： 1.了解对比Hadoop不同版本的特性，可以用图表的形式呈现当前主要的Hadoop版本有以下几种： 1、Apache Hadoop 的2.0版本，它的模块主要有以下几个：（1）Hadoop通用模块，支持其他Hadoop模块的通用工具集；（2）Hadoop分布式文件系统，支持对应数据高吞吐量访问阅读全文

posted @ 2020-09-19 20:41 朱子i 阅读(178) 评论(0) 推荐(0)

大数据概述与学习资源

摘要： 1.了解微信、微博、小视频每天产生的数据量与数据类型。微信每天产生10亿以上的数据量, 微博每天产生上亿条数据量，小视频每天产生几亿甚至十几亿以上的数据量，数据类型有：音频、图片、文字、视频、链接信息等等。 2.选择一个你感兴趣的领域应用数据思维进行分析决策的案例。亚马逊的“信息公司”：如阅读全文

posted @ 2020-09-12 16:35 朱子i 阅读(216) 评论(0) 推荐(0)

公告