摘要: 1.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。 (1)HD 阅读全文
posted @ 2021-03-12 15:50 果宝机甲,归位!!! 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 启动hdfs导入数据 启动hive创建表导数据 通过HQL完成MapRedure词频统计 hive用本地文件进行词频统计 阅读全文
posted @ 2020-12-06 18:26 果宝机甲,归位!!! 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 列出HBase所有的表的相关信息 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 学生表 选课表 阅读全文
posted @ 2020-11-22 13:37 果宝机甲,归位!!! 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 1.编写Java 代码 package edu.jmi.hdfsclient; import java.io.IOException; import java.net.Socket; import org.apache.hadoop.conf.Configuration;import org.apa 阅读全文
posted @ 2020-11-12 15:26 果宝机甲,归位!!! 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-20 19:59 果宝机甲,归位!!! 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 在Windows系统中利用FTP软件向Ubuntu系统上传文件: 1.Ubuntu中安装ssh,命令:sudo apt-get install ssh openssh-server 2.查看虚拟机中Ubuntu的IP地址,命令:ifconfig 下图就是虚拟机中Ubuntu的IP地址 3.回到宿主机 阅读全文
posted @ 2020-10-10 20:40 果宝机甲,归位!!! 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 1.Apache社区版本 优点:完全开源免费。社区活跃文档、资料详实缺点:复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,让很多使用者不知所措。复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。复杂的集群运维。对集群的监控,运维,需要安装第 阅读全文
posted @ 2020-09-18 10:52 果宝机甲,归位!!! 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 1.了解微信、微博、小视频每天产生的数据量与数据类型。 根据2018某网站的数据调查,微信每天产生450亿次的数据量,微信的数据类型是String。 2.选择一个你感兴趣的领域应用数据思维进行分析决策的案例。 游戏是我感兴趣的领域,大数据运用在游戏上面是非常好的,事实上现在许多游戏都用到了大数据技术 阅读全文
posted @ 2020-09-11 11:21 果宝机甲,归位!!! 阅读(91) 评论(0) 推荐(0) 编辑