摘要: 1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 Spark作为计算引擎,是承载大数据操作的框架媒介。作为程序体的框架,调用配置所处位置下的机器的硬件设施来实现调用配置。HBase作为数据库,是大数据 阅读全文
posted @ 2021-03-13 22:10 牛哈哈呀 阅读(56) 评论(0) 推荐(0) 编辑
摘要: mysql接收数据库与表 2、hive准备要传输的数据 Sqoop数据传输: 查看传输的结果: 阅读全文
posted @ 2020-12-12 21:07 牛哈哈呀 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 启动hive 创建数据库以及文本表 映射本地文件及词频统计将结果保存到结果表中 统计结果 2 用HDFS上的文件进行词频统计 阅读全文
posted @ 2020-12-06 21:54 牛哈哈呀 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-11-22 22:01 牛哈哈呀 阅读(46) 评论(0) 推荐(0) 编辑
摘要: (1)(3)题 (2)题 (4)题 (5)题 (6) (7) (8)(9)(10) 阅读全文
posted @ 2020-10-24 21:58 牛哈哈呀 阅读(77) 评论(0) 推荐(0) 编辑
摘要: HDFS是一个主/从(Master/slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件系统执行CRUD(Create、Read、Update、Delete)操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些DataNode。NameNo 阅读全文
posted @ 2020-10-19 22:51 牛哈哈呀 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-10 22:05 牛哈哈呀 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 1、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的, 阅读全文
posted @ 2020-09-19 20:03 牛哈哈呀 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 一·、2018微信数据报告:每天有450亿次信息发送!数据显示,每个月有10.825亿位用户保持活跃,每个月有6300万位55岁以上的用户保持活跃。 此外,每天有450亿次信息发送出,有4.1亿次音视频呼叫成功。其中,视频通话用户比三年前多了570%,随时随地“微信见面”,成为一种日常。 新浪微博每 阅读全文
posted @ 2020-09-12 13:27 牛哈哈呀 阅读(127) 评论(0) 推荐(0) 编辑