随笔分类 -  HADOOP

大数据学习记录
摘要:HBase简介 Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量 阅读全文
posted @ 2018-10-19 22:35 gloomysun 阅读(243) 评论(0) 推荐(0)
摘要:Hive 简介 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具 3、可以将结构化的数据映射为一张数据库表 4、并提供 HQL(Hive SQL)查询功能 5、底层数据是存储在 HDFS 上 6、Hive的本质是将 SQL 语句转换为 MapReduce 阅读全文
posted @ 2018-10-11 14:37 gloomysun 阅读(314) 评论(0) 推荐(0)
摘要:前言 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 MapReduce进程 一个完整的mapreduce 阅读全文
posted @ 2018-09-14 13:59 gloomysun 阅读(255) 评论(0) 推荐(0)
摘要:前言 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 HDFS架构 NameNode 是整个 阅读全文
posted @ 2018-09-14 10:35 gloomysun 阅读(183) 评论(0) 推荐(0)