摘要: 1.简介 HDFS具有分布式文件系统的特性,同时具有 高容错 、 运行在廉价机器 、 高吞吐量 、 适应大数据集 等特点,是apache的开源核心项目,地址:hadoop.apache.org 2.HDFS设计目标&&优点 1. 快速检测机器故障,快速自动修复。「这是因为,Hadoop集群有数以千计 阅读全文
posted @ 2019-09-03 20:00 guoqiangliu 阅读(231) 评论(0) 推荐(0)
摘要: Hadoop概述 1. Hadoop概述 1. 创始人Doug Cutting, Hadoop名字源于他孩子给玩具大象起的名字。 2. 具有reliable、 scalable、 distributed computing的特点。 3. 是一个利用机器集群来分布式处理大数据的框架,集群中的每个机器都 阅读全文
posted @ 2019-09-03 18:57 guoqiangliu 阅读(173) 评论(0) 推荐(0)
摘要: ·本系列主要学习Hadoop生态圈,以Hadoop为例,进入大数据技术的学习。其中,主要部分为:分布式文件系统HDFS, 分布式资源调度YARN, 分布式计算框架MapReduce, 数据仓库HIVE, Hadoop分布式集群搭建。 大数据概览 1. 大数据的5V特点(IBM): · Volume( 阅读全文
posted @ 2019-09-03 18:05 guoqiangliu 阅读(235) 评论(0) 推荐(0)