【联系】Hadoop 和 HDFS 的关系?flume和kafka有什么区别及联系?
Hadoop
Hadoop生态圈,是一个以一种可靠、高效、可伸缩的方式进行处理的,能够对大量数据进行分布式处理的系统框架。
把它比作一个厨房所有需要的各种工具。
它的两大核心式HDFS和YARN。主要包括分布式文件管理系统HDFS、资源管理框架YARN,分布式计算框架MapReduce,分布式协作服务Zookeeper,实时分布式数据库Hbase,数据仓库Hive,数据流处理Pig,数据挖掘Mahout,日志收集工具Flume,数据库ETL工具Sqoop,安装、部署、配置和管理工具Ambari。
HDFS
HDFS(Hadoop Distributed File System)是Hadoop兼容最好的标准级文件系统,对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件。
Hadoop 和 HDFS两者关系
Hadoop实现了HDFS功能部件。
简易理解为,Hadoop是一个框架,HDFS是Hadoop中的一个部件。
因为Hadoop是一个综合性的文件系统抽象,所以HDFS不是Hadoop必需的。
=============================================================================================
flume和kafka有什么区别及联系
flume是日志采集工具,线上数据一般主要是落地文件或者通过管道传输给另外一个系统,需要flume系统去做这样的传输。
flume设计模式是source->channel->sink
kafka为中间件系统,可以理解为cache缓冲系统,甚至可以理解为一个广义的数据库系统,可以存放一定时间的数据。
不同系统之间融合往往数据生产或消费的速率不通过,这时候加上kafka这样的缓冲中间件后,这样可以解决数据生产快且具有突发性。
业界中比较典型的用法如下:
线上数据 - > flume - >kafka - > hdfs - > MR离线计算
线上数据 - > flume - >kafka - > storm

浙公网安备 33010602011771号