大数据技术名词

大数据的知识结构:

 

一、大数据的相关名词:

Hadoop:是一个分布式的大数据框架,包含有三个核心组件:HDFS,YARN,MapReduce。

HBase:是一个NoSql数据库,列式存储。存储并处理大型数据,可以对大型数据提供随机、实时的读写访问。

Hive:

  是一个数据仓库工具,运行在Hadoop的数据仓库环境之上,是一种HQL语言,支持标准SQL。

  提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,非常适合数据仓库的统计分析。

Spark:是一个基于内存的计算框架,性能比Hadoop强,支持Sql,对数据进行流式处理。

Kafka:提供了分布式消息队列,流式处理。

Storm:做流式处理

Zookeeper:是一个分布式应用程序协调服务; 其特点是:分布式协调,集群管理。

Sqoop:在Hadoop(Hive)与传统的数据库(mysql、oracle等)间进行数据的传递。

    可以将一个关系型数据库(MySql ,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Impala:接近实时的处理引擎,之后也加入了Hadoop生态圈。

Mahout:是机器学习和数据挖掘的分布式框架。

 

 

二:其他

Hadoop和Spark都是大数据框架,Spark只对数据进行计算,本身不对数据进行存储。

Hadoop支持多种计算框架:MapReduce、Spark

流处理:实时处理数据        //在线的数据

分布式:多个电脑处理同一数据        //离线的数据

 

posted @ 2017-04-28 15:54  裸奔的太阳  阅读(356)  评论(0编辑  收藏  举报