【大数据】基础概念

分布式系统基础架构

入门学习资料：
http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html

基于内存的计算框架
https://spark.apache.org/docs/2.3.2/quick-start.html

Spark的重要组成部分

可伸缩，面向列的分布式云存储系统

建立在Hadoop上的数据仓库基础架构。Hive定义了简单的类SQL查询语言，允许使用SQL查询数据。

Hive是一种类SQL语言，最终被转化成Map/Reduce。Hive虽然类似SQL，但是不能交互查询，只能在Hadoop上批量执行。
HBase是一个Key/Value系统，运行在HDFS上。HBase可以实时运行。
Hive查询花费时间长，会默认遍历表中所有数据。
Hive不支持更新操作。
HBase需要特定语言编写，可以通过Apache Phonenix实现，但必须提供schema为代价。而且为了运行HBase，还需要提供Zookeeper支持。
Hive适合离线数据查询分析。
HBase适合大数据实时查询。

分布式、分区、多副本的消息发布及订阅系统。

Sotrm是一个分布式的实时计算系统，为大规模流式数据提供实时处理。适合场景：实时分析、持续计算、分布式ETL。

分布式和高可用的海量日志聚合系统

posted @ 2019-04-30 09:34 のんきネコ阅读(202) 评论(0) 收藏举报

刷新页面返回顶部

のんきネコ