BDAS - Berkeley Data Analytics Stack

 

BDAS, the Berkeley Data Analytics Stack, is an open source software stack that integrates software components being built by the AMPLab to make sense of Big Data.

BDAS consists of the components shown below. Components shown in Blue or Green are available for download now. Click on a title to go that project’s homepage.

 

In-house Apps
Access and
Interfaces
Processing Engine
Storage
Resource Virtualization
 
  AMPLab Initiated     Spark Community     3rd Party     In Development

 
 

 

蓝色: AMPLab已发布 绿色: Spark社区已发布 灰色: 第三方已发布 黄色: 开发中

 
  • Mesos/Yarn 资源分配与管理。资源分配程度不同。Mesos仅提供资源,具体分配由计算框架自己负责;而Yarn全权负责资源的分配和调度管理。
  • HDFD 分布式文件系统
  • Alluxio 早期叫Tachyon,分布式内存存储系统。将Spark本身的内存管理功能独立出来,使得Spark专注于计算。计算与存储分离。 Succinct 内存管理优化。
  • Spark 计算。基于Resilient Distributed Datasets 弹性分布式数据集进行计算。包括:构建,转换(map, flatMap, filter, union ... ), 行动(count, top, reduce, foreach, saveAs...) (早期的Hadoop....只有MapReduce)
  • SparkSQL 使用SQL语法查询结构性的数据。使用统一的方式访问Hive、json、JDBC ...
  • Spark Streaming  高容错实时流数据处理框架。输入: Kafka, HDFS ...   输出: HDFS, Database, Dashboard ...   它的机制与Flink有些类似。
  • BlinkDB 近似计算。 容许用户在数据准确性和响应时间间平衡。
  • SampleClean 数据清洗
  • SparkR R语言的一个实现
  • GraphX 分布式图处理框架
  • Splash 随机学习算法并行计算框架
  • ML.. 机器学习
  • Velox 机器学习预测

 

posted @ 2021-03-04 14:24  Ready!  阅读(141)  评论(0编辑  收藏  举报