开源大数据利器汇总
http://blog.csdn.net/aquester/article/details/23340027
| 类别 | 名称 | 官网 | 备注 |
| 查询引擎 | Phoenix | http://phoenix.incubator.apache.org/ |
Apache HBase之上的一个SQL中间层,完全 使用Java编写 |
| Stinger | http://hortonworks.com/labs/stinger/ |
原叫Tez,下一代Hive,Hortonworks主导开 发,运行在YARN上的DAG计算框架 |
|
| Presto | http://prestodb.io/ | Facebook开源 | |
| Shark | http://shark.cs.berkeley.edu/ | Spark上的SQL执行引擎 | |
| Pig | http://pig.apache.org/ | 基于Hadoop MapReduce的脚本语言 | |
| Cloudera Impala | http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html | 参照Google Dremel实现 | |
| Apache Drill | http://incubator.apache.org/drill/ | 参照Google Dremel实现 | |
| Apache Tajo | http://tajo.incubator.apache.org/ | 一个运行在YARN上支持SQL的分布式数据仓库 | |
| Hive | http://hive.apache.org/ | 基于Hadoop MapReduce的SQL查询引擎 | |
| 流式计算 | Facebook Puma | 实时数据流分析 | |
| Twitter Rainbird | 分布式实时统计系统,如网站的点击统计 | ||
| Yahoo S4 | http://incubator.apache.org/s4/ |
Java开发的一个通用的、分布式的、可扩展的、 分区容错的、可插拔的无主架构的流式系统 |
|
| Twitter Storm | http://storm.incubator.apache.org/ | 使用Java和Clojure实现 | |
| 迭代计算 | Apache Hama | https://hama.apache.org/ |
建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的 计算框架,模仿了Google的Pregel。 |
| Apache Giraph | https://giraph.apache.org/ |
建立在Hadoop上的可伸缩的分布式迭代图处理 系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel |
|
| HaLoop | https://code.google.com/p/haloop/ | 迭代的MapReduce | |
| Berkeley Spark | http://spark.incubator.apache.org/ http://shark.cs.berkeley.edu/ |
使用Scala语言实现,和MapReduce有较大 的竞争关系,性能强于MapReduce |
|
| Twister | http://www.iterativemapreduce.org/ | 迭代的MapReduce | |
| 离线计算 | Hadoop MapReduce | http://hadoop.apache.org/ | 经典的大数据批处理系统 |
| 键值存储 | Apache Accumulo | https://accumulo.apache.org/ |
可靠的、可伸缩的、高性能、排序分布式的键值 存储解决方案,基于单元访问控制以及可定制的 服务器端处理。 |
| Redis | http://redis.io/ | ||
| 表格存储 | Amazon SimpleDB | http://aws.amazon.com/cn/simpledb/ |
一个可大规模伸缩、用 Erlang 编写的高可用 数据存储 |
| Dynamo | https://github.com/dynamo/dynamo | P2P架构 | |
| Cassandra | http://cassandra.apache.org/ | P2P架构 | |
| HyperTable | http://hypertable.org/ | Bigtable的C++开源实现 | |
| HBase | http://hbase.apache.org/ | Bigtable在Hadoop中的实现 | |
| 文件存储 | CouchDB | http://couchdb.apache.org/ | 面向文档的数据存储 |
| MongoDB | https://www.mongodb.org/ | 文档数据库 | |
| Tachyon | http://tachyon-project.org/ https://github.com/amplab/tachyon |
加州大学伯克利分校的AMPLab基于Hadoop的 核心组件开发出一个更快的版本Tachyon, 它从底层重构了Hadoop平台。 |
|
| KFS | http://code.google.com/p/kosmosfs/ | GFS的C++开源版本 | |
| HDFS | http://hadoop.apache.org/ | GFS在Hadoop中的实现 | |
| 资源管理 | Twitter Mesos | http://mesos.apache.org/ | Google Borg的翻版 |
| Hadoop Yarn | http://hadoop.apache.org/ | 类似于Mesos | |
| 日志收集系统 | Facebook Scribe | https://github.com/facebook/scribe | |
| Cloudera Flume | http://flume.apache.org/ | ||
| 消息系统 | Kafka | http://kafka.apache.org/ | |
| 分布式服务 | ZooKeeper | http://zookeeper.apache.org/ |
分布式锁服务,PoxOS算法的实现,对应 Google的Chubby |
| RPC | Apache Avro | http://avro.apache.org/ | Hadoop中的RPC |
| Facebook Thrift | http://thrift.apache.org/ | RPC,支持C++/Java/PHP等众多语言 | |
| 集群管理 | Nagios | http://www.nagios.org/ | 监视系统运行状态和网络信息的监视系统 |
| Ganglia | http://ganglia.sourceforge.net/ |
UC Berkeley发起的一个开源集群监视项目, 设计用于测量数以千计的节点。 |
|
| Apache Ambari | http://ambari.apache.org/ | 管理和监视Apache Hadoop集群的开源框架 | |
| 基础设施 | LevelDB | http://code.google.com/p/leveldb/ |
Google开发的单机版键值数据库,具有 非常高的写性能 |
| SSTable | Sorted String Table | ||
| RecordIO | |||
| Protocol Buffers | http://code.google.com/p/protobuf/ |
Google公司开发的一种数据描述语言, 类似于XML能够将结构化数据序列化, 可用于数据存储、通信协议等方面。 它不依赖于语言和平台并且可扩展性极强。 |
|
| 搜索引擎 | Nutch | https://nutch.apache.org/ |
开源Java 实现的搜索引擎,诞生 Hadoop的地方。 |
| Lucene | http://lucene.apache.org/ |
一套信息检索工具包,但并不包含搜索引擎 系统,它包含了索引结构、读写索引工具、 相关性工具、排序等功能。 |
|
| Solr | https://lucene.apache.org/solr/ | Solr是基于Lucene的搜索。 |

浙公网安备 33010602011771号