最近刚看了新的一期《程序员》杂志的一篇大数据的文章,总结的特别好,为了方便我去查找所有将里面的内容再次精简后写下来。

在这篇文章里主要是几个方面:
数据传输、数据存储、数据计算、数据展现、数据开发平台、数据应用市场

我之前对数据的总结在:数据存储、数据管理、数据计算

 

数据传输包括:实时同步、批量同步。一般常用方式采用时间线。

数据存储包括:内核级分布式存储、用户级分布式文件存储、业务级数据存储。

前两个类别其实很好理解,最后一个是有分类的,包括:列式数据库存储、文档数据库存储、K/V型数据库存储、图形数据库、关系型数据库。以上数据库都构建于文件系统之上。

 

数据计算包括:离线计算、流式计算、即时计算、图计算。

离线计算这是我们常用的(适应于很多场景),具体的体现就是在hadoop上运行M/R模型(有些离线计算,还是基于内存的方式)。

流式计算的依据数据时间的增长,而数据的价值会快速下降。它依赖于上游数据传输的正确性、实时性、下游存储系统的高吞吐量,目前因为没有这样的业务,所以还没能体验流式计算。(使用的工具是Storm)

 

即时计算是根据查询需求从海量数据中即时进行排名、排重、汇总等运算。此系统又分为两类:在线数据应用和在线数据分析,前者目前在Google里用的PowerDrill项目,在阿里集团用的Garuda项目;后者Google使用Dremel,Cloudera使用Impala(可分析Hbase和HDFS,与Hive共享元数据,这个工具也是后面我们需要调研),目前在Apache里Drill开源项目也在开发中。

 

图计算对用户关系、网页关系等数据的深度挖掘,涉及大型的矩阵计算、图计算和网络计算。解决此类问题引入了MPI或BSP模型,目前Apache的Hama项目就是应用于此等场景。

 

数据展现简单地讲就是通过表格、饼图、柱状图展现数据,也叫数据可视化。

 

数据开发平台和数据应用市场,这两块对我来说还是很陌生的,以后再好好琢磨吧。

posted on 2012-12-24 19:38  风生水起  阅读(1543)  评论(0编辑  收藏  举报