《大数据管理:概念、技术与挑战》读后总结
1、大数据解释
1.1 基本概念
- 代表性的3V定义:规模性(volume)、多样性(variety)和高速性(velocity);
- 4V:在3V基础上加上价值性(value)
1.2 从数据库(Database, DB)到大数据(Big Data, BD)
“池塘捕鱼”和“大海捕鱼”作类比:
- 数据规模
- 数据类型:DB中以结构化数据为主;BD中数据种类繁多,包含结构化、半结构化和非结构化数据,且半结构化和非结构化数据占比越来越大
- 模式与数据的关系:对“池塘”来说,先有“池塘”、再有“鱼”,即先有模式、再有数据;而大数据时代模式只有在数据出现后才能确定
- 处理对象:“池塘”中“鱼”仅是捕捞对象;而“大海”中“鱼”不仅是捕捞对象,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在(即收集+分析)
- 处理工具
1.3 大数据的产生和应用
- 运营式系统阶段
该阶段数据是伴随运营活动产生并记录在数据库中 - 用户原创内容阶段
Web2.0时代。以博客、微博为代表的新型社交网络出现,其次是智能手机、平板电脑为代表的新型移动设备的出现 - 感知式系统阶段
遍布社会各个角落的传感器设备产生新数据
2.大数据处理框架
2.1 大数据处理模式
2.1.1 流处理
流处理的基本理念:数据的价值随着时间的流逝不断减少,因此应尽可能快地对最新的数据做出分析并给出结果(实时处理)。
典型代表:Twitter的Storm、Yahoo的S4和Linkedin的Kafka等
2.1.2 批处理
基本理念:先储存后处理
典型代表:Google的MapReduce
2.2 大数据处理的基本流程
2.2.1 数据抽取与集成
过程:从多样性的数据中提取出关系和实体,同时需要对数据进行清洗保证质量和可信性,经过关联和聚合之后采用统一定义的结构来存储。
分类:基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎及基于搜索引擎的方法
2.2.2 数据分析(核心)
2.2.3 数据解释
- 可视化技术
- 交互式数据分析过程
3.关键技术分析
大数据价值的完整体现需要多种技术的协同
3.1 云计算:大数据的基础平台与支撑技术
3.1.1 文件系统
典型代表:Google的GFS(Google file system)、淘宝的TFS(Tao file system)等
3.1.2 数据库系统
- 关系型数据库:
"One size fits all"
ACID特性,即原子性(atomicity)、一致性(consistency)、隔离性(isolation)和持久性(durability) - NoSQL:
"One size fits one"和"One size fits domain"
BASE特性:basically available(基本可用),soft state(柔性状态)和eventually consistent(最终一致)
3.1.3 索引与查询技术
- 采用MapReduce并行技术优化多值查询:MapTask各部分的并行查询来提高效率
- 采用索引技术优化多值查询:多维索引
3.1.4 数据分析技术
典型代表:Google的Pregel图计算模型,用于图的计算。核心思想源于著名的BSP计算模型
实时处理的模式选择中:
- 流处理模式
- 批处理模式
- 二者融合
3.2 大数据处理工具
Hadoop是目前最流行的大数据处理平台
4.大数据时代面临的新挑战
4.1 大数据集成
- 广泛的异构型
- 数据质量
4.2 大数据分析(analytics)
- 数据处理的实时性
- 动态变化环境中索引的设计
- 先验知识的缺乏
4.3 大数据隐私问题
4.4 大数据能耗问题
4.5 大数据处理与硬件的协同
- 集群中不同机器的硬件异构型带来大数据处理难题
- 新硬件可能带来的变革
4.6 大数据管理易用性问题
从设计学的角度来看,易用性表现为:易见(easy to discover)、易学(easy to learn)和易用(easy to use)。则有3个基本原则:
- 可视化原则(visibility)
- 匹配原则(mapping)
- 反馈原则(feedback)