OceanSide On my own FEET
Fork me on GitHub

《大数据管理:概念、技术与挑战》读后总结

1、大数据解释

1.1 基本概念

  • 代表性的3V定义:规模性(volume)、多样性(variety)和高速性(velocity);
  • 4V:在3V基础上加上价值性(value)

1.2 从数据库(Database, DB)到大数据(Big Data, BD)

“池塘捕鱼”和“大海捕鱼”作类比:

  • 数据规模
  • 数据类型:DB中以结构化数据为主;BD中数据种类繁多,包含结构化、半结构化和非结构化数据,且半结构化和非结构化数据占比越来越大
  • 模式与数据的关系:对“池塘”来说,先有“池塘”、再有“鱼”,即先有模式、再有数据;而大数据时代模式只有在数据出现后才能确定
  • 处理对象:“池塘”中“鱼”仅是捕捞对象;而“大海”中“鱼”不仅是捕捞对象,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在(即收集+分析)
  • 处理工具

1.3 大数据的产生和应用

  1. 运营式系统阶段
      该阶段数据是伴随运营活动产生并记录在数据库中
  2. 用户原创内容阶段
      Web2.0时代。以博客、微博为代表的新型社交网络出现,其次是智能手机、平板电脑为代表的新型移动设备的出现
  3. 感知式系统阶段
      遍布社会各个角落的传感器设备产生新数据

2.大数据处理框架

2.1 大数据处理模式

2.1.1 流处理

流处理的基本理念:数据的价值随着时间的流逝不断减少,因此应尽可能快地对最新的数据做出分析并给出结果(实时处理)。
典型代表:Twitter的Storm、Yahoo的S4和Linkedin的Kafka等

2.1.2 批处理

基本理念:先储存后处理
典型代表:Google的MapReduce

2.2 大数据处理的基本流程

2.2.1 数据抽取与集成

过程:从多样性的数据中提取出关系和实体,同时需要对数据进行清洗保证质量和可信性,经过关联和聚合之后采用统一定义的结构来存储。
分类:基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎及基于搜索引擎的方法

2.2.2 数据分析(核心)

2.2.3 数据解释

  1. 可视化技术
  2. 交互式数据分析过程

3.关键技术分析

大数据价值的完整体现需要多种技术的协同

3.1 云计算:大数据的基础平台与支撑技术

3.1.1 文件系统

典型代表:Google的GFS(Google file system)、淘宝的TFS(Tao file system)等

3.1.2 数据库系统

  • 关系型数据库:
      "One size fits all"
      ACID特性,即原子性(atomicity)、一致性(consistency)、隔离性(isolation)和持久性(durability)
  • NoSQL:
      "One size fits one"和"One size fits domain"
      BASE特性:basically available(基本可用),soft state(柔性状态)和eventually consistent(最终一致)

3.1.3 索引与查询技术

  1. 采用MapReduce并行技术优化多值查询:MapTask各部分的并行查询来提高效率
  2. 采用索引技术优化多值查询:多维索引

3.1.4 数据分析技术

典型代表:Google的Pregel图计算模型,用于图的计算。核心思想源于著名的BSP计算模型
实时处理的模式选择中:

  1. 流处理模式
  2. 批处理模式
  3. 二者融合

3.2 大数据处理工具

Hadoop是目前最流行的大数据处理平台

4.大数据时代面临的新挑战

4.1 大数据集成

  1. 广泛的异构型
  2. 数据质量

4.2 大数据分析(analytics)

  1. 数据处理的实时性
  2. 动态变化环境中索引的设计
  3. 先验知识的缺乏

4.3 大数据隐私问题

4.4 大数据能耗问题

4.5 大数据处理与硬件的协同

  1. 集群中不同机器的硬件异构型带来大数据处理难题
  2. 新硬件可能带来的变革

4.6 大数据管理易用性问题

从设计学的角度来看,易用性表现为:易见(easy to discover)、易学(easy to learn)和易用(easy to use)。则有3个基本原则:

  1. 可视化原则(visibility)
  2. 匹配原则(mapping)
  3. 反馈原则(feedback)
posted @ 2022-03-02 19:27  EEthunder  阅读(208)  评论(0)    收藏  举报