数据是符号的集合,是表达客观事物的未经加工的原始素材。例如,图形、符号、数字、字母等都是数据的不同形式。数据模型是用来描述数据表达的底层描述模型,它包含数据的定义和类型,以及不同类型数据的操作功能,例如,浮点数类型可以配备加、减、乘除操作等。与数据模型对应的是概念模型,它对目标事物的状态和行为进行抽象的语义描述,并提供构建、推理支持等操作。例如,一维浮点数可以描述温度概念,三维浮点数向量可以描述空间的风向概念。
数据也可看成是数据对象和其属性的集合,其中属性可被看成是变量、值域、特征或特性,例如,人类头发的颜色、人类体温等。单个数据对象可以由一组属性描述,也被称为记录、点、实例、采样、实体等。属性值可以是表达属性的任意数值或符号,同一类属性可以具有不同的属性值,例如,长度的度量单位可以是英尺或米。不同的属性也可能具有相同的取值和不同的含义,例如,年份和年龄都是整数型数值,而年龄通常有取值区间。
大数据通常指无法在现有能力和工具的支持下,在可接受的时间范围内进行采集、管理和处理的数据
1、海量的数据规模。海量的数据源源不断地产生、存储和消费。随着数据采集方式和存储设备的不断更新,我们所保存的网页数据、电子商务数据、金融交易数据等数据开始快速积累起来。
2、快速的数据流转、动态的数据体系。数据量的增大和数据产生速度的加快决定了在大数据时代我们需要面对快速的数据流转。各种各样的传感器、监控摄像头等数据采集设备给人们带来巨大的采集数据流,每天在因特网上产生和消失的网站及数据也构成了高速变更的数据体系。对于当前人们无法承受的数据流动和变更速度来说,如何存储、管理、分析这些数据成了一个棘手的问题。多样的数据。当前我们能够遇到的大数据通常是没有统一定义的、非结构化数据,这意味着这些数据的存储格式、组织形式以及数据间的关系没有一个统一的数据模型来描述。如何有效地应对以结构化、非结构化数据组成的异构数据体系,是大数据时代处理复杂数据的重要议题之一。
3、巨大的数据价值。数据获取和数据计算设备越来越强大和廉价,这使得以计算的手段从数据中挖掘出应用价值成为可能。例如,网站可以利用用户行为数据为用户提供个性化服务,公司可以基于商业数据开发数据产品作为用户增值服务等。
数据基础
数据分类
数据的分类和信息与知识的分类相关。从关系模型的角度讲,数据可被分为实体和关系两部分。实体是被可视化的对象,关系定义了实体与其他实体之间关系的结构和模式,关系可被显式地定义,也可在可视化过程中逐步挖掘。实体或关系可以配备属性,例如,一个苹果的颜色可以看作它的属性。实体、关系和属性在数据库设计中被广泛使用,形成关系型数据库的基础。
实体关系模型能描述数据之间的结构,但不考虑基于实体、关系和属性的操作。常规的数据操作包括:数值计算:数据列表的插入、融合与删除;取反;生成新的实体或关系:实体的变换:从其他对象中形成新对象:单个实体拆分成组件。
数据属性可分为离散属性和连续属性。离散属性的取值来自有限或可数的集合,例如邮政编码、等级、文档单词等:连续属性则对应于实数域,例如温度、高度和湿度等。在测量和计算机表示时,实数表示的精度受限于所采用的数值精度(例如,双精度浮点数采用 64 位)。
针对这些基本数据类型的交互方法主要有:概括、缩放、过滤、查看细节、关联、查看历史和提取等
数据集
数据集是数据的实例。常见的数据集的表达形式有三类。
数据记录集
数据记录由一组包含固定属性值的数据元素组成。数据记录主要有三种形式:数据矩阵、文档向量表示和事务处理数据。
如果数据对象具有一组固定的数值属性,则数据对象可视为高维空间的点集,每个维度对应单个属性。这种数据集可以直接表达为一个mxn的矩阵。其中,矩阵的每行代表一个对象,每列代表单个属性在数据集中的分布。这种表示方法称为数据矩阵。数据矩阵通常被组织为表格形式。
文档是单词的集合。如果统计文档中所有单词出现的频率,则一个文档可以被表示为一个向量,其长度是单词集的个数,每个分量记录单词集中每个单词在该文档中的频率。
事物处理数据是一类特殊的数据记录,每条记录都包含一组数据项。例如,一组超市购物的事物处理数据是(西瓜,梨子,苹果)、(洗发水,苹果,核桃,香蕉)、(香烟,西瓜,口香糖,笔记本,脸盆)。事物处理数据与数据矩阵的差别在于,事物处理数据的每条记录包含的个数和属性不固定,因此无法用矩阵这种大小确定的方式进行表达。
图数据集
图是一种非结构化的数据结构,由一组节点和一组连接两个节点之间的加权边组成。常见的图数据有表达城市之间航空路线的世界航线图、万维网链接图、化学分子式等。树是一种没有回路的连通图,是任意两个顶点间有且只有一条路径的图。
有序数据集
有序数据是具有某种顺序的数据集[chateld99]。常见的数据集包括空间数据、时间数据、时空数据、顺序数据和基因测序数据等
在某些场合(如科学可视化),数据可以根据数据的维度进行分类:标量(一维点)、向量(多维点)、张量(矩阵)等。
数据相似度与密度
相似度(Similarity)是衡量多个数据对象之间相似的数值,通常位于0和1之间。与之对应的测度是相异度(Dissimilarity),其下限是0,上限与数据集有关,可能超过 1。邻近度是相似度和相异度的统一描述。
计算相似度的方法
欧几里得距离。
明科夫斯基距离(欧几里得距离的推广)。
余弦距离。
Jaccard 相似度。
如果数据对象的属性具有多种类型,则可为每个属性计算相似度,再进行加权平均。在基于密度的数据聚类时,需要衡量数据的密度,通常定义有三类:
欧几里得密度(单位区域内的点的数目)。
概率密度。
·基于图结构的密度,
在第一类中,最简单的方法是将区域分成等分,统计每个部分所包含的点的数目。另一种基于中心的欧几里得密度定义为该点固定尺寸邻域内的点的数目。
数据获取
数据获取协议(Data Access Protocol,DAP)作为一种通用的数据获取标准,该协议通过定义基于网络的数据获取句法,以完善数据交换机制,维护发展和提升数据获取效率。理论上,数据获取协议是一个中立的、不受限于任何规则的协议,它提供跨越规则的句法的互操作性,允许规则内的语义互操作性。数据获取协议以文件为基础,提供数据格式、位置和数据组织的透明度,并以纯Web化的方式与网格 FTP/FTP、HTTP、SRB(Source Route Bridging,源路由网桥)、开放地理空间联盟(如 WCSWMS, WFS)、天文学(如 SIAP, SSAP, STAP)等协议兼容。第二代数据获取协议 DAP2提供了一个与领域无关的网络数据获取协议,业已成为NASA/ESE 标准,最新的 DAP4 提供了更多的数据类型和传输功能,以适用更广泛的环境,直接满足用户要求。OPeNDAP(http://www.opendap.org)是一个研发数据获取协议的组织,它提供了一个同名的科学数据联网的简要框架,允许以本地数据格式快速地获取任意格式远程数据的机制。协议中相关的系统要素包括客户端、浏览器界面、数据集成、服务器等。
数据清洗
数据质量是数据采集后所需考虑的第一个问题。对于海量数据来说,未经处理的原始数据中包含大量的无效数据,这些数据在到达存储过程之前就应该被过滤掉。在原始数据中,常见的数据质量问题包括:噪声和离群值、数值缺失、数值重复等。解决这些问题的方法称为数据清洗(Data Cleaning)。
噪声指对真实数据的修改;离群值指与大多数数据偏离较大的数据。
数值缺失的主要原因包括:信息未被记录;某些属性不适用于所有实例。处理数据缺失的方法有:删除数据对象;插值计算缺失值;在分析时忽略缺失值;用概率模型估算缺失值等。非结构化数据通常存在低质量数据项(如从网页和传感器网络获取的数据),构成了数据清洗和数据可视化的新挑战。
数值重复的主要来源是异构数据源的合并,可采用数据清洗方法消除。
处理数据丢失和重复记录仅是数据清洗的一部分。其他操作还包括:运用汇总统计删除、分辨或者修订错误或不精确的数据;调整数据格式和测量单位;数据标准化与归一化等。另一方面,实际采集的数据经常包含错误和自相矛盾的内容,而且实验、模拟和信息分析过程不可避免地存在误差,从而对分析结果产生很大的影响。通常这类问题可以归结为不确定性。不确定性有两方面内涵,包括各数据点自身存在的不确定性,以及数据点属性值的不确定性。前者可用概率描述,后者有多种描述方式,如描述属性值的概率密度函数,以方差为代表的统计值等。由于不确定性数据与确定性数据存在显著差异,所以针对不确定性数据需要采取特殊的数据建模、分析和可视化方法。
数据精简方法可分为两类
使用质量指标优化非视觉因素,如时间、空间等。
使用质量指标优化数据可视化,称为可视数据精简。
可视数据精简需要自动分析数据以便选择和衡量数据的不同特征,如关联性、布局和密度。这些量度指导和评估数据精简的过程,向用户呈现优化的可视化结果。常用的可视化质量指标包括尺寸、视觉有效性和特征保留度。尺寸是可量化的量度,如数据点的数量,构成了其他计算的基础。视觉有效性用于衡量图像退化(如冲突、模糊)或可视布局的美学愉悦程度。常见方法有数据密度和数据油墨比。特征保留度是评估可视化质量的核心,它衡量可视化结果在数据、可视化和认知方面正确展现数据特性的程度。
其他常用的数据预处理步骤
合并
将两个以上的属性或对象合并为一个属性或对象。合并操作的效用包括:有效简化数据;改变数据尺度(例如,从乡村起逐级合并,形成城镇、地区、州、国家等):减少数据的方差。
采样
采样是统计学的基本方法,也是对数据进行选择的主要手段,在对数据的初步探索和最后的数据分析环节经常被采用。统计学家实施采样操作的根本原因是获取或处理全部数据集的代价太高,或者时间开销无法接受。如果采样结果大致具备原始数据的特征,那么这个采样是具有代表性的。最简单的随机采样可以按某种分布随机从数据集中等概率地选择数据项。当某个数据项被选中后,它可以继续保留在采样对象中,也可以在后继采样过程中被剔除。在前一种模式中,同一个数据项可能被多次选中。采样也可分层次进行:先将数据全集分为多份,然后在每份中随机采样。
降维
维度越高,数据集在高维空间的分布越稀疏,从而减弱了数据集的密度和距离的定义对于数据聚类和离群值检测等操作的影响。将数据属性的维度降低,有助于解决维度灾难,减少数据处理的时间和内存消耗;可以更为有效地可视化数据;降低噪声或消除无关特征等。降维是数据挖掘的核心研究内容,常规的做法有主元分析、奇异值分解、局部结构保持的 LLP、ISOMAP 等方法。
特征子集选择
从数据集中选择部分数据属性值可以消除冗余的特征、与任务无关的特征。特征子集选择可达到降维的效果,但不破坏原始的数据属性结构。特征子集选择的方法包括:暴力枚举法、特征重要性选择、压缩感知理论的稀疏表达方法等。
特征生成
特征生成可以在原始数据集基础上构建新的能反映数据集重要信息的属性。三种常用的方法是:特征抽取、将数据应用到新空间、基于特征融合与特征变换的特征构造。
离散化与二值化
将数据集根据其分布划分为若干个子类,形成对数据集的离散表达,称为离散化。将数据值映射为二值区间,是数据处理中的常见做法。将数据区间映射到[0,1]区间的方法称为归一化。
属性变换
将某个属性的所有可能值一一映射到另一个空间的做法称为属性变换,如指数变换、取绝对值等。标准化与归一化是两类特殊的属性变换,其中标准化将数据区间变换到某个统一的区间范围,归一化则变换到[0,11区间。
数据组织与管理
数据管理包括对数据进行有效的收集、存储、处理和应用的过程。在面向复杂数据的数据可视化过程中,还涉及面向应用的数据管理,它的管理对象是数据生命周期所涉及的应用过程中描述构成应用系统构件属性的元数据,包括流程、文件、数据元、代码、规则、脚本、档案、模型、指标、物理表、ETL、运行状态等。
通常数据按照一定的组织形式和规则进行存储和处理,以实现有效的数据管理。从逻辑上看,数据组织具有一个层层相连的层次体系:位、字符、数据元、记录、文件、数据库。其中,记录是逻辑上相关的数据元组合;文件是逻辑上相关的记录集合;数据库是一种作为计算机系统资源共享的数据集合。与数据可视化有关的常用数据组织和管理形式如下:
文件存储
最简单的数据组织管理形式是文件。在数据库管理系统(DBMS)出现以前,人们通常以文件作为数据输入和输出的形式。然而,以文件作为数据存储形式有相当多的弊端例如,数据可能出现冗余、不一致,数据访问烦琐,难以添加数据约束,安全性不高等问题。然而作为一种高度灵活的数据存储形式,它允许使用者非常自由地进行数据处理而不受过多的约束。
电子表单(Spreadsheet)是多功能的数据组织形式,被广泛使用于办公自动化、商业和自然科学领域的数据组织与管理中,几乎所有的办公软件(如Microsoft Excel、Tableau等)都支持标准电子表单文件的导入和导出。电子表单文件的变种,如逗号分隔值(CSV)文件格式,也已经被大量的数据交换程序支持。电子表单格式的主要缺点是缺少类型和元数据,因而在使用时需要预先给出对每个数据项的语义解释,
结构化文件格式
为方便通用型数据存储和交换,数据导向型的应用程序采用标记语言格式将数据进行结构化组织,XML(Extensible Markup Language,可扩展标记语言)是其中的典型代表除此之外,一些科学领域使用特定的结构化文件记录数据,以满足特殊领域知识的表达高性能处理的需求。例如,VOTable是一种由国际虚拟天文台联盟(IVOA)团队制定的XML,数据格式,统一了记录天文星表等表列数据的格式:NetCDF(网络通用数据格式)是由美国大学大气研究协会针对科学数据的特点开发的面向数组型并适合于网络共享的数据的描述和编码标准,被广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等诸多领域;HDF(层次型数据结构)是由美国国家超级计算应用中心创建、以满足不同群体的科学家对不同工程项目领域之需的多对象文件格式。这些科学数据格式充分考虑了实验或测量数据的性能需求,适用于高分辨率、高通量的传感器数据。
数据库
数据组织的高级形式是数据库,即存储在计算设备内、有组织的、共享的、统一管理的数据集合。数据库中保存的数据结构既描述了数据间的内在联系,便于数据增加、更新与删除,也保证了数据的独立性、可靠性、安全性与完整性,提高了数据共享程度和数据管理效率。关系数据库模型是当前数据库系统最为常用的数据模型。
数据整合的常用方式有以下两种。
物化式:查询之前,涉及的数据块被实际交换和存储到同一物理位置(如数据仓库等)。物化式数据整合需要对数据进行物理移动,即从源数据库移动到其他位置。
虚拟式:数据并没有从数据源中移出,而是在不同的数据源之上增加转换策略,并构建一个虚拟层,以提供统一的数据访问接口。虚拟式数据整合通常使用中间件技术,在中间件提供的虚拟数据层之上定义数据映射关系。同时,虚拟层还负责将不同数据源的数据在语义上进行融合,即在查询时做到语义一致。例如,不同公司的销售数据中“利润”的表达各有不同,在虚拟层中需要提供处理机制,将不同的“利润”数据转化为同一种含义,供用户进行查询使用。
数据库与数据仓库
数据库是数据的集合,并且同时包含对数据的相关组织和操作。数据管理系统是用来帮助维护大量数据集合的软件系统,用来满足对数据库进行存储、管理、维护以及提供查询、分析等服务的需要。通常来说,数据库管理系统需要考虑以下几方面的因素。
数据库模型设计。
数据分析支持。
并发和容错。
速度和存储容量。
数据库结构的基础是数据模型,它是数据描述、数据联系、数据域以及一致性约束的集合,现有的数据模型主要有基于对象和基于记录的逻辑模型。
E-R模型是一种著名的基于对象的逻辑模型,它根据现实世界中的实体及实体间的关系对数据进行抽象构建。
关系模型作为一种最常见的基于记录的逻辑模型,广泛应用在当前各种关系型数据库系统中。它借助于关系代数等数学概念和方法来处理数据库中的数据,由关系数据结构、关系操作集合、关系完整性约束三部分组成。关系型数据库是建立在关系模型基础上的数据库。在关系数据模型中,数据以表格的形式表现,数据之间的联系由属性值而不是显式的链接来表达,这一特性以及SQL所带来的访问灵活性促使关系模型快速地取代了旧有的数据模型。当前主流的关系型数据库有IBM DB2、0racle、Microsoft SOL Server、MySQL等。标准查询语言(SOL)是关系型数据库的结构化查询语言,它提供了对关系型数据库中的表记录进行查询、操纵的功能。
现代的关系数据库管理系统(RDBMS)对数据结构和数据内容提供了明确的分离允许用户通过控制和管理的方式来访问数据,同时采用稳定的方法来处理安全性和数据致性。它通过将数据管理设计成符合原子性(Atomic)、一致性(Consistent)、隔离性(Isolated)和持久性(Durable)的事务(事务的 ACID 特性),确保上述数据管理要求的实现,并使分布在计算机网络不同地点的数据库(Distributed RDBMS)的并发数据访问和数据恢复得到支持。通过使用 SOL语句,数据库向用户隐藏了具体的分布细节而提供了统一的数据访问接口。针对查询优化和数据索引发展的大量理论和实践研究增强了关系型数据库处理海量数据集的能力。
关系型数据库系统已经被许多领域作为数据存储管理基础所使用。然而,对于数据可视化应用和其他一些数据应用,关系型数据库存在一些缺陷。
交互式数据可视化应用通常需要将数据存储于内存,以保证足够的性能(通常需要亚秒级的响应时间)。除了一些内存数据库,普通的关系型数据库在数据量较大的情况下难以满足可视化交互的高性能要求。
SOL支持的数据类型是存储导向而不是语义导向的。因此,对复杂关系数据进行处理和可视化时,使用者需要在数据库中添加更多的数据描述来表达记录间的语义关联,然而这样做会增加数据库设计的复杂度以及存储、查询开销。关系型数据库中的事件通知通常用触发器机制实现。这种低效的通知机制难以满足数据可视化的实时性要求。
数据仓库指“面向主题的、集成的、与时间相关的、主要用于存储的数据集合,支持管理部门的决策过程,其目的是构建面向分析的集成化数据环境,为分析人员提供决策支持。区别于其他类型的数据存储系统,数据仓库通常有特定的应用方向,并且能够集成多个异构数据源的数据。同时,数据仓库中的数据还具有时变性、非易失性等特点。数据仓库中的数据来源于外部,开放给外部应用,其基本架构是数据流入/流出的过程,该过程可以分为三层--源数据、数据仓库和数据应用。其流水线简称为ETL(抽取Extract、转化 Transform、装载 Load,
抽取阶段从一个或多个数据源中抽取原始数据。
。转化阶段主要进行数据变换操作,主要有清理、重构、标准化等。
。装载阶段将转化过的数据按一定的存储格式进行存储。
同时,在 ETL过程中的每个组件都要求可重用,以持续地进行数据获取、变换和存储工作,并且能够支持并行操作,提高处理效率。
数据仓库作为利于使用者理解和分析的综合数据资源库,具有一些不同于一般数据库的特点:
数据仓库通常围绕某个应用目标、应用领域或使用者所感兴趣的内容制定,包含了一些相关的、由外部产生的数据。
数据仓库可以不断更新和增长,这意味着数据可以被源源不断地积累起来,从而允许用户分析数据的趋势变化、模式和相互关系。
数据仓库为复杂的决策支持查询进行了大量优化。数据仓库的不同目标和数据模型也同时引发了不同于传统数据库的技术、方法论和方法的各种研究。对于结构化或非结构化数据,数据仓库都能有效地进行处理,并且还能够提供两种数据的整合功能。
浙公网安备 33010602011771号