大数据标准化

参考:大数据标准化白皮书(2020版)

大数据参考架构

  大数据作为一种新兴和不断演进的技术,相关技术标准体系也在社会各界的广泛参与和关注中不断的完善。大数据标准工作组结合 NIST(美国国家标准技术研究所)和 ISO/IEC JTC 1/SC 32 数据管理和交换分技术委员会的研究成果,制定并发布了 GB/T 35589-2017《信息技术 大数据 技术参考模型》国家标准,给出了大数据参考架构,如图 下图 所示。

 

 大数据通用技术概况

  大数据技术应用于大数据系统端到端的各个环节,包括数据接入、数据预处理、数据存储、数据处理、数据可视化、数据治理,以及安全和隐私保护等。

(1)数据接入。大数据系统需要从不同应用和数据源(如互联网、物联网等)进行离线或实时的数据采集、传输、分发。为了支持多种应用和数据类型,大数据系统的数据接入需要基于规范化的传输协议和数据格式,提供丰富的数据接口、读入各种类型的数据。

(2)数据预处理。预处理是大数据重点技术之一。由于采集到的数据在来源、格式、数据质量等方面可能存在较大的差异,需要对数据进行整理、清洗、转换等过程,以便支撑后续数据处理、查询、分析等进一步应用。

(3)数据存储。随着大数据系统数据规模的扩大、数据处理和分析维度的提升、以及大数据应用对数据处理性能要求的不断提高,数据存储技术得到持续的发展与优化。一方面,基于大规模并行数据库(MPPDB)集群实现了海量结构化数据的存储与高质量管理,并能有效支持 SQL 和联机交易处理(OLTP)查询。另一方面,基于 HDFS 分布式文件系统实现了对海量半结构化和非结构化数据的存储,进一步支撑内容检索、深度挖掘、综合分析等大数据分析应用。同时,数据规模的快速增长,也使得分布式存储成为主流的存储方式,通过充分利用分布式存储设备的资源,能够显著提升容量和读写性能,具备较高的扩展性。

(4)数据处理。不同大数据应用对数据处理需求各异,导致产生了如离线处理、实时处理、交互查询、实时检索等不同数据处理方法。离线处理通常是指对海量数据进行批量的处理和分析,对处理时间的实时性要求不高,但数据量巨大、占用计算及存储资源较多。实时处理指对实时数据源(比如流数据)进行快速分析,对分析处理的实时性要求高,单位时间处理的数据量大,对 CPU 和内存的要求很高。交互查询是指对数据进行交互式的分析和查询,对查询响应时间要求较高,对查询语言支持要求高。实时检索指对实时写入的数据进行动态的查询,对查询响应时间要求较高,并且通常需要支持高并发查询。近年来,为满足不同数据分析场景在性能、数据规模、并发性等方面的要求,流计算、内存计算、图计算等数据处理技术不断发展。同时,人工智能的快速发展使得机器学习算法更多的融入数据处理、分析过程,进一步提升了数据处理结果的精准度、智能化和分析效率。

(5)数据可视化。数据可视化是大数据技术在各行业应用中的关键环节。通过直观反映出数据各维度指标的变化趋势,用以支撑用户分析、监控和数据价值挖掘。数据可视化技术的发展使得用户借助图表、2D\3D 视图等多种方式,通过自定义配置可视化界面实现对各类数据源进行面向不同应用要求的分析。

(6)数据治理。数据治理涉及数据全生存周期端到端过程,不仅与技术紧密相关,还与政策、法规、标准、流程等密切关联(详见 下文大数据治理)。从技术角度,大数据治理涉及到元数据管理、数据标准管理、数据质量管理、数据安全管理等多方面技术。当前,数据资源分散、数据流通困难(模型不统一、接口难对接)、应用系统孤立等问题已经成为企业数字化转型最大挑战之一。大数据系统需要通过提供集成化的数据治理能力、实现统一数据资产管理及数据资源规划。

(7)安全与隐私保护。大数据系统的安全与系统的各个组件、及系统工作的各个环节相关,需要从数据安全(例如备份容灾、数据加密)、应用安全(例如身份鉴别和认证)、设备安全(例如网络安全、主机安全)等方面全面保障系统的运行安全。同时随着数据应用的不断深入,数据隐私保护(包括个人隐私保护,企业商业秘密保护、国家机密保护)也已成为大数据技术重点研究方向之一。

大数据关键技术概述

(1)分布式数据库技术

  分布式数据库是指将物理上分散的多个数据库单元连接起来组成的逻辑上统一的数据库。随着各行业大数据应用对数据库需求不断提升,数据库技术面临数据的快速增长及系统规模的急剧扩大,不断对系统的可扩展性、可维护性提出更高要求。当前以结构化数据为主,结合空间、文本、时序、图等非结构化数据的融合数据分析成为用户的重要需求方向。同时随着大规模数据分析对算力要求的不断提升,需要充分发挥异构计算单元(如 CPU、GPU、AI 加速芯片)来满足应用对数据分析性能的要求。分布式数据库主要分为 OLTP 数据库、OLAP 数据库、HTAP 系统。OLTP(联机事务处理)数据库,用于处理数据量较大、吞吐量要求较高、响应时间较短的交易数据分析。OLAP(联机分析处理)数据库,一般通过对数据进行时域分析、空间分析、多维分析,从而迅速、交互、多维度地对数据进行探索,常用于商业智能和系统的实时决策。HTAP(混合交易/分析处理)系统,混合 OLTP 和 OLAP 业务同时处理,用于对动态的交易数据进行实时的复杂分析,使得用户能够做出更快的商业决策,支持流、图、空间、文本、结构化等多种数据类型的混合负载,具备多模引擎的分析能力。分布式数据库的发展呈现与人工智能融合的趋势。一方面基于人工智能进行自调优、自诊断、自愈、自运维,能够对不同场景提供智能化性能优化能力;另一方面通过主流的数据库语言对接人工智能,有效降低人工智能使用门槛。此外,基于异构计算算力,分布式数据库能基于对不同 CPU 架构(ARM、X86 等)的调度进行结构化数据的处理,并基于对 GPU、人工智能加速芯片的调度实现高维向量数据分析,提升数据库的性能、效能。

(2)分布式存储技术

  随着数据(尤其是非结构化数据)规模的快速增长,以及用户对大数据系统在可靠性、可用性、性能、运营成本等方面需求的提升,分布式架构逐步成为大数据存储的主流架构。基于产业需求和技术发展,分布式存储主要呈现 3 方面趋势。一是基于硬件处理的分布式存储技术。目前大多的存储仍是使用 HDD(传统硬盘),少数的存储使用 SSD(固态硬盘),或者 SSD+HDD 的模式,如何充分利用硬件来提升性能,推动着分布式存储技术进一步发展。二是基于融合存储的分布式存储技术。针对现有存储系统对块存储、文件存储、对象存储、大数据存储的基本需求,提供一套系统支持多种协议融合,降低存储成本,提升上线速度。三是人工智能技术融合,例如基于人工智能技术实现对性能进行自动调优、对资源使用进行预测、对硬盘故障进行预判等,提升系统可靠性和运维效率,降低运维成本。

(3)流计算技术

  流计算是指在数据流入的同时对数据进行处理和分析,常用于处理高速并发且时效性要求较高的大规模计算场景。流计算系统的关键是流计算引擎,目前流计算引擎主要具备以下特征:支持流计算模型,能够对流式数据进行实时的计算;支持增量计算,可以对局部数据进行增量处理;支持事件触发,能够实时上对变化进行及时响应;支持流量控制,避免因流量或高而导致崩溃或者性能降低等。随着数据量的不断增加,流计算系统的使用日益广泛,同时传统的流计算平台和系统开始逐步出现一些不足。状态的一致性保障机制相对较弱,处理延迟相对较大,吞吐量受限等问题的出现,推动着流计算平台和系统向新的发展方向延伸。其发展趋势主要包括:更高的吞吐速率,以应对更加海量的流式数据;更低的延迟,逐步实现亚秒级的延迟;更加完备的流量控制机制,以应对更加复杂的流式数据情况;容错能力的提升,以较小的开销来应对各类问题和错误。

(4)图数据库技术

  图数据库是利用图结构进行语义查询的数据库。相比关系模型,图数据模型具有独特的优势。一是借助边的标签,能对具有复杂甚至任意结构的数据集进行建模;而使用关系模型,需要人工的将数据集归化为一组表及它们之间的 JOIN条件,才能保存原始结构的全部信息。二是图模型能够非常有效地执行涉及数据实体之间多跳关系的复杂查询或分析,由于图模型用边来保存这类关系,因此只需要简单的查找操作即可获得结果,具有显著的性能优势。三是相较于关系模型,图模型更加灵活,能够简便的创建及动态转换数据,降低模式迁移成本。四是图数据库擅于处理网状的复杂关系,在金融大数据、社交网络分析、推荐、安全防控、物流等领域有着更为广泛的应用。

大数据热点领域概述

大数据治理

  随着大数据技术在各领域应用的不断深入,数据价值变现能力越来越高,数据确权、数据质量、数据安全、数据流通等问题受到业内关注,并引发各界深度思考,如何做好大数据治理工作,成为大数据产业生态系统中一个新的热点。

  大数据治理体系

  数据治理是对数据资产行使权利和活动控制的集合,是数据管理体系的核心,并用于评估、指导和监督其他相关数据管理职能的执行。大数据治理相比于数据治理,在数据治理对象、数据处理架构、治理组织职能、数据管理措施、数据应用范围等方面呈现多层次、多形式、大范围等特点。围绕数据资产、共享开放、安全与隐私保护等的大数据技术应用的新需求,大数据治理不再仅限于单一组织数据治理范畴,而是要从国家层次、行业层次、组织层次构建形成一个自上而下、多元共治的数据治理体系。大数据治理体系框架如下图所示:

 

  国家层面,需要通过政策法规支撑大数据治理建设。一是需要从国家法律法规层面明确数据资产地位,确定数据权属规则,完善数据隐私保护,为大数据治理提供安全可靠的政策、法律环境。二是需要通过国家标准规范数据管理机制,构建业内协调统一的数据治理标准体系,保障数据产业的健康有序发展。三是需要通过建设政府主导的数据开放共享平台推动业内数据流通,深化数据资源应用,实现数据价值挖掘。
  行业层面,在国家相关法律法规和标准体系建设的基础之上,需要面向金融、制造、能源等各领域具体需求,建立完善行业大数据治理指引,引导完善行业内部数据共享与开放规则,推动行业标准、治理模型建设,开展行业内部最佳实践积累,逐步形成面向行业业务需求的数据治理体系。
  组织层面,需要明确企业数据资产核心地位,构建数据治理、数据管理体系。一是确立企业的业务战略和数据战略;二是建立数据组织、明确管理职责,制订数据管理制度和管理流程,形成大数据治理体系保障机制;三是依据企业数据现状和业务现状规范元数据、数据架构、数据标准、数据质量、数据安全、数据应用等具体管理活动并明确相关管理职能。 

大数据与人工智能

  大数据与人工智能作为现代计算机技术的重点发展方向,是众多垂直领域应用解决方案的重要支撑技术。大数据技术演化的总体目标是高效收集、存储、处理与分析大规模、多源数据,并满足业务需求。近年来,大数据技术路线从批处理架构,逐渐演化为内存计算架构、流处理架构、批流融合处理架构、图数据处理架构等。人工智能关注的技术重点是人工智能算法,即如何通过大数据构建机
器学习模型,如何高效训练、评估、测试人工智能模型,并解决人工智能的应用问题;具体而言,包括算法的技术突破、算法的性能和效率提升等。

(1)大数据为人工智能提供了大规模多源异构的数据资源

  在大数据时代,人工智能使用的不再是样本数据,而更多的是全量数据。高价值数据体量越大,预测结果越准确,对人类思维模拟程度越高。正是基于大数据的数据规模体量,人工智能才得以在算法、算力提升的基础上实现重大突破。

(2)统一的数据分析与人工智能平台成为发展趋势

  传统大数据平台主要提供基于CPU与内存的分布式数据处理架构,但近年来随着人工智能技术与应用的发展,新型大数据平台支持GPU、GPU/CPU混合计算等新的计算架构。此外,新型大数据平台逐步开始支持TensorFlow、PyTorch等人工智能编程框架,统一数据分析与人工智能平台成为趋势。如Intel推出了面向Apache Spark的统一数据分析与人工智能平台Analytics Zoo,Databricks联合Microsoft推出了MLFLOW,方便用户快速开发、验证、部署人工智能应用。

(3)大数据与人工智能技术关联融合

  大数据分析的核心技术是SQL、统计分析、图分析与机器学习,而人工智能的核心技术则包括以深度学习为代表的机器学习、知识图谱、逻辑规划和专家系统等,两者在技术上存在明显重合,如大数据与人工智能都需要应用机器学习技术,人工智能领域对知识图谱数据进行分析将与图分析进行结合,如下图所示。

 

 

(4)人工智能拓展了大数据应用场景

  传统大数据分析主要针对结构化、半结构化数据,缺乏对非结构化数据,如图像、视频、语音的处理能力。数据驱动的人工智能技术则提供了高维非结构化数据的分析能力。在大数据框架下通过不断补充完善与人工智能相关的视频、图像、语音等非结构化数据类型,实现多源异构数据的统一分类、处理与解析,并基于多源异构数据形成统一索引,在各种媒体资源的语义与计算结果之间建立关联,向人工智能大数据智慧应用提供数据服务。随着大数据与人工智能的深入融合,以及在各行业应用的不断加深,未来大数据和人工智能必将迎来新的增长浪潮并不断产生新模式、新业态。在此情形下,将对大数据、人工智能标准化的协调发展提出新的发展需求。
posted @ 2021-04-27 09:50  苏su  阅读(1093)  评论(0编辑  收藏  举报