数据科学理论与实践--1.基础理论
数据科学理论与实践--1.基础理论
1.1术语定义
1.数据
DIKW金字塔

数据:对信息进行计量和记录之后形成的文字、语音、图形、图像、动画、视频、多媒体、富媒体等多种形式的记录。
信息:与材料、能源一个层次的概念,客观存在的资源,通常被认为是人类社会赖以生存和发展的三大资源之一。
知识:人们从(多条)信息中发现的共性规律、模式、模型、理论、方法等。
• 显性知识( Explicit Knowledge)
• 隐性知识( Tacit Knowledge)
智慧
• 用知识解决问题或通过解决问题修正知识
数据与数值( Numerical Value)是两个不同的概念
数值仅仅是数据的一种存在形式而已。除了数值,数据科学中所说的数据还包括文字、图形、图像、动画、文本、语音、视频、多煤体和富媒体等多种类型

从结构化程度看,通常将数据分为结构化数据、半结构化数据和非结构化数据三种
结构化数据的管理可以采用传统关系数据库技术,而非结构化数据的管理往往采用 NOSQL、 NEWSQL或关系云技术。

2.大数据
含义
大数据是指在云计算、物联网、智慧城市等新技术环境下产生的(新)数据的统称。
特点
• Volume(量大)
• Variety(类型多)
• Value(价值发现难度大)
• Velocity(速度快)

本质特征
“涌现”

具体表现形式
• 价值涌现
• 隐私涌现
• 质量涌现
• 安全涌现
比较普遍采用的定义方法
• Gartner:大数据指的是无法使用传统流程或工具处理或分析的信息,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
• IBM:大数据是拥有以下四个共同特点(4V)中任意一个的数据源:极大的数据量级(Volumn);极广泛的数据源类型(Variety),极高的准确性(Veracity),确保数据源的真实性。
• 国家标准:具有体量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。
3.数据科学
含义

1.2研究目的
最终研究目标
实现数据、物质和能量之间的转换,即如何通过“数据的利用”方式降低“物质、能量的消耗”或(和)提升“物质及能量的利用效果和效率”。
具体来讲
(1)大数据及其运动规律的揭示
揭示大数据的内容、元数据及形态的基本特征及运动规律
(2)从数据到智慧的转换

(3)数据洞见( Data Insight)
数据洞见强调的是如何将数据转换为实际行动的过程

(4)数据业务化
根据数据及其变化,动态定义一个新的流程或再造已有流程,提升业务活动的敏捷性,进而实现利润最大化和成本最小化

(5)数据驱动型決策支持
从“数据视角”提出问题、在“数据层次”上分析问题、“以数据为中心”的解决问题以及将“数据”当作决策制定的决定因素,提升决策制定的信度与效度

(6)数据产品的研发
通过对低层次(零次、一次或二次)数据进行处理、分析和洞见, 将其转换为更高层次的数据(一次、二次或三次),并以数据产品的形式提供给目标用户。

(7)数据生态系统的建设
通过数据的系统性研究,创造性地为组织机构提供一整套的解决方案,帮助组织机构建立自己的数据生态系统,实现其可持续发展
IDC 给出的大数据生态系统示意图

1.3研究视角
数据能为我做什么

1.4发展简史

1.5理论体系

· 统计学、机器学习和数据可视化与故事化是数据科学的理论基础。
· 基础理论、数据加工、数据计算、数据管理、数据分析、数据产品开发相当于“鹰”的躯体,也是数据科学的核心内容。
· 领域知识相当于“鹰”的头脑,决定着数据科学的主要关注点、应用领域和未来发展走向

· 基础理论:主要包括数据科学中的理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。需要特别提醒的是,“基础理论”与“理论基础”是两个不同的概念。
“基础理论”在数据科学的研究边界之内,而其“理论基础”在数据科学的研究边界之外,是数据科学的理论依据和来源。
· 数据加工:数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据归约和数据标注等;
强调的是数据处理中的增值活动,即如何将数据科学家的创造性设计、批判性思考和好奇性提问融入数据的加工过程之中。
· 数据计算:三大云计算技术(GFS、 Big Table和 Mapreduce)、 Hadoop Mapreduce、 Spark和YARN等新技术。
· 数据管理: 对数据进行管理与维护, 以便进行(再次进行)“数据分析”以及数据的再利用和长久存储
· 数据分析
· 数据产品开发
1.6基本原则
1.三世界原则

2.三要素原则
理论、实践和精神

如何提升自己的实践能力
(1)参加相关竞赛
(2)参加开源项目
数据柔术( Data Jujitsu)
强调将数据转换为产品过程中的“艺术性”一需要将数据科学家的3C精神融入数据分析与处理工作之中。
3.数据密集型原则

4.以数据为中心的原则
· 数据科学中强调的也是数据科学擅长的,是如何从数据中发现潜在的、有价值的、可用的新模式,并将其用于解决实际问题中。
· 利用数据提升业务效率,并进一步提出如何通过数据提升的方法
5.数据范式原则

6.数据复杂性原则

7.数据资产原则

· 如何到“大数据”
(1)统计数据。
(2)机器学习。
(3)竞赛平台。
(4)政府网站。
(5)企业或公益机构网站
(6)其他。
8.数据驱动原则

9.协同原则
数据科学关注的是如何合理配置数据科学团队的问题,即如何实现不同数据科学家的优势互补。另外,数据科学中还强调人机合作以及如何充分调动来自机构数据链长尾的“专家余(Pro Am)”的积极性。
10.从简原则
基于数据的智能”的重要特点是“数据复杂,但算法简单”。

1.7相关理论
数据科学具有明显的跨学科的特点
主要原因
• 数据科学中采用的理论、方法、技术和工具具有跨学科性,涉及计算机科学、统计学、人工智能等
• 数据科学可以应用于多个领域,如材料科学、医学、金融学、新闻学、社会科学等,换一句话说,多个不同领域的专家学者都在研究数据科学。
容易混淆的概念是数据科学与商务智能
· 商务智能:主要关注的是对“过去时间”的“解释性研究”
· 数据科学:主要关注的是对“未来时间”的”探索性研究

容易混淆的概念是数据科学( Data Science)和数据工程( Data Engineering)
· 数据工程: 采用大数据技术进行“数据本身的处理与管理”,主要关注的是数据本身的备份/ 恢复、抽取-加载转换、集成、标注、接口设计以及数据库/数据仓库的设计、实现与维护等工作
· 数据科学:属于“基于数据的处理与管理”,主要关注的是如何基于数据进行辅助决策(或决策支持)、商业洞察、预测未来、发现潜在模式以及如何将数据转换为智慧或产品

1.8人才类型

轻松学习数据科学的8个步骤
掌握统计学、数学及机器学习

学会写代码

理解数据库技术

探究数据科学流程

重视大数据

成长、协作与学习

彻底地浸泡自己

参与社区


浙公网安备 33010602011771号