数据科学理论与实践--3.流程与方法
数据科学理论与实践--3.流程与方法
3.1基本流程

1.数据化
• 数据化是指捕获人们的生活、业务或社会活动,并将其转换为数据的过程
• 本质:从现实世界中采集信息,并对采集到的信息进行计量和记录之后, 形成原始数据,即零次数据。
2.数据加工及规整化处理
(1)本质:将低层次数据转换为高层次数据的过程。
(2)从加工程度看,数据可以分为:零次、一次、二次、三次数据。
(3) 两个术语容易混淆

- 干净数据( Clean Data)
主要代表的是数据质量是否有问题,如存在缺失值、错误值或噪声信息等。通常,数据科学家采用数据审计方法判断数据是否为“干”,并用数据清洗( Data Cleaning)的方法将“脏数据”加工成“干浄数据”。
- 规整数据( Tidy Data)
• 主要代表的是数据的形态是否符合计算与算法要求。
• 通常,数据科学家采用数据的规整化处理( Data Tidying)的方法将“乱数据”加工成“规整数据”。
• 以关系表为例,所谓规整数据应同时满足以下三个基本原则
- 每个观察占且仅占一行。
- 每个变量占且仅占一列。
- 每一类观察单元构成一个关系(表)


(4)在数据科学中,需要注意“数据加工”的两个基本问题。
-
将数据科学家的3C精神融人数据加工之中,数据加工应该是一种增值过程。
-
数据加工往往会导致信息丢失或扭曲现象的出现。因此,数据科学家需要在数据复杂度和算法鲁棒性之间寻找平衡。
3.探索性分析
(1) 探索性数据分析( Exploratory Data Analysis,EDA):对已有的数据(特别是调査或观察得来的原始数据)在尽量少的先验假定下进行探索,并通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
(2)EDA方法与传统统计学中的验证性分析方法不同
主要区别
• EDA不需要事先假设,而验证性分析需要事先提出假设
• EDA中采用的方法往往比验证性分析简单,
• 在一般数据科学项目中,探索分析在先,而验证性分析在后。
(3)主要关注的是以下四个主题
a.耐抗性( Resistance)
-
“耐抗性”是指对于数据局部不良行为的非敏感性,
-
中位数平滑是一种耐抗技术,而中位数( Median)是高耐抗性统计量之一。
-
常用的耐抗性分析统计量可以分为:集中趋势、离散程度、分布状态和度等四类,

b.残差( Residuals)
• “残差”是指因变量的观测值与根据估计的方程求出的预测值之差。
• 残差=观测值-预测值
c.重新表达( Re-expression)。
• 找到合适的尺度或数据表达方式进行一定的转换,使得有利于简化分析。
• EDA强调,尽早考虑数据的原始尺度是否合适的问题。如果尺度不合适,重新表达成另一个尺度可能更有助于促进对称性、变异恒定性、关系直线性或效应的可加性等。重新表达也称变换( Transformation)
d.启示( Revelation)
• 启示”是指通过探索性分析,发现新的规律、问题和启迪,进而满足数据加工和数据分析的需要。
4.数据分析与洞见
数据分析的三个基本类型及其内在联系
• 描述性分析:将数据转换为信息的分析过程
• 预测性分析:将信息转换为知识的分析过程。
• 规范性分析:将知识转换为智慧的分析过程。

从 Analytics1.0到 Analytics3.0
(1) Analytics1.0:商务智能时代(1950-2000年)
(2)Analytics2.0:大数据时代(2000-2020年)的主要数据分析技术、方法和工具, 一般由数据科学家负责完成。
(3) Analytics3.0:数据富足供给时代( Data-enriched Offerings)(2020年及以后) 的主要数据分析技术、方法和工具

5.结果展现
• 在机器学习算法、统计模型的设计与应用的基础上,采用数据可视化、故事描述等方法将数据分析的结果展示给最终用户,进而达到决策支持和产品提供的目的。
6.数据产品的提供
在机器学习算法、统计模型的设计与应用的基础上,还可以进一步将“干净数据”转换成各种“数据产品”,并提供给“现实世界”,方便交易与消费。
3.2数据加工
在对数据进行正式处理(计算)之前,根据后续数据计算的需求对原始数据集进行审计、清洗、变换、集成、脱敏、归约和标注等一系列处理活动。
主要目的
提升数据质量,使数据形态更加符合某一算法需求,进而提升数据计算的效果和降低其复杂度。
主要动机

1.数据清洗
在数据审计活动的基础上,将“脏数据”清洗成“干浄数据”的过程。
• 脏数据:指数据审计活动中发现有质量问题的数据,如含有缺失数据,冗余数据(重复数据、无关数据等),噪声数据(错误数据、虚假数据和异常数据等)

值得一提的是,有时需要多轮“清洗”才能“清洗干浄”。也就是说,一次数据清洗操作之后得到的仅仅是“中间数据”,而不一定是“干净数据”。因此,需要对这些可能含有“脏数据”的“中间数据”进行再次“审计工作”,进而判断是否需要再次清洗
(1)缺失数据处理。

(2)冗余数据处理。

(3)噪声数据处理.
噪声:指测量变量中的随机错误或偏差。
主要表现形式有三种:错误数据、虚假数据以及异常数据。
• 异常数据:指对数据分析结果具有重要影响的离群数据或孤立数据
噪声数据处理时常用的方法:分箱、聚类和回归
• 分箱处理
a.基本思路是将数据集放若干个“箱子”之后,用每个箱子的均值(或边界值)替换该箱内部的每个数据成员,进而达到噪声处理的目的
b.根据具体实现方法的不同,数据分箱可分为多种具体模型
1️⃣ 根据对原始数据集的分箱策略
等深分箱(每个箱中的成员个数相等)和等宽分箱(每个箱的取值范围相同)。
2️⃣ 根据每个箱内成员数据的替换方法
-
均值平滑①技术(用每个箱的均值代替箱内成员数据
-
中值平滑技术(用每个箱的中值代替箱内成员数据)
-
边界值平滑技术“边界”是指箱中的最大值和最小值,“边界值平滑”是指每个值被最近的边界值替换)


(4)错误数据和虚假数据的识别与处理更加复杂,需要与领域实务知识与经验相结合
2.数据变换
当原始数据的存在形式不符合目标算法的要求时,需要对原始数据进行数据变换处理
常见的数据变换策略

(1)平滑处理
• 去掉数据中的噪声,常用方法有分箱、回归和聚类等
(2)特征构造(又称属性构造)。
• 采用一致的特征(属性)构造出新的属性,用于描述客观现实。
• 例如,根据已知质量和体积特征计算出新的特征(属性)一密度,而后续数据处理直接用新增的特征(属性)。
(3)聚集
• 对数据进行汇总或聚合处理,进而再进行粗粒度计算,例如可以通对日销售量计算出月销售量。
(4)标准化(又称规范化)
• 将特征(属性)值按比例缩放,使之落入一个特定的区间,如0.0~1.0
• 常用的数据规范化方法
a.Min-Max标准化
缺陷:当有新数据加入时,可能导致最小值和最大值的变化,需要重新定义min和max的取值。

b.z- score标准化

(5)离散化
将数值类型的属性值(如年龄)用区间标签(例如0-18、19-44、45~59 和60~100等)或概念标签(如儿童、青年、中年和老年等)表示。
• 用于数据离散化处理的方法:分箱、聚类、直方图分析、基于熵的离散化等
3.数据集成
数据集成的实现方式
• 在物理上(如生成另一个关系表)实现数据集成
• 在逻辑上(如生成一个视图)实现数据集成
Oracle的数据库对象分为五种:表,视图,序列,索引和同义词。视图是基于一个表或多个表或视图的逻辑表,本身不包含数据,通过它可以对表里面的数据进行查询和修改。视图基于的表称为基表。视图是存储在数据字典里的一条select语句。 通过创建视图可以提取数据的逻辑上的集合或组合。
(1)内容集成
目标数据集的结构与来源数据集的结构相同,集成过程对来源数据集中的内容(个案)进行合并处理,
• 前提:来源数据具有相同的结构或可通过变量映射等方式视为相同结构
• 实际工作中:内容集成还涉及模式集成、冗余处理、冲突检测与处理等数据清洗操作。

(2)结构集成
• 结构集成中目标数据集的结构与来源数据集不
• 结构集成的过程:结构层次的集成和内容层次的集成

需要注意三个基本问题
①模式集成。
• 如何使来自多个数据源的现实世界的实体相互匹配, 即实体识別问题( Entity Identification Problem)
• 通常,数据库与数据仓库以元数据为依据,进行实体识别,进而避免模式集成时发生错误。
“张三”的个案是否代表的是同一个实体
②数据冗余
• 若一个属性可以从其他属性中推演出来,那这个属性就是冗余属性。
• 通常,利用相关分析的方法来判断是否存在数据冗余问题。

③沖突检测与消除
• 产生这样问题的原因:比例尺度不同或编码的差异
4.数据脱敏
数据脱敏( Data Masking):在不影响数据分析结果准确性的前提下,对原始数据进行定的变换操作,对其中的个人(或组织)敏感数据进行替换或删除操作,降低信息的敏感性,避免相关主体的信息安全隐患和个人隐私问题

a.数据脱敏操作不能停留在简单地将敏感信息屏蔽掉或匿名处理
必须满足以下三个要求
(1)单向性
• 从原始数据可以容易得到脱敏数据但无法从脱敏数据推导出原始数据。
• 例如,如果字段“月收入”采用每个主体均加3000元的方法处理,用户就可能通过对脱敏后数据的分析推导出原始数据的内容
(2)无残留
• 数据脱敏操作必须保证用户无法通过其他途径还原敏感信息
• 例如,在图3-16中,仅对字段“家庭住址”进行脱敏处理是不够的,还需要同时脱敏处理“邮寄地址”。再如,仅仅屏蔽“姓名”字段的内容也是不够的,因为我们可以采用“用户画像分析”技术,识别且定位到具体个人
(3)易于实现
• 数据脱操作所涉及的数据量大,所以需要的是易于计算的简单方法,
b.三个基本活动
• 识别敏感信息、脱敏处理和脱敏处理的评价
• 脱敏处理可采用替换和过滤两种方法
• 数据替换活动可以采用Hash函数的方法进行数据的单向映射。
5.数据归约
数据归约( Data Reduction):在不影响数据的完整性和数据分析结果正确性的前提下,通过减少数据规模的方式达到减少数据量,进而提升数据分析的效果与效率的目的。
基于已归约处理后的新数据的分析结果应与基于原始数据的分析结果相同或几乎相同。
常用的数据归约方法
(1)维归约( Dimensionality Reduction)
• 通常减少所考虑的随机变量或属性的个数
• 维归约采用线性代数方法,如主成分分析( Principal Component Analysi,PCA)、奇异值分解( Singular Value Decomposition,SVD)和离散小波转换( Discrete Wavelet Transform,DWT)等。
(2)值归约( Numerosity Reduction)
• 使用参数模型(如简单线性回归模型和对数线性模型等)或非参数模型(如抽样、聚类、直方图等)的方法近似表示数据,并只存储数据生成方法及参数(而不存储实际数据),进而实现数据归约的目的。
(3)数据压缩(Data Compression)通过数据重构方法得到原始数据的压缩表示方法。
6.数据标注
主要目的:通过对目标数据补充必要的词性、颜色、纹理、形状、关键字或语义信息等标签类元数据,提高其检索、洞察、分析和挖掘的效果与效率。
按标注活动的自动化程度:手工标注、自动化标注和半自动化标注
从标注的实现层次看:
(1)语法标注
• 主要采用语法层次上的数据计算技术,对文字、图片、语音、视频等目标数据给出语法层次的标注信息一一语法标签。
• 文本数据的词性、句法、句式等语法标签;图像数据的颜色、纹理和形状等视觉标签
• 特点:标签内容的生成过程并不建立在语义层次的分析处理技术上,且标签信息的利用过程并不支持语义层次的分析推理。
(2)语义标注
• 对数据给出其主题、情感倾向、意见选择等语义信息。
• 语义标注的过程及标注内容应均建立在语义Web和关联数据技术上,并通过OWL/RDF语言关联至领域本体及其规则库,支持语义推理、分析和挖掘工作。
• 语义Web中常用的技术:知识表示技术(如OWL、RDF等),规则处理(如SWRL、 RDF Rule Language等),检索技术(如 SPARQL、 RDF Query Language等)。
3.3数据审计
含义
按照数据质量的一般规律与评价方法,对数据内容及其元数据进行审计,发现其中存在的“问题”
· 缺失值。
· 噪声值
· 不一致值:相互矛盾的数据,如某学生的出生日期在两个不同表中的记录不一致。
· 不完整值:被篡改或无法溯源的数据
分类
1.预定义审计
• 一般情况下,来源数据会有自描述性验证规则( Validation Rule)
如关系数据库中的自定义完整性、XML数据中的 Schema定义等
• 可以依据的数据或方法

2.自定义审计
数据验证( Validation):根据数据加工者自定义验证规则来判断是否为“问题数据”
• 一般情况下,验证规则并非来源数据自带的,而是数据加工者自定义。
验证规则一般可以分为三种
(1)变量定义规则。
在单个(多个)变量上直接定义的验证规则,例如离群值的检查。
• 简单的实现方式
a.一是给出一个有效值(或无效值)的取值范围,
• 大学生表中的年龄属性的取值范围为[18,28];
b.列举所有有效值(或无效值),以有效值(无效值)列表形式定义,
• 大学生表中的性別属性为“男”或“女”。
(2)函数定义规则。
• 需要对变量进行函数计算
• 设计一个函数F(),并定义规则F(age)=TRUE。
3.可视化审计
可以很容易发现数据中存在的问题
常用技巧
1.第一数字定律
两个前提条件
• 数据不能经过人为修饰。
• 数据不能是规律排序的,如发票编号、身份证号码等。

2.小概率原理
一般认为等于或小于0.05或0.01的概率为小概率。
3.语言学规律
语言学特征
• 频率特征:在各种语言中,各个字母的使用次数是不一样的,有的偏高,有的偏低,这种现象叫偏用现象。
• 连接特征:包括语言学中的后连接(如字母“q”后总是“u”)、前连接(如字母“x”的前面总是字母“”,字母“e"”很少与“o”和“a”连接)以及间断连接(如在“e”和“e”之间,r”的出现频率最高)。
• 重复特征:字符串重复出现两个字符以上的现象,叫作语言的重复特征。
4.数据连续性理论
由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据保护措施,其目的是保障数据的可用性、可信性和可控性,降低数据的失用失信和失控的风险

5,数据鉴别技术
目的:消息本身的鉴别,即验证消息的完整性,判断信息内容是否被篡改、重放或延迟等;
主体的鉴别,即发送者是真实的,而不是冒充的,一般采用数字签名技术。
常用方法
(1)消息鉴别码( Message Authentication Code,MAC)是一个固定长的鉴别码
(2)Hash函数
(3)数字签名
3.4数据分析
从复杂度及价值高低两个维度
描述性分析( Descriptive Analytics)、诊断性分析( Diagnostic Analytics)、预测性分析( Predictive Analytics)和规范性分析( Prescriptive Analytics)四种

1.描述性分析


2.诊断性分析

相关关系与因果关系的区别
• 通常,数据科学家只能发现“相关关系”,而“因果关系”的判断和分析应交由领域专家负责完成。
• 数据科学并不抛弃或否认因果关系。在仅仅发现相关关系的前提下,人们并不知道如何优化、调整相关关系,并予以有效利用
3.预测性分析

4.规范性分析


数据分析中常见错误

数据疏浚( Data Dredging):数据疏浚有时候被描述成“从数据集中寻找比实际含有的更多的信息。”
数据分析的类型

3.5数据可视化
1.基本类型
科学可视化( Scientific Visualization)
科学可视化主要面向自然科学,尤其是地理、物理、化学、医学、生物学、气象气候、航空航天等学科领域
信息可视化( Information Visualization)
• 信息可视化更关注抽象且应用层次的可视化问题,一般具有具体问题导向
• 根据可视化对象的不同,信息可视化可归为多个方向:时空数据可视化、数据库及数据仓库的可视化、文本信息的可视化、多媒体或富媒体数据的可视化
可视分析学( Visual Analytics)
2.可视分析学
可视分析学( Visual Analytics)是一门以可视交互为基础,综合运用图形学、数据挖掘和人机交互等多个学科领域的知识,以实现人机协同完成可视化任务为主要目的分析推理性学科


特点
• 强调数据到知识的转换过程
• 强调可视化分析与自动化建模之间的相互作用
• 强调数据映射和数据挖掘的重要性
• 强调数据加工工作的必要性
• 强调人机交互的重要性
3.方法体系

• 方法论基础:主要是指视觉编码

• 基础方法:常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等
• 领域方法:常见的领域类方法有地理信息可视化、空间数据可视化、时间数据可视化、文本数据可视化、跨媒体数据可视化、不确定性数据可视化、实时数据可视化等
4.视觉感知与视觉认知
· 视觉感知( Visual Perception):指客观事物通过视觉感觉器官(眼睛等)在人脑中产生直接反映的过程。
· 视觉认知( Visual Cognition):指个体对视觉感知信息的进一步加工处理过程,包括视觉信息的抽取、转换、存储、简化、合并、理解和决策等加工活动
5.可视化视角下的数据类型
数据可视化操作的本质
a.识别数据类型
从可视化处理视角看,可以将数据分为四个类型
• 定类( Nominal)数据:主要用于记录事物的所属类型或标签信息,
定类数据只能进行是否相等的判断
• 定序( Ordinal)数据:主要用来记录事物的排序信息,如张三的期末成绩在年级排名第一。定序数据除可支持判断是否相等的操作外,还可以进行大小比较运算,但一般不能进行加减乘除等其他运算。
• 定距( Internal)数据:用于记录事物的量化信息,其最主要的特点是不存在基准0”,且“0”并不表示“不存在”。
例如,张三的出生日期、出生地、体温等。定距数据不仅可以支持判断是否相等和大小比较运算,而且还支持加减运算,但其乘除操作意义不大
• 定比( Ratio)数据:定比数据中存在基准“0”,且表示事物“不存在”

b.可视化映射
6.视觉通道的选择方法


视觉通道的表现力的评价指标
• 精确性:人类感知系统对于可视化编码结果和原始数据之间的吻合程度

• 可辨认性:视觉通道的可辨认度
• 可分离性:指同一个视觉图形元素的不同视觉通道的表现力之间应具备一定的独立性。
• 视觉突出性:视觉编码结果能否在很短的时间内(如毫秒级)迅速、准确地表达出可视化编码的主要意图
7.视觉假象
视觉假象是指给目标用户产生的错误或不准确的视觉感知,而这种感知与数据可视化者的意图或数据本身的真实情况不一致
• 可视化视图所处的上下文(周边环境)可能导致视觉假象。
• 人眼对亮度和颜色的相对判断容易造成视觉假象。
• 目标用户的经历与经验可能导致视觉假象。
3.6数据故事化
“数据的故事化描述( Storytelling)”是指为了提升数据的可理解性、可记忆性及可体验性, 将“数据”还原成关联至特定的情景”的过程
数据故事化中的“情景”可以分为三类
· 还原情景
· 移植情景
· 构情景
1.数据科学中的重要地位

2.故事化描述与故事的展现方式

3.故事化描述的基本原则

3.7数据科学项目管理

1.主要角色
项目发起人( Project Sponsor)、项目经理( Project Manager)、客户( Client)、数据科学家( Data Scientist)、数据工程师( Data Engineer)和操作人员( Operation)等

2.基本流程

(1)项目目标的定义
我们通过此项目解决什么问题:项目目标的定义应符合 SMART原则的要求,即具体( Specific)、可测量( Measurable)、可实现( Achievable)、相关( Relevant)和可跟踪( Traceable)
(2)数据的获得与管理
我们需要哪些数据?如何获得
(3)模式/模型的洞见
我们从数据洞见了什么模式/模型
(4)模式/模型的验证和优化
已洞见的模式/模型是否可靠、适用以及如何优化
(5)结果的可视化与文档化
我们用什么方式记录和展现数据结果
(6)模式/模型的应用及维护
如何运用已确定的模式/模型解决实际问题,并根据数据或问题的动态变化优化这些模式/模型
3.8数据科学中的常见错误
1.不检查数据
需要检査自己即将收集和使用的数据的质量与规模。
2.不理解数据
探索性分析
3.不评估数据
4.不测试模型
可以采取A/B测试
5.只有目标,没有假设
· 通过对照组或探索数据来验证你的假设,即什么能改善模型
· 我需要将这个指标増加10%;我的假设是什么?可能会影响到什么?然后我可以对数据中的数据进行探索性分析跟踪
6.采用过时失效的模型
· 模型需要更新,并且随着时间的推移,你可能需要构建另外的模型
7.不评估最终结果
8.忽略业务专家的作用
· 了解实际业务问题的人参与到这项工作中
· 开始项目时,甚至在查看数据之前,要在数据团队和业务专家之间进行对话,以确保每个人都清楚项目要实现什么效果
9.选择过于复杂的模型/算法
10.模型或算法选择上的偏见
11.曲解基本概念和基础原理
12.低估目标用户的理解能力
· 目标用户可能无法自己进行统计分析,但这并不意味着他们不了解错误边际、统计意义和有效性这些指标

浙公网安备 33010602011771号