数据科学理论与实践-5.数据产品及开发
数据科学理论与实践-5.数据产品及开发
5.1数据产品的定义
5.1.1定义
-
能够通过数据来帮助
用户实现其某一个(些)目标的产品 -
数据产品是在数据科学项目中形成,能够被人、计算机以及其他软硬件系统消费、调用或使用,并满足他们(它们)某种需求的任何产品,包括数据集、文档、知识库、应用系统、硬件系统、服务、洞见、决策及其各种组合。
5.1.2注意
-
数据产品开发涉及数据科学项目流程的全部活动,数据产品不仅包括数据科学项目的
最终产品,而且也包括其中间产品以及副产品. -
数据产品的消费者不仅包括
人类用户,还包括计算机以及其他软硬件系统 -
数据产品的存在形式有多种,不仅包括
数据集,还包括文档、知识库、应用系统、硬件系统、服务、洞见、决策或它们的组合

5.1.3数据加工
数据产品开发的关键环节是数据加工
- 单维度转换
在数据加工过程中,从结构化程度、加工程度和抽象程度等多个维度(见图5-1)中选择某一维度,并在此维度上进行数据转换。例如,将非结构化数据转换为结构化数据
- 多维度转换
数据加工的工作中也可以在不同维度之间进行转换,例如将零次半结构化数据转换为二次结构化数据

5.1.4数据柔术
-
数据产品开发的关键技术是
数据柔术 -
数据柔术更加强调的是数据科学家的
主观能动性、创造性思维和艺术设计能力
5.2主要特征
5.2.1以数据为中心
表现
-
以数据为核心生产要素
-
数据驱动
数据产品开发的目的、方法、技术与工具的选择往往是由数据驱动的
- 数据密集型
数据产品开发的瓶颈和难点往往源自数据,而不再是计算和存储
- 数据范式
数据产品的开发往往采用“基于数据的研究范式”(即数据范式),其方法论往往属于历史经验主义的范畴

5.2.2多样性
数据产品的存在或(和)表现形式可以有多种

- 数据类产品
对输入数据进行清洗、脱敏、集成、归约、标准化和标注等处理后形成的,以数据形式输出的产品或服务,如干数据
- 信息类产品
将数据转换成信息之后,以信息形式输出的产品或服务,如数据新闻, 数据订阅,报告、快报、摘录和定题服务等。
- 知识类产品
将数据转换成知识之后,以知识形式输出的产品或服务,如百科全书、语料库、领域本体、知识库、规则库等。
- 智慧类产品
将数据转换成智慧之后,以智慧形式输出的产品或服务,如决策支持数据洞见、数据业务化、数据驱动等。
5.2.3层次性

- 内容类产品
以数据为载体的产品,即对输入数据进行一定的数据加工处理之后得到的结果,如新的数据库、知识库和语料库等
- 应用类产品
以数据密集型应用系统为载体的产品,如AP、网站或桌面应用等

- 服务类产品
以数据驱动型服务为主的产品,如咨询报告、解决方案及实施指南等。
- 决策类产品
以数据为中心的决策,主要指数据视角下的战略规划、规章制度、洞见与行动等。
5.2.4增值性
将数据科学家的3C精神融入数据产品开发活动之中,进而实现数据产品的增值。
-
创造性地工作
-
批判性地思考
-
好奇性地提问
增值活动
- 数据对象的封装
将数据内容及其元数据封装成“数据对象”
例如, Google将网络爬虫收集的数据内容、来源、点击率、用户评价等元数据封装成一个“数据对象”, 并以搜索结果的形式提供给用户。
- 数据系统的研发
在数据对象的封装基础上,开发出特定的软件系统(如 Google翻译)、硬件系统(如 Google眼镜)或基础设施(如 Google Mapreduce、 Big Table GFS等)。
- 集成应用
在开发特定数据产品的基础上,将多个数据产品(如软件系统、硬件系统、基础设施)进一步集成为新产品。
- 辅助服务
在数据、软件系统、硬件系统、基础设施的基础上,还可以提供辅助服务类数据产品。
Google Docs、委托开发、委托维护、外包等
- 衍生服务
例如,第三方机构针对 Google的集成服务和辅助服务,提供的市场咨询、决策支持、数据的深度开发等衍生服务。

5.3关键活动
5.3.1基本原则

数据是数据产品开发的原材料。(数据科学家的)智慧是数据产品开发的主要增值来源。・(用户的)体验是数据产品的主要评价指标
5.3.2活动要素
创造性设计、数据洞见、可视化、故事化描述、虚拟化、按需服务、个性化服务、安全与隐私保护、用户体验、政策分析。
5.4数据柔术
指将“数据”转换为“产品”的艺术。
数据产品开发的难点在于“如何借助目标用户的力量来解决数据产品中的难题”
强调:是产品开发要有较高的艺术性;二是以目标用户为中心的产品开发。
5.4.1引入设计思维
以某个数据产品中的输入框一一用户的毕业院校为例
-
下拉列表
-
单选按钮
-
智能提醒
当用户开始输入时系统智能地动态提醒相关学校名称
- 其他解决方案
5.4.2支持人机协同
在数据产品的开发中应重视人与计算机的不同优劣势,必要时采取人机协同方式进行数据处理。
e.g.亚马逊的一款数据产品 Amazon Mechanical Turk
在数据产品的开发初期,可以采取基于人的数据处理模式,当数据产品相对成熟或获得用户认可时,逐渐引入计算机自动化处理技术

5.4.3善于留住用户
-
用户的“中途离开”是数据产品消费中最常见的问题之一。
-
亚马逊数据产品一“其他商家( Other Sellers)”
在此 Other Sellers选项卡中,列出了正在出售该图书的其他商家及最低市场价格,其用意在于用户不会为了收集其他商家的数据而离开该产品的页面。
5.4.4“顶天立地”的产品设计
-
既需要一定的创造性、引导用户行为和引领未来的特点,又要结合用户的实际需要,满足用户的实际需求。
-
Linkedin
你可能认识的人们( People You May Know)
当人们在会议接待处报到时,往往喜欢去寻找自己可能认识的参会者是否也在报到处或已经报到。
5.4.5数据,取之于民,用之于民
-
取之于民,用之于民”,将用户产生或留下的数据,“以恰当的方式馈赠给用户”。
-
如果数据产品简单地将用户产生的数据反馈给他们,很容易造成另一个问题一一“数据恶心”。
-
Linkedin以一款数据产品“你的观众是谁(Who s viewed your profile)”的形式将用户产生或留下的数据返还给用户,进而确保较高的用户体验
5.4.6避免导致“数据恶心”
-
数据产品的开发必须有效结合目标用户的需求与体验
-
逆向交互定律( Inverse Interaction Law)
平台提供的数据超过一定规模后,产生的用户交互会越少
- 避免“数据恶心”的有效方法之一是使数据产品开发活动尽量聚焦在“数据的可操作性”一一需要给用户提供哪些操作?这些操作是否是用户真正需要的?用户的操作体验如何?
5.4.7预估可能产生的“副产品”或“负面影响”
5.4.8正确处理查全率、查准率和响应时间之间的关系
- 搜索引擎中的返回结果。可以采取“响应时间优先”策略,做到快速显示搜索结果的目的。
- 搜索引擎中的餐饮类广告信息。采取“査准率优先”策略,根据用户搜索的关键字和地理位置推荐有针对性的广告
- 搜索引擎中的图书类广告信息。可以采取“査全率优先”策略,尽可能地提供与目标用户输入的关键字相同的图书。
5.4.9重视用户认知行为的主观性
-
应注意用户认知行为的主观性一错误或负面信息往往更容易被目标用户感知,并对整个数据产品产生错误的认知
-
数据产品的设计中应重视“最坏的结果”对整个产品的影响“最坏的结果”对目标用户的主观认识所产生的消极作用往往大于“最好的结果”的积极作用。
5.4.10招募更多的用户,获得有效的数据
实现精准推荐或协同过滤的目的,进而避免数据产品中“最坏的结果”所导致的颠覆性负面影响
5.4.11预见失败及确保良好的用户体验
Facebook的广告系统较好地解决了“如何在产生失败的推荐时还能确保较好的用户体验”的问题。当用户认为 Facebook推荐的广告为“失败”的广告时,用户不仅可以隐藏该广告,而且还可以填写“为什么这个广告是失败的广告”,
5.5数据能力
5.5.1容易混淆的术语
- 数据管理( Data Management)
数据获取、存储、整合、分析、应用、呈现、归档和销毁等各种生存形态演变的过程(来源:国家标准《信息技术服务治理第5部分数据治理规范》(GB/T34960.5-2018))
- 数据治理( Data Governance)
数据资源及其应用过程中相关管控活动、绩效和风险管理的集合(来源:国家标准《信息技术服务治理第5部分:数据治理规范》(GB/T34960.5-2018)
- 数据处理( Data Processing)
数据操作的系统执行(来源:国家标准《信息技术大数据术语》(GB/T352952017)
- 数据战略( Data Strategy)
组织开展数据工作的愿景、目的、目标和原则(来源: 国家标准《数据管理能力成熟度评估模型》(GB/T36073.5-2018))
- 数据架构( Data Architecture)
数据要素、结构和接口等抽象及其相互关系的框架(来源:国家标准《信息技术服务治理第5部分,数据治理规范》(GB/T34980.5 2018))
- 数据生存周期( Data Lifecycle)
将原始数据转换为适用于行动的知识的一组过程(来源:国家标准《信息技术大数据术语》(GB/T35295-2017)
- 元数据
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存储路径、访问权和数据易变性的数据。
- 数据元( Data Element)
由一组属性规定其定义、标识、表示和允许值的数据单元(来源:国家标准《信息技术元数据注册系统(MDR)第1部分:框架》(GB/T 18391.1--2009))
- 主数据( Master Data)
组织中需要跨系统、跨部门进行共享的核心业务实体数据(来源:国家标准《数据管理能力成熟度评估模型》(GB/T36073.5-2018))
5.5.2评价方法
(1)分类
-
评价结果(结果派)
-
评价过程(过程派)
根据软件工程等领域的经验,质量评价和能力评估中通常采用过程派的思想
在数据科学中,数据能力的评价也采取过程评价方法
(2)典型的数据能力评价方法
数据管理成熟度( Data Management Maturity,DMM)模型

1.关键过程域
关键过程是一系列为达到某既定目标所需完成的实践,包括对应的工具、方法、资源和人
数据战略( Data Strategy)、数据治理( Data Governance)、数据质量( Data Quality) 数据操作( Data Operation)、平台与架构( Platform& Architecture)和辅助性过程 (Supporting Process)

数据战略:组织机构科学管理其数据资源的重要前提
数据治理:确保数据战略利执行的必要手段
数据质量:组织机构数据管理的主要关注点,要求数据管理中的输入数据和输出数据的质量必须达到当前业务需求与未来战略要求
数据操作:组织机构数据管理的具体表现形式,需要明确定义组织机构的数据操作规范,并予以监督和优化。
平台与架构:组织机构数据管理的必要条件,为数据战略的实现提供统一的架构设计和平台实现。
辅助性过程:在其数据操作、平台和架构等关键过程域中扮演辅助性作用,具有不可或缺的地位。

2.成熟度等级
从低到高依次为:已执行级、已管理级、已定义级、已测量级、已优化级

(1)已执行级( Performed Level):组织机构只有个别项目的范围之内“执行”了DMM 给出的关键过程,但缺乏机构层次的统筹与管理
(2)已管理级( Managed Level): 组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一“管理”了其数据管理关键过程
(3)已定义级( Defined Level):组织机构已经明确定义了自己的“标准关键过程”。其主要特点如下。
(4)已测量级:( Measured Level)组织机构已用“定量化”的方式管理其关键过程的执行过程。其主要特点如下。
(5)已优化级( Optimized Level):组织机构的数据管理关键活动能够根据组织机构自身的反馈以及外部环境的变革进行动态“优化”。
3.成熟度评价
SEI建议的 IDEAI模型

5.6数据战略
数据战略( Data Strategy)是一个组织机构的数据管理的愿景、目标以及功能蓝图的统管理
5.6.1需要注意以下基本问题
1.数据战略的定位

2.数据战略的目标
根本目的是定义一个“数据驱动型组织”或培育“数据驱动型文化”,将数据作为组织机构决策活动的驱动因素,增强组织机构的敏捷性,进而提高组织机构的核心竟争力
3.数据战略的侧重点

4.数据战略的范畴
-
不仅仅要考虑组织机构的当前业务需求,更重要的是综合考虑潜在风险与未来需求
-
数据的安全与质量风险是数据管理中的两个重要潜在风险

- 数据战略可以针对国家、地区、机构、部门等不同层次制定

5.7数据治理
-
数据治理( Data Governance)可以理解为对数据管理的管理
-
数据管理的是指通过管理“数据”实现组织机构的某种业务目的。然而,数据治理则指如何确保“数据管理”的顺利、科学、有效进行。

5.7.1主要内容
主要工作重点
- 理解自己的数据。
明确其特征、类型、趋势、风险及价值;其次,进行安全等级划分,定义组织机构的主数据管理。

- 数据干系人的识别与分析
明确组织机构的数据管理中各干系人,包括数据的生产者、采集者、保管方、利用者及间接利益相关方。
- 数据部门的设立
需要设立专门的统一指挥部门,负责组织机构数据管理工作,并明确其职责,在不同数据干系人之间建立有效沟通渠道。
- 行为规范的制定
需要针对组织机构的不同业务的特殊性,明确给出较为详细的数据管理规范,例如文档模板、数据词典、撰写文档要求等。主数据管理、商务智能、数据洞见是数据管理规范的重点内容
- 数据管理方针和目标的确定
数据治理工作应按照组织机构数据战略的要求,定期地制定和更新阶段性数据管理的方针与目标,确保组织数据管理的有效执行。
- 岗位职责的定义
需要明确定义数据管理中的各参与方的岗位职责,预防各种潜在风险,并设立责任倒机制和弥补措施。
- 应急预案与应急管理
需要明确规定各种可能的紧急事件及其具体应对方案。
- 等级保护与分类管理
组织机构数据治理应对其数据、人员、技术、设备进行分类管理,并根据其安全和保密要求进行等级保护
- 有效监督与动态优化
组织机构数据工作必须建立有效监督机制,并根据监督中发现的问题与风险,不断优化其数据管理工作。
5.7.2基本过程
是一种循序渐进的过程,主要包含计划(Plan)、执行(Do)、检査( Check)和改进( Action)等基本活动
- DGI数据理框架
DGI认为数据治理是对数据相关的决策及数据使用权限控制的活动
是一个信息处理过程中根据模型来执行的决策权和承担责任的系统,规定了谁、可以在什么情况下、对哪些信息做怎样的处理
DGI数据治理框架是用于分类、组织和传递复杂企业数据的逻辑框架

数据治理任务:主动定义或序化规则。为数据利益相关者提供持续的,跨职能的保护和服务。应对并解决因不遵守规则而产生的问题
5.8数据安全、隐私、道德与伦理
1.数据安全
- 数据安全不仅是技术问题,而且还涉及管理问题
将数据安全放在组织机构的数据战略、数据治理和数据管理之中进行统一管理,应重视安全管理制度建设、安全机构设置、人员安全管理、系统建设管理和系统运维管理
不能忽略对内部人员的信息安全教育和管理,应提升其信息安全意识与能力。
-
除了数据保密一数据的机密性( Confidentiality)之外,数据安全还包括完整性( Integrity)、可用性( Availability)、不可否认性( Non-repudiation)、鉴别( Authentication)、可审计性( Accountability)和可靠性( Reliability)等多个维度
-
数据安全也并不是独立存在的,一般与其对应信息系统的安全密切相关
国家标准《信息系统安全等级保护基本要求(GB/T22239-2008)》

2.数据偏见
常见的数据偏见
- 数据来源选择偏见
在数据来源的选择上,如果不做预调研和试验研究,仅仅用自己的常识或直觉选择数据来源时,经常会出现此类偏见,比较著名的是幸存者偏见( Survivorship Bias)。
- 数据加工和准备偏见
在数据加工和准备过程中,有的数据工作者偏向于将数据加工成对自己的观点(或研究结论、研究假设)有利,过滤掉那些与自己的观点不一致的数据,表面上看在用数据证明自己的观点,实际上在找对自己观点有利的片段数据。
- 算法和模型选择偏见
算法和模型选择偏见的存在使得数据工作者不去学习新的算法和模型, 习惯于套用自己擅长的算法、模型,导致“以不变应万变”所带来的盲目性。
- 分析结果的解读和呈现上的偏见
在解读数据科学项目的最终结果时,数据工作者需要避免各种偏见的出现,如过拟合或欠拟合现象的出现、根据自己的爱好(而不是目标用户的爱好)进行数据可视化、根据自己的主观偏见(而不是忠于数据本身)进行数据解读与呈现,以及根据自己想要的结论修改数据或数据分析过程等。
3.算法歧视
算法歧视是指算法设计、实现和投人使用过程中出现的各种“歧视”现象
4.数据攻击
谷歌炸弹( Google Bomb)
5.隐私保护
隐私保护需要遵循相关的法律法规和伦理道德的要求。

浙公网安备 33010602011771号