数据思维【MOOC】
001导论
大数据的特征
规模大(Volume)、类型多(Variety)、速度快(Velocity)、价值密度低(Value)
数据的结构
结构化数据:常见数据库存储的数据,Oracle、MySQL
半结构化数据:HTML、XML
非结构化数据:图像,文本,音频
数据的维度

数据科学的研究内容

- 基础理论:数据科学中的理念、理论、方法、技术工具等。
- 数据加工:为了提升数据质量、降低数据计算的复杂度,减少数据计算量并提升数据处理的精准度,需要对原始数据进行一定的加工处理工作——数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据归约和数据标注等。
- 数据计算:从集中式计算、分布式计算、网格计算等传统计算过渡到云计算
- 数据管理:如NoSQL、NEWSQL技术、关系云等
- 数据分析:如利用R语言和Python语言进行分析
- 数据产品开发:提升数据产品开发能力
数据科学的工作流程
- 数据生产
- 数据预处理:将原始数据转换为干净数据,一次数据、二次数据或三次数据。
- 探索性分析
- 数据分析与洞见
- 结果展现
- 提供数据产品
科学思维

统计思维

数据思维
大数据时代下的数据思维是一种收集、生产、处理大数据、发现大数据价值,并应用大数据来观察世界、思考问题、分析问题、解决问题的一种思维模式。

思维的比较

数据思维的特点
数据思维主要包括整体性(整体反映全貌)、量化互联性(一切皆可量化)、价值性(数据即价值)、动态性(动态多维多层)、相关性(泛在的相关性)和多样性(离不开多样性)六个方面的特点
002数据思维基础
数据思维的范式
- 实验科学范式
偏重于经验事实的描述和明确具体的实用性的科学;以归纳为主,带有较多盲目性的观测和实验;后发展为寻找因果联系的科学归纳法。 - 理论科学范式
指人类对自然、社会现象按照已有的实证知识、经验、事实、法则、认知以及经过验证的假说,经由一般化与演绎推理等方法,进行合乎逻辑的推论性总结。理论科学的主要研究模型是:数学模型理论科学偏重理论总结和理性概括,以演绎法为主,不局限于描述经验事实。 - 计算科学范式
侧重数据模型构建、定量分析方法以及利用计算机来分析和解决科学问题;计算科学的主要研究模型是:计算机仿真和模拟。 - 数据密集型科学发现范式
先有了大量的已知数据,然后通过计算得出之前未知的理论;第三范式是“人脑+电脑”,人脑是主角;而第四范式是“电脑+人脑”,电脑是主角。
科学认识论
传统:问题--》知识--》问题
现在:问题--》数据--》问题
科学行动范式
数据思维下的行动范式是对大数据创新活动的概括提炼,主要包括开放、采集、连接和跨界4种行动范式。
开放:开放是大数据得以存在和发展的首要条件和本质特性。
采集:尽可能采集所有数据,除了单位内部纵向不同层级、横向不同部门间的数据积累外,还应注重相关外部单位的数据储备,以实现创新应用所需数据全集的流畅协同。
连接:基于事物相互联系的观点,大数据建立连接应该放宽视野,营造应该多方共赢互利的数据应用生态体系,运维数据之间的连接越多,连接越快,越容易打通数据的价值链,发掘数据的价值。
跨界:跨界的关键要发挥数据的外部性,实现数据的跨域关联和跨界应用。
数据思维的特点
数据思维主要包括整体性(整体反映全貌)、量化互联性(一切皆可量化)、价值性(数据即价值)、动态性(动态多维多层)、相关性(泛在的相关性)和多样性(离不开多样性)六个方面的特点

数据思维的局限
大数据环境下,数据成为驱动经济和社会发展的“新能源”,并创造出更大的经济和社会效益。在这样的大背景下,“量化一切”、“让数据发声”成为时代口号,人们更加重视“全数据而非样本”的整体性思维。追求“量化而非质化”的量化思维,强调“相关性而非因果性”的相关思维。然而对数据思维各方面特性的过度强调,甚至摒弃传统思维,又产生一系列新的问题。其中最为突出的问题包括:全数据模式的幻像;量化思维的焦虑;相关性的过度崇拜。
全数据模式的幻像
随着各种传感器和智能设备的普及,能对十五实现实时的监测和数据的采集、传输、获取到事物的数据不只是样本数据,而是全部数据,这种模式被称为“全数据模式”,然而全数据模式在一个维度上容易,在多维度往往难以实现。并且,“数据孤岛”的客观存在,使“全数据模式”的实现受到一定的限制。要实现“全数据模式”,其重要的前提是实现数据开放和共享。
- 数据跨行业、跨部门流动仍未真正实现
- 数据交易市场的兴起在一个程度上加剧了“数据孤岛”的形成
- 企业对接速度慢、数据更新速度快,使“数据孤岛”问题突出
全数据分析之难
即使我们确实收集了所有数据并用技术对其进行分析,也只能把握点与点之间的关系,或者把握局部的相关性。但这不代表能获得事物发展的普遍性规律和趋势。数据的关键价值并不在于“大”和“全”,而是在于“有用”。全数据模式的追寻会造成这样两种错觉:只要能获取全部数据,就能挖掘更多的数据价值。或者:一定要获得全部数据,才能挖掘更多的价值,从而陷入“非全不可”的误区。
量化思维的焦虑
本体与方法的混淆:数据热潮提出“世界的本源是数据”的思想,数据与真实世界的关系认识有所偏失。
个人行为“被选择”:例如:基于大数据技术对人们行为、态度、相关等进行量化分析处理,能预测并帮助人们找到所谓的合适对象,我们是让渡自己的选择权还是遵循系统使我们“被选择”?
数据独裁:量化预测加剧“数据独裁”。数据化思维的核心是定量化,量化分析所做的成功预测,会进一步加剧人们对数据资产的依赖。然而数据的完整性以及真实性未必可查。
隐私与道德:“量化一切”使个人隐私进一步受到窥视,以至于你没有任何隐私可言,同时量化预测有时也有悖于道德伦理。
相关性的过度崇拜
大数据的核心思维之一是相关思维,但是相关思维在生活实践中也衍生出过度崇拜的问题,主要有以下几个原因:
(1)数据海量、杂乱,需借助相关性分析来获取事物间的关联性
(2)在高度复杂和高度不确定的时代背景下,挖掘事物间因果性的难度进一步加大,相关思维备受重视
(3)相关性分析更适合商业运行逻辑:只重形式不求原因
把握相关性的关键
(1)相关分析关键要找到“关联物”
(2)伪相关、虚假相关的客观存在是大数据分析的难点
数据思维的应用价值
大数据时代下数据思维的变革是大数据发展的必然结果,必将反过来影响着大数据的发展与应用。

- 加快数据资产化
数据已成为一种新的经济资产,成为国家基础性战略资源,日益对我们的经济运行机制、社会生活方式以及国家治理能力产生重要变革。就国家而言,掌握数据主权继消防、海防、空防之后另一个大国博弈的空间,没有数据安全就没有国家安全。就企业而言,数据资产成为企业存亡的关键因素。企业运用数据思维在发展中不断积累数据资产,通过对数据的分析及时洞察客户的需求,识别销售和市场机会、消费行为的变化。在人才的资源管理上,应用大数据的分析更加准确地预测人员配置需求,合理规划投入和产出比例,建立最佳合作团队,实现人员能力与岗位要求的匹配。
- 促进数据科学发展
大数据时代思维方式的变革引起人们改造世界方式的变革,数据科学的兴起成为科学发展的必然。
- 利于“数据政府”建设
建立“数字政府”,减少政府与服务对象之间的信息不对称,促进政府工作更加高效、透明与公平。思维方式的变革将有利于政府打破旧的思维模式,认识到数据开放对于提高政府决策,提升政府公信力的重要作用。
- 助力现代企业组织变革
大数据时代企业内部的边界开始模糊,以项目或问题为导向的团队合作成为企业组织的常态,企业从原来部门明确的分工走向团队合作;决策模式由原来的精英决策逐渐发展为数据驱动决策。同时企业的内部价值链也发生转变,传统的以企业资产和核心能力为中心的价值链向“以顾客为中心”的价值链转变
- 影响社会结构重组
大数据时代思维方式的变革直接影响到人们的行为模式,进而影响这社会结构的变革,人与人,物与物,人与物之间的联系不仅仅只是以往的依靠地域来发展了,更多的是基于互联网而形成的更广泛的联结。传统的社会组织与条块单元之间的边界越来越模糊,主席形成以价值观、文化、利益等为基础的社群组织,并重塑这人们的行为模式。人们更加倾向于利用互联网、大数据这种多元化、更加平等化的模式去参加社会活动。
数据思维的应用流程

提问:寻找关键因素,寻找差异,寻找关系,寻找特征,寻找奇异点
洞察:拆分方法参考:从整到分,从分到整;结构化问题拆解;相关问题转换;时空转换
执行:数据准备、数据探索、数据表示、数据发现、数据学习、创造数据产品
沟通:结果呈现,数据可视化

数据准备:包括数据读入和数据清洗,这一步的作用是将原始数据准备成便于后续步骤处理的数据集形式
数据探索:通过检索数据来找到有用的模式和隐藏规则,发现重要的变量特征,画出简单的图,以及识别出这批数据有什么有意思的信息以及确定之后的研究方向
数据表示:将各种原始变量数据,通过特定的计算机存储结构高效地转换存储在计算机的过程,在存储空间利用和之后的利用过程中都尽量达到最优化
数据发现:数据发现是提出假设、完成验证,从而从数据集中发现特定的规律和模式的步骤
数据学习:通过统计学和机器学习的方法在数据中找到有用的模式和规律,使找到的结论尽量地能被运用到更多的数据和实际生活中,并形成一个数据产品的雏形
创造数据产品:数据思维的最终目的是将之前的步骤中得到的结果开发成一个数据产品
数据思维的应用工具
(1)数据科学语言工具:常用的有R、Python、Clojure、Haskell、Scala等
(2)非关系型数据库(NoSQL)工具:常用的有NoSQL、MongoDB、Couchbase、Cassandra等
(3)传统数据库和数据仓库工具:常用的有SQL、RDMS、DW、OLAP等
(4)支持大数据计算的架构:常用的有Hadoop Mapreduce、Cloudera Hadoop、Spark、Storm等
(5)支持大数据管理、存储和查询的工具:常用的有HBase、Pig、Hive、Impala、Cascalog等
(6)支持大数据采集、聚合或传递的工具:常用的有Webscraper、Flume Avro、Sqoop、Hume等
(7)支持数据挖掘的工具:常用的有Weka、Knime、Rapidminer、SciPy、Pandas等
(8)支持数据可视化的工具:常用的有ggplot2、D3.js、Tableau、Shiny、Flare、Gephi、ECharts等
(9)思维导图编辑工具:常用的有Xmind、Mindmanager、MindMapper、iMindMap、百度脑图等
(10)数据统计分析工具:常用的有SAS、SPSS、Matlab等
003数据思维原理
熵的概念
熵是用来描述“能量退化”的物质状态参数,在热力学中有着广泛的应用。所谓体系越混乱,熵就越大。“信息熵”是指把熵作为一个随机事件的“不确定性”或信息量的量度,就是不确定性越大,信息量就越大,信息熵也越大。也就是说,“熵”是一个系统“内在的混乱程度”。
最大熵原理
在根据部分信息进行推理时,我们应使用的改了分布,必须是在服从所有已知观测数据的前提下,使熵函数取得最大值的那个概率分布。这是做出的仅有的无偏分布。使用其他任何分布,则相当于对未知信息做了任意性假设。
最大熵原理也称为最大信息原理,它为我们如何从满足约束条件的诸多相容分布中,挑选“最佳”、“最合理”的分布提供了应该选择标准。
最大熵原理可以用来解决随机性或不确定性问题。应用其解决问题的思路是:先将研究的问题转化为一个概率模型。重要,问题的随机性就表现为概率分布,问题的解决就归结为求一种最佳的概率分布,然后采用最大熵原理求出最佳分布。由此得到启发:凡是带有随机性的问题,都可以尝试用最大熵的方法加以解决。这就为一些优化、决策、预测问题的解决提供了新的途径和方法。
最小努力原理
一个人在解决问题时,要把这个问题放到他所考虑的整体背景中去。这样,当着手解决这个问题时,就会希望寻找一个途径,能把解决面前和将来可能出现的问题所付出的全部工作最少化。也就是说,一个人努力把他可能的平均劳动支出额降低到最低限度。
该理论认为,人们的各种社会活动均受此原则支配,总想以最小的代价获得最大的效益。换言之,人类行为总是建立在最小努力基础之上。这里的最小努力是指最少工作的变种。
最小努力原理的应用——齐夫定律
人类交流、获取信息和利用信息、知识、情报总是趋向简介、方便、易用、省力气。研究和揭示人类情报行为追求易用和省力的特征、规律可以使情报获取和情报服务的成本最小,效益最大。
齐夫发现较长文章中的一个规律:fr=c(f是频率,r是等级值,c是一个围绕中心值上限波动的常数)

齐夫定律子被视为文献计量学的基本规律。研究证实,齐夫定律不仅适用于自然语言,而且适用于人工语言,因而又被应用于情报的组织、存储和检索领域。例如:词汇控制于词表编制、自动分类于标引、情报组织等。
在人工智能领域之一的自然语言学习(NLP)中,齐夫定律就大有用武之地,比如:掌握一门语言最常用的1000词,就可以读懂该语言文章的80%。于是,研究词频分布对编制词表、编制情报系统、制定标引规则、分析著述引证关系、进行词汇分析于控制,都有很强的关系,今天,机器学习上的最常用的主题分析(LDA)、情感分析就经常用到词频统计。
信息生命周期理论
信息无论是以物理形式还是数字形式管理、其信息生命周期均包括信息的组成、获取、标引、存储、检索、分发、呈现、迁移、交换、保护与最后处置或废弃。
信息生命周期的研究对象是信息,其核心是对信息从产生到消亡整个生命周期过程中的运动与变化规律进行研究。
信息生命周期揭示了信息价值在时间上的变化规律。

对数透视定律
人类在获取和接收信息、知识和情报(指信息)的认知过程中,遵循对数转换机制。
S=klgR
S是由外部物理刺激引起的人的感觉量质,R是物理刺激量,如声音高低、光的强弱、颜色深浅等,K是常数。
这个定律说明在人类运用感官系统或神经系统进行认识的过程里,人的一切感觉,包括视觉、听觉、味觉等等,是与对应物理量的强度的常用对数成正比的,而非与对应物理量的强度成正比。在一定程度上较好地说明了知识、信息传递中随时间、空间、学科(领域)的不同呈现的对数变换。
产生对数透视的根本原因在于信息的功利性,一般来说,人们最关系、最重视的是与自己的切身利益有关的信息。因此,如果时间上、空间上、学科知识方面或经济利益方面,距离R越近,关系越密切,被重视的可能性就越大,信息的表现感觉也就越高。具体而言,是指人们更倾向在时间上寻求最新,在空间上寻求最近,在学科(领域)上寻求自己最擅长和最熟悉的领域获取知识与信息。
小世界现象
任何两个欲取得联系的陌生人之间最多只隔着6个人,就可以完成两个人之间的联系。
小世界现象实质上揭示的是人类信息联系和信息对象之间的相关性。简单来说,无论世界多么大,人口怎么多,分布多广、网络结构多复杂、节点数量如何巨大,都可以通过相关的信息达到最短的路径联系。
小世界效应的定义是:若网络中任意两点间的平均距离L随网络格点数N的增加呈对数增长,即L~lnN,且网络的局部结构上仍具有较明显的集团化特征,则称该网络具有小世界效应。
004数据思维模式
全数据思维——要全体不要抽样
在大数据时代,数据处理技术、时间成本和储存成本变得很低,我们可以对使用大数据进行研究和分析,利用相对简单的相关关系反映因果关系中包含的信息。把全数据作为对象进行研究分析,得出精准结论的概率更高,且更容易把握事物的全貌,也可以更好的还原事物间的联系。
全数据本质上是多源、异构、互证、互补的数据,是某一个系统范围内的所有是数据,甚至是跨越多个系统而存在的,是一个理论上的概念。全数据思维模式来构建研究对象的全面信息,勾勒研究对象的完整画像,探索分析对象之间客观联系的思维方式。
获取全样本数据的方法
网络获取:开放数据、爬虫爬取
合作协同:与拥有数据的一方合作,比如电商公司、电力公司、医院、政府部门、科研机构等
生产加工:赖于数据的生产思维,类似点评平台(大众点评、Yelp)、淘宝评论、应用UGC、Crowdsourcing思想从无到有创造与生产数据。或者进一步加工出上下游产业需要的数据,基于loT、重构数据采集指标,获得新鲜数据,推动组织转型升级,还可以对外提供销售、咨询、提供服务。
容错性思维——要效率不要精确
只有扩大数据研究范围,忽略数据的精确性而接受数据的混杂性,才能真正满足人类生产生活需求。数据的规模对研究结果的推动作用远高于数据的错误和混乱。当数据量达到一定的规模,混杂不可避免。如果分析的数据足够多、足够广,数据的错误和混乱便不再是问题焦点,无法影响和误导我们的研究方向和分析结果。
接受混杂就是接受海量数据,就意味着人们的数据研究达到了全新的高度,接受混杂的数据可以使我们更好地利用大数据,发掘其内在价值,监控、操作和掌控全局。
相关性思维——用相关理解因果
在大数据盛行的时代,因果关系并不能完全发现和解释诸多客观事物、客观数据之间的普遍关系,相关关系逐渐替代因果关系登上舞台。相关关系的核心是量化和研究两个或多个数据值之间存在的数理关系。可以直接从数据中挖掘事物间存在的某种联系,还可以直接从数据分析中来获得这种联系的具体方向和类型,无需假设求证,可以节约大量时间和精力。
正确的是利用相关关系对大量数据进行分析处理挖掘得出正确的结论,再利用因果关系深入探索其中的因果关系。
005数据生产
什么是数据生产?
数据生产是指数据从无到有的过程,也就是创造新数据或者以数据材料、原始数据为基础数据加工成为新数据或数据产品的过程。
数据生产的形式
形式一:用户主动参与,也就是UGC(User Generated Context,用户生产内容)
形式二:原始数据或数据材料经过加工、清洗、包装、质量控制、合规性审核等手段成为新数据或数据产品的过程。比如,淘宝用户评论数据,通过脱敏、脱密处理后,可以做成不同品类的用户评价数据,也可进一步细化分为期望产品、产品改进、产品分析等不同的数据集,为生产企业提供决策数据。
数据生产的案例
上海公布公厕地标数据,可方便通过搞得地图,百度地图查找。
数据生产的特征
数据生产的实时性
- 联网的设备每时每刻都在运作,在线的人们随时随地都可以生产数据。
- 以流文件数据、传感器数据和移动设备数据为代表的实时数据快速流动,速度成为大数据区分传统数据的重要特征。
数据生产的大时空 - 具有时空标记、能够描述个体行为的空间大数据。
数据生产的多场景 - 数据产生与使用呈现出多场景的特点
数据产生阶段
- 数据运营阶段:数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生西你的记录并存入库。比如,对于股市交易系统而言,只有发生一笔股票交易时,才会有相关记录生成。
- 用户原创内容阶段:数据的产生是自动生成的,强调数据从无到有,如微博等自服务模式为主,强调自服务,大量上网用户本身就是内容的生成这,促进数据量的增长。
- 感知生产阶段:物联网的发展,导致了人类社会数据量的第三次跃升。物联网包含大量的传感器,这些传感器将社会中的方方面面转化为源源不断地数据,为人类生活提供便利。与人工数据产生相比,物联网中的自动数据产生方式,将在短时间内根据所有这需要生成合规、全量、密集的数据,使人类社会迅速步入”大数据时代“。
![image]()

浙公网安备 33010602011771号