《大数据时代》读书笔记
大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发……
大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样。 某个特别现象相关的所有数据,而不再依赖于随机采样。“样本=总体”
例如:从未来的审计视角来看,上市公司应该赋予审计师更大的访问权限,不再局限于交易样本,而是扩展至全部的总分类账和数据库[1]。
第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。
第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。
读书到这里,忽然想到应该看政府部门对大数据时代的意见:
《国务院关于印发促进大数据发展行动纲要的通知》说到主要任务[2] :
  (一)加快政府数据开放共享,推动资源整合,提升治理能力。
  
  ……
  
  6.形成大数据产品体系。围绕数据采集、整理、分析、发掘、展现、应用等环节,支持大型通用海量数据存储与管理软件、大数据分析发掘软件、数据可视化软件等软件产品和海量数据存储设备、大数据一体机等硬件产品发展,带动芯片、操作系统等信息技术核心基础产品发展,打造较为健全的大数据产品体系。大力发展与重点行业领域业务流程及数据应用需求深度融合的大数据解决方案。
  
  7.完善大数据产业链。
  
  (三)强化安全保障,提高管理水平,促进健康发展。
大数据时代的思维变革
  数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。
让数据发声
  小数据的随机采样,最少的数据获得最多的信息 。采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量 的增加关系不大。的增加关系不大。
大数据是指不用随机分析法这样的捷径,而大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
允许不精确
  不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。
大数据基础上的简单算法比小数据基础上的复杂算法更加有效。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。 大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
例如:麻省理工与通货紧缩预测软件。
麻省理工学院(MIT)的两位经济学家,阿尔贝托·卡瓦略(Alberto Cavell)和罗伯托·里哥本(Oberto Rigobon)就对此提出了一个大数据方案,那就是接受更混乱的数据。通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。收集到的数据很混乱,也不是 所有数据都能轻易进行比较。但是把大数据和好的分析法相结合,这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。
值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据 的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
纷繁的数据越多越好
  传统的商业职能,“一个唯一的真理”这种想法已经彻底被改变了。现在不但出现了一种新的认识, 即“一个唯一的真理”的存在是不可能的,而且追求这个唯一的真理是对注意力的分散。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
例如:在某个记录手机号码的域中输入一串汉字。传统的关系数据库是为数据稀缺的时代设计的,所以能够也需要仔细策划。在那个时代,人们遇到的问题无比清晰,所以数据库被设计用来有 效地回答这些问题。
据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一 个从未涉足的世界的窗户。
不是因果关系,而是相关关系
  亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。
相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患 了流感。
相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。
例如:流程优化后的数据,营业销售套餐销售额、利润的变化…
中医、西医的对比,就是相关性、允许不精确的体现。
在哲学界,因果关系是否存在,因果关系与自由意思相对立。
快速思维模式,用因果关系看待周围世界;
  父母经常告诉孩子,天冷时不戴帽子和手套就会感冒。然而,事实上,感冒和穿戴之间却没有直接的联系。有时,我们在某个餐馆用餐后生病了的话,我们就会自然而然地觉得这是餐馆食物的问题,以后可能就再去这家餐馆了。事实上,我们肚子痛也许是因为其他的传染途径,比如和患者握过手之类的。然而,我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系,因此,这经常导致我们做出错误的决定。
  
  与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了理解误区之中。就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。
慢性思维模式
即使是我们用 来发现因果关系的第二种思维方式——慢性思维,也将因为大数据之间的相关关系迎来大的改变。
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的 事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一 步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系 中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。
大数据时代的商业变革
数据化:一切皆可“量化”
  量化一切,数据化的核心。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
复式记账法通常被看成是会计业和金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。 它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读 懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记 账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的 技术人才们应该学习的。
 
                    
                
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号