[读书总结]大数据时代

引言 一场生活、工作与思维的大变革
总结:作者通过举出事实例子,告诉我们一个全新的时代已经到来,这个时代它不是快要或者就要而是已经到来 (以2010年以前来看)。大数据时代最鲜明的标签便是

1. 更大(more comprehensive)
2. 更杂(more complex)
3. 更好 (focus on relationship)

掌握了大数据便是掌握了一枚打开未来世界的钥匙。没有接受改变没有准备改变的人注定是要被淘汰的。
第一部分 大数据时代的思维变革
01.更多
  所谓更多,指的是更加全面,样本=全体。巨细无遗的包含所有的数据。以传统的抽样统计作对比,指出传统的抽样统计只是一种捷径,而这种只关注点从而推出面的方法是因为时代局限所导致。传统的采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大,所以当样本数量到达了某个值之后,我们从新个体身上得到的信息越来越少,当收集和分析数据都不容易时,随机采样就成为应对信息采样困难的办法。这使得随机采样成为采样统计的新方法并快速的普及。但是,这不过是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在着许多固有缺陷。
  1. 它的成功依赖于采样的绝对随机性但是现实采样的随机性非常困难。一旦采样过程中存在任何的偏见,分析的结果就会相差甚远。以调查民调为例子,如果只考虑到固定电话就会面临采样缺乏随机性的问题,因为没有考虑到移动电话的用户,没有考虑到这些用户自然得不到正确的预测。
  2. 随机采样不适合考查子类别的情况。因为一旦继续细分随机采样的结果的错误率会大大增加。假设完全随机的选取1000人来代表全民民调,当把这1000人以性别、地域、和收入进行细分时就不可能通过“东北部的富裕女性”细分出的几十个人来代表整个“东北部的富裕女性”选民的意愿。而且,一旦采样过程中存在任何偏见,在细分领域所得到的预测就会大错特错。因此,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域就失去了作用。
  3. 随机采样也需要严密的安排和执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题,而且随机采样的结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。
02.更杂
  在随机采样中,收集的信息有限意味着细微的错误会被放大,甚至影响到整个结果的准确性,所以随机采样会致力于减少错误,保证质量。但是,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点而非缺点。因为放松了容错标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。大数据时代追求数据的精度是很难实现的,所以接受错误接受混乱才能加大处理数据的规模和能力。
在自然语言处理领域中的翻译,一组词通常会有多种可能的意思,在特定的语境下会有特定的意思。毕竟,翻译不仅仅只是记忆和复述,也涉及选词,在这种情况下明确的教会电脑这些是非常不现实的。以法语中的“bonjour”为例子,它的意思就一定是“早上好”吗?有没有”今天天气不错“、"吃了吗”或者“喂”?事实上都有可能。
  20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇想比,他们试图让计算机自己估算一个词或者词组适合用于翻译另一种语言中一个词和词组的可能性,然后再决定某个词和词组在另一种语言中对等词和词组。于是20世纪90年代,IBM这个名为Candide的项目花费了大概十年的时间,将大约有300万句之多的加拿大会议资料翻译成了英语和法语并出版。由于是官方文件,翻译的标准就非常高。看来计算机翻译能力在短时间内就提高了很多。然而,在这次飞跃之后,IBM公司尽管投入了很多资金,但取得的成效不大。最终,IBM公司停止了这个项目。
  2006年,谷歌公司也开始涉足机器翻译。这被当做实现“收集全世界的数据资源,并让人人都可以享受这些资源”这个目标的一个步骤。谷歌开始利用一个更大更繁杂的数据库,也就是全球互联网。它会接收各种各样的数据,不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。而相较于同类翻译,谷歌的翻译质量相对而言还是最好的。而谷歌的翻译之所以更好并不是因为它有一个更好的算法机制,这是因为谷歌翻译增加了各式各样的数据。从谷歌的例子来看,他之所以能比IBM的Candide系统多利用成千上万的数据,是因为他接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自互联网的一些废弃的内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。
从某种意义上,谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且,它也没有详细的人工纠错后的注解。但是,谷歌的语料库是布朗语料库的好几百万倍大,这样的优势完全压倒了缺点。大数据基础上的简单算法比小数据基础上的复杂算法更加有效,而其中的关键便是混杂
03.更好
  在大数据时代,我们很难去一个个去探究数据背后的原因,所以我们应当把视角中心放在相关关系上。相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会增加,相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。但是严格的来讲,即使没有相关性,另一个数据值的也可以大幅变化,只是没有趋势可寻罢了。所以,寻找相关关系来分析一个现象,只是可能性,并不是绝对的。就像证实学家*纳西姆·尼古拉斯·塔勒布* (Nassim Nicholas Taleb)所言,

我们可能只是“被随机性所愚弄”而已。

  利用相关关系进行分析的关键便是寻找关联物,通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是通过找出新种类数据之间的相互联系来解决日常需要。比方说,一种被称为预测分析法的方法就被广泛的应用。它可以预测事情的发生,这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛的采用这种方法来确保它们看好的歌曲真的会流行;也可以指那些防止机器失效和建筑倒塌的方法。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被用来记录发散的热量、振幅、承压和发出的声音等。
  一个东西要出现故障,不会是瞬间的,而是慢慢地出现问题的。通过收集所有的数据,我们可以预先捕捉到事物要发出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明他们可能要出故障了。系统把这些异常的情况与正常的情况进行对比,就会知道什么地方出了毛病。通过尽早的发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。在大数据时代,分析现象背后的原因已经无关紧要了,在现代化的工厂中布满了各种传感器。因为一旦设备的某个零件有问题,就只有在更换了零件之后生产才能运行。收集和分析数据的花费可比出现停产的损失小得多。预测性分析并不能解释故障可能发生的原因,只会告诉你存在什么问题。也就是说它并不能告诉你引擎过热的原因是为什么,磨损的风扇皮带?没拧紧的螺帽?没有答案。为什么?因为这些“鸡皮蒜毛”的小事情都是不可直接预料甚至不可避免的,所以在大数据时代就没有去追求其背后原因的必要了,注重效率解决问题,利用相关关系预测“结果”,而不是一味的追根溯源顺腾摸瓜式的找到“原因”。
第二部分 大数据时代的商业变革
04.数据化
  “数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。而,数据化——这是指一种把现象转变为可以制表分析的量化形式的过程。 量化的目的就在于增加一切获取数据的方法。 当把万事万物皆数据化后,便会激发出前所未有的潜力。
  当文字被数据化后,便能揭示出一个词以及词组第一次出现的时间以及成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。当文字变成数据,它就大显神通了——人可以用之阅读,机器也可以用之分析。
  当方位变成数据,便可揭示出原先所不存在的新分析法,随着汽车装上了无线电传感器,地理位置信息的数据化深刻的变革了保险的概念。这些数据提供了关于时间、地点和实际行驶路程的详细信息,使保险公司更好的为车险定价。数据化实时位置信息在人身上的运用最为显著。多年来,无线运营商通过分析收集这些信息来提升移动互联网的服务水平。不过,这些数据越来越被第三方来利用。比方说,一些智能收集的应用程序也不管它本身是否具有定位功能,就收集位置信息;还有一些应用程序就是为了获得用户的位置信息而存在的。
  当沟通变为数据,社交软件公司便可利用数据创造新的价值。一些消费者信贷领域的创业公司正在考虑开发以Facebook社交图谱为依据的信用评分。FICO,信用评分系统,利用15个变量来预测单个借贷人是否有能力去偿还一笔贷款。一家贷款公司的内部研究显示,个人会偿还贷款的可能性和其朋友会偿还贷款的可能性呈正比。正应了一句老话:

 物以类聚,人以群分。

因此,Facebook也可以成为下一代FICO。
有了大数据的帮助,我们不会再将世界看作是一连串我们自认为是自然或社会现象的事件,我们会意识到本质上世界是由信息构成的。将世界看作是信息,看作可以理解的数据的海洋,为我们提供了一个未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。

posted @ 2020-07-10 20:50  是潮汐呀  阅读(163)  评论(0)    收藏  举报