随笔- 554  评论- 836  文章- 21 

读书笔记2013第12本:《大数据时代》

最近大数据火了,还经常听到Hadoop和Mapreduce,我经常勘探地震资料处理后的地震数据体,动不动几十个G,算不算大数据?好像与现在说的这个大数据概念相差太远,就一直想了解一下这个大数据到底是什么含义。从SUN那里借来《大数据时代》读了一读,明白了不少基本概念和示例,与我们的数GB的地震数据体不是一回事,想把大数据应用于石油行业,看来还得琢磨琢磨。

《大数据时代》这本书的章节划分非常清晰,主要讲了思维、商业和管理方面的变革,每一章有一个关键词和一句话来总结概括,关键的是里面有大量的例子来阐述大数据的应用。

大数据时代

第一部分 思维变革

1 更多

不是随机样本,而是全体数据

以前由于技术的局限性,只能进行随机抽样进行统计学分析,而现在可以获得更多的数据,所以现在的样本就是总体数据,即样本=总体。

大数据中的“大”不是绝对意义上的“大”。几GB的数据不一定算大数据,而不到1GB的数据也可以算大数据,比如64000场所有摔跤比赛的记录也可以算是大数据,因为它代表的是所有的比赛数据。

例:Xoom跨境涉汇款异常交易报警

例:摔跤比赛中的消极比赛

2 更杂

不是精确性,而是混杂性

以前花大量的精力关注数据的绝对精确性,而现在要学会拥抱混乱。

例:语法检查算法。简单的算法,当语料库增加后,准确率会提高。

例:谷歌翻译。利用了950亿句英语。

译者注:淘宝消费物价指数,淘宝CPI,iSPI(Internet Shopping Price Index)。

传统的数据库是为数据稀缺的时代设计的,这类结构化的数据只占5%左右,而95%的都是非结构化数据,现在需要更好地利用这些混杂的数据。

3 更好

不是因果关系Causality,而是相关关系Correlation

人类有探求因果关系的欲望,而大数据分析能得到某些相关关系,而这种关系一般是洞察不出来的。

在这种情况下,可能知道是什么就够了,没必要知道是为什么。

通过大数据分析,可以捕捉现在,预测未来。

译者并不认同该观点,可能是当前机器学习算法的无奈之举。

例:亚马逊的推荐系统

例:沃尔玛,把蛋挞与飓风用品放在一起

例:零售商与怀孕预测

例:UPS与汽车修理预测

例:早产儿病情预测

例:纽约沙井盖爆炸预测

(后来读到《思考的乐趣----Matrix67数学笔记》的第4章时知道有很多相关性是虚假的相关性,冰淇淋销量增加,鲨鱼食人事件也会同时增加,但并不意味着把冰淇淋销售点全部取缔了,就能减少鲨鱼食人事件的发生,真实情况只是因为夏天来了。) 

第二部分 商业变革

4 数据化

一切皆可“量化”

数字化:把模拟数据转换成用0和1表示的二进制码

数据化:把一种现象转变为可制表分析的量化形式的过程

T技术==>I信息

例:坐姿数据与防盗系统

当方位变成了数据,可以引出无数的创意,可以从当今的手机应用程序看到这种趋势

现实挖掘:通过处理大量来自手机的数据,发现和预测人类行为。

当沟通变成了数据:从社交网络的流行也可以看到这种趋势。

例:触感灵敏的地板,物联网?

并非原子,而信息才是一切的本源。

5 价值

“取之不尽,用之不竭”的数据创新

例:ReCaptcha与数据再利用。利用验证码完成图书扫描项目。

不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。

数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。

数据的基本用途可能只是冰山一角,还有许多潜在的价值隐藏在表面之下。

数据废气:它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。

公司所持有和使用的数据也应该纳入无形资产的范畴。

6 角色定位

数据、技术与思维的三足鼎立

大数据价值链:基于数据本身的公司、基于技能的公司和基于思维的公司(数据科学家)。

大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。

 

第三部分 管理变革

7 风险

让数据主宰一切的隐忧

大数据时代难以保护个人隐私。

8 掌控

责任与自由并举的信息管理

这章不感兴趣

posted on 2013-09-21 10:02 申龙斌的程序人生 阅读(...) 评论(...) 编辑 收藏