大数据概述
1.试述大数据对思维方式的重要影响。
根据维克托·迈尔·舍恩伯格的说法,大数据时代最大的转变就是思维方式的三种变化:全样而非抽样、效率而非精确、相关而非因果。
1.全样而非抽样
在过去由于受到了处理能力的限制,在科学分析中,通常采用抽样的方法对样本数据进行分析来推断全集数据的总体特征。数据是要在可控制代价范围内实现数据分析的目的。现在,我们已经迎来了大数据时代,大
数据技术的核心就是海量数据的存储和处理,有了强大的存储能力和处理能力,科学分析可以直接针对全集而非抽样的方式进行分析,并且可以在短时间内迅速得到分析结果。
2.效率而非明确
过去,我们在科学分析中采用抽样分析方法,就必须追求分析方法的精确性,可能选错了样本就导致了巨大的误差,但样本代替全集也是存在误差的,因此,为了保证误差被放大到全集数据时仍然处于可接受范围,
就必须要确保数据的精确度。就因如此传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。而大数据分析由于是全集数据分析,就不怕有误差放大的问题,因此追求数据精确性已经不再是
首要的目标了;相反,大数据时代具有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的价值,因此,数据分析的效率就成为关注的核心。
3.相关而非因果
过去,数据分析的目的,一方面是解释事物背后的发展机理,比如,一个大型超市在某个地方的连锁店在某个时期内净化利润下降很多,这就需要IT部门对相关销售数据进行详细分析找出发发生问题的原因;另外
一方面是用于预测未来可能发生的事件,比如,通过实时分析微博数据,当发现人们对雾霾的讨论明显增加时,就可以建议取消销售部门增加口罩的进货量,因为人们关注雾霾的一个直接结果是,大家会想到购买一
个口罩来保、护自己的身体健康。不管是哪个目的,其实都反映了一种 “因果关系”。比如。我们去淘宝网购物时,当我们购买了一个汽车防盗锁以后,淘宝网还会自动提示你,与你购买相同物品的其他客户还购买了
汽车坐 垫,也就是说,淘宝网只会告诉你 “购物买汽车防盗锁” 和 “购买汽车坐垫” 之间存在相关性,但并不会告诉你为啥其他客户购买了汽车防盗锁以后还会购买汽车坐垫。
2.详细阐述大数据、云计算、物联网之间的区别与联系。
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。云计算最初主要包含了两类含义:一类是以谷歌的GFS 和 MapReduce 为代表的大规模分布式并行计算技术;另一类
是 以亚马逊的虚拟机和对象存储为代表的 “按需租用” 的商业模式。但是,随着大数据概念的提出,云计算中的分布式计算技术开始更多地被列入大数据,而人们提到云计算时,更多指的是低层基础IT资源的整合优化
以及 以服务的方式提供IT资源的商业模式(如IaaS、PaaS、SaaS)。从云计算和大数据割裂开来作为截然不同的两类技术看待。此外,物联网也是和云计算、大数据相伴相生的技术。
第一,大数据、云计算和物联网的区别。大数据侧重于海量数据的存储、处理与分析,从海量数据中发现兼职,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给
用户;
第二,大数据、云计算和互联网的联系。从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式数据存储和管理系统(包括分布
式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架 MapReduce 提供了海量数据分析能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。反之,大数据为云计算提
供了“永无之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方
式的变革,即由于人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助云计算和大数据技术,实现物联网大数据的存储、分析和处理。
总结,云计算、大数据和物联网三者已经彼此渗透、相互融合,在很多应用场合都可以同时看到三者的身影。在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域中。
3.简述你对大数据应用与发展的看法,以及你在这次大数据浪潮中想扮演什么角色。
大数据时代的到来,所有人或物都卷入了其浪潮中,这是信息发展的趋势。其中,大数据时代可以说有利也有弊,这在乎于在和人中使用,这和别的事物、理论等大同小异,所以我们需要将其的利放大化,缩小其
弊。谈及到大数据,可以用四个层面来概括:1.数据量大 2.数据类型繁多 3.处理速度快 4.价值密度低。那么说这四个层面有何用呢,那当然是这四个层面决定了大数据本身的应用与发展了。首先数据量大意味着它可
以处理和存储大量的数据,便于对数据全面的分析,可以应用于科学研究,再且,数据类型繁多,证明它是个“万金油”,各行各业都可以运用,使用的范围广泛,也就是说其利用价值高,必定会有更好的人员去研究
和发展大数据,也就会使得越来越多的应用使用大数据。处理速度快可以跟进一些需要短期做出总结的项目,例如在搜索引擎上运用,可以有秒级响应的速度,提高用户的体验。最后是价值密度低,是一个缺点,由
于大数据的技术还不是很普及,换句话说专业人员不多,而且购买相关设备的费用昂贵,一般的中小型企业没有资金购买,从而应用的广泛性会降低。所以当务之急要想发展大数据应用,将其普及各行各业,必定先
让技术变得越来越成熟,设备的需求资金降低,相关的技术人员增多。
我想在这次大数据浪潮中扮演一个受益者的角色,利用大数据可以帮助我知道路面的状况,选择最好的出行路径,知道什么时候预防大范围的流行病,选取一份比较好的工作,寻找出比较好的学校网站,好的购物平
台等等。利用大数据改变我的生活,但并不意味着所有事情都采用,在涉及一些隐私信息时还是敬而远之,免得热火上身。总之大数据有利也有弊,需要看你怎么去使用,有时候过度、过界使用它只会物极必反。