第一次大数据作业
1.为什么产生大数据技术?
我们生活中的各类物品也会产生数据,比如各种地理信息采集设备、传感器和摄像头等数据采集设备,这些物品虽然是由人类生产制造出来的,但是一经成型便成为世界中的独立存在物。这人机物三者的相互作用是大数据产生的根本原因。
2.为什么要学习大数据技术?
首先,学习大数据的原因就是大数据分析的采用率很高,现在很多公司都开始使用大数据这一技术,正如公司开始转向社交媒体品牌广告和客户参与一样,他们也开始转向数据分析。今天几乎不可能找到没有社交媒体的品牌。就数据分析适应而言也是如此。在不久的将来,每个公司都将需要数据分析专家。这使得它成为一个明智的职业生涯,实际上有一个未来的业务。因此,现在大数据的工作人员十分吃香。
其次,数据分析正在快于预期,曾经有一项调查显示,数据分析的速度要比预计的快得多。调查发现数据分析技术将在未来3年内寻找技术。因此,在未来十年中,数据分析工作可以说是一个铁饭碗。
3.简述大数据、云计算、物联网、区块链和人工智能的概念和相互关系。
(一)云计算
云计算可以被理解成一个系统硬件,一个具有巨大的计算能力、网络通讯能力和存储能力的数据处理中心(Internet Data Center,简称IDC)。数据处理中心本质上是大量服务器的集合,数据处理中心的功能、规模是以服务器的数量来衡量的。
上海在2015年有差不多30多万台服务器,为上海的2500万人的手机、电话机、电脑等提供后台服务。北京当时也有25万台。谷歌2015年在全世界运转的服务器有200多万台。截至2019年,阿里巴巴在中国境内有150万台服务器运转,有100万台正在安装。
最近,中国政府提出新基建,今后五年全中国至少会增加1000万台服务器。1000万台服务器不是装在一起,而是集中在一个个的数据处理中心。10万台服务器规模以上的数据处理中心就算是一个大型的数据处理中心。去年全世界一共有180个大型数据处理中心在建设中,也就是全世界有1800多万台服务器在安装建设中。数据处理中心的规模标志着云计算的功能服务能力。
(二)大数据
大数据之大有静态之大、动态之大和运算之后叠加之大。静态数据,比如大英博物馆、上海博物馆的存储资料全部以数字化的形式存储。动态变量之大可能有几千个、几万个坐标,这个坐标上每个指标每一秒钟、每一分钟、每一小时、每一天、每一个月、每一年不断叠加,就有一个动态数据越加越多。所有的静态、动态数据被任何人使用,就会有变化,数据与数据计算后产生新的数据,数据就会在使用中不断叠加、增长。数据大就大在静态数据大、动态数据大以及使用的数据大。这就是大数据的概念。
(三)人工智能
数据不等于信息,数据里面一串串符号有各种各样的,从这个角度看是垃圾,但从另一个角度看是有用的,怎么把一大堆的数据变成有用的信息,这个过程需要人工智能。信息不等于知识,比如,手机里大量的信息,每天看十个小时看得头晕脑胀,这些碎片化的信息要变成知识,又要经过特定的处理,也要用人工智能。知识不等于见识,知识变成可以决策智能化的判断又是一种转变,这个转变也要人工智能。人工智能在这三个转变过程中分析数据,挖掘信息,推送信息,或用各种数学模型关键词来筛选信息。另外,还有人工智能模仿、仿真系统、深度学习系统等,都是各种算法,整个数据处理过程中数据变信息,信息变知识,知识变见识、变判断,决策的过程就是算法。
科学家发明各种算法以后,需要用大数据来“喂养”。谷歌的AlphaGo要把人类几百年积累的几十万个棋谱作为大数据装在人工智能系统里用它的算法不断演练。用大数据“喂养”这么巨大的模型,算一小时可以等待,算一年等待不了,那么只有把计算机速度加快,快到每秒钟亿次,每秒钟十亿次,每秒钟一百亿亿次,现在超算最快的是一百亿亿次。人工智能三个概念:一是算法;二是有“喂养”算法的大数据;三是计算速度要快。人工智能技术能力高低关键在于这三个方面的能力。
(四)区块链
区块链有五个特点。一是开放性,二是不能篡改,三是可追溯性,四是匿名性,五是分布式去中心化。这五个特征是四种技术支撑起来的。第一,分布式记帐技术。人类社会几千年发明了4种记帐方式,一是原始社会的结绳记帐;二是农业社会的记流水帐;三是工业社会的复式记帐;四是信息化时代的分布式记帐。复式记帐三张平衡表,使企业资产帐目一目了然,但无法防止原始数据造假。采用区块链技术的分布式记帐是无法造假的。第二,共识机制技术。这种技术开发者必须首先考虑用怎样的技术可以使更多人对一种规则达成共识,同时还要考虑通过多少个特殊节点好确认,才能在很短的时间内实现对数据行为的确认。第三,非对称的保密技术,就是一套保密的密钥算法。第四,智能合约技术,基于大量的可信的不可篡改的数据,自动化地执行预先定义好的规则。四种技术使得区块链能得到很好的应用。在实际应用时,一个区域全体人群一起参与的区块链,叫做公有链;五十人一百人等形成的某个特定人群参与的圈子是私有链;若干个私有连联合起来形成同盟,就是同盟链;也就是说,区块链在发展的时候可以分成一块块,根据需要展开。应用范围凡是有价值的东西都可以用区块链来覆盖。比如金融、保险、供应链物流、公共服务、认证和公证、公益和慈善、数字版权开发、数据信息共享等等领域。
数字化平台是大数据、云计算、人工智能、区块链跟网络(互联网、移动互联网、物联网)五位一体形成的一个体系,共同生成在5G基础上,有机结合成为一个类似于人的智能生命体。如果将数字化平台用人来类比:互联网、移动互联网以及物联网就像人类的神经系统,大数据就像人体内的五脏六腑、皮肤以及器官,云计算相当于人体的脊梁。没有网络,五脏六腑与和脊梁就无法相互协同;没有云计算,五脏六腑无法挂架;而没有大数据,云计算就是行尸走肉、空心骷髅。有了神经系统、脊梁、五脏六腑、皮肤和器官之后,加上相当于灵魂的人工智能——人的大脑和神经末梢系统,基础的“大智移云”平台就已经成型了。而区块链技术,就像人类不可篡改的分布式基因,经过更先进的“基因改造技术”,从基础层面大幅度地提升大脑反应速度、骨骼健壮程度、四肢操控灵活性。互联网数字化平台在区块链技术的帮助下,基础功能和应用将得到颠覆性改造,从而对经济社会产生更强大的推动力。
4.用图表和简单的文字简要描述大数据的发展前景和就业趋势,并谈谈你的看法。
大数据应用场景
营销分析、客户分析和内部运营管理是大数据应用最广泛的三个领域。调查发现,超过60%的企业将大数据应用于营销分析;其次,52.2%的企业将大数据应用于客户分析;另外,超过50%的企业将大数据应用于内部运营管理。相比之下大数据分析在企业供应链管理等方面的应用比例还有待提升。
图表:我国企业大数据应用场景

数据来源:工信部
大数据应用带来的效果
大数据应用为企业带来的最明显效果是实现了智能决策和提升了运营效率。应用大数据后实现智能决策的企业占比最高,达到56.7%。机器学习和认知计算等技术的发展进一步推动了大数据对企业决策的支撑。其次,49.6%的企业表示应用大数据后提升了运营效率;其他效果还包括:更好的管理风险、创造了新的业务收入、提升了客户满意度以及增强生产能力(22.6%)。
图表:2019年我国大数据应用带来的效果

数据科学和人工智能都不是新的技术概念而是商业概念。商业敏感度,沟通能力,项目管理能力,编程能力和数理能力才是保证自己立于不败之地的基石。大数据专业和计算机专业比较像,是注重实践的专业。学生需要独立编写程序,对程序进行修改与调试,需要注意每一个细节才能顺利查错并运行程序。大数据技术本身是一个庞大的技术体系,不同知识结构的人都可以立足于自身的实际需求,来选择学习大数据的切入点,所以即使是非计算机专业的人,也可以学习大数据,而且学习大数据相关技术也是一个大的发展趋势。
浙公网安备 33010602011771号