第一次作业

1.为什么产生大数据技术?
大数据的价值体现在以下几个方面:

1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销

2) 做小而美模式的中小微企业可以利用大数据做服务转型

3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图
2.为什么要学习大数据技术?
根据个人兴趣、意愿、职业发展等自身因素考量,

根据市场的发展趋势,目前大数据行业人才缺稀缺,缺口达百万+;大数据就业薪资待遇优渥,2018年一线城市大数据开发岗位薪资
3.简述大数据、云计算、物联网、区块链和人工智能的概念和相互关系。
1)物联网

物联网简单来讲就是“物物相连的互联网”,使用信息传感物理设备按照约定的协议把任何物品与互联网连接起来进行信息交换的网络,以实现物理生产环境的智能化识别、定位、跟踪、监控和管理。

物联网是未来数字经济得以发展的最底层信息基础设施,为数字经济的发展提供一手的精准、实时的数据,当前物联网基础设施并没有得到大规模部署和应用导致数据的录入和采集由于人的参与,而出现系统误差、人为错误、低时效等问题,源头数据的错误致使后续计算分析不能实际指导业务开展与生产规划,缺少了真实数据支撑的数字经济也成了空中楼阁。

(2)云计算

本质上是将具备一定规模的物理资源转化为服务的形式提供给用户,用户不需要见到物理机器,自然不需要考虑各种运维的事情,因为云厂商已经将这一层封装好了,客户只需要告诉云平台是需要一台具体配置的计算机、还是某个开发平台、或者干脆就是一个具体的应用(如网盘)。

云平台还可以做到各种资源的全面弹性,动态满足客户实时变化的需求,比如客户上午想要一台计算机,下午还想要十台,云平台通过可计量的虚拟化资源能够及时满足用户所需。

如果用户通过这种可计量的服务形式使用物理机器,就会越来越关注自身业务本身,因为使用数据化的门槛会越来越低,有了云计算在底层撑腰,将物理世界的业务转化到数据的速度会越来越快,以至于必须找到新的技术来组织这些数据。

(3)大数据

大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,能够弹性扩张存储容量,这种情况下出现了数据组织技术。所谓数据组织技术:数据化初级阶段数据少,形式单一,所以主要采取集中式结构化存储,实体关系就成了这一时期的数据组织的关键点,包括开发语言的面向对象技术其实也是受到这种数据组织形式影响而产生的。

大数据形成的数据组织技术必须能够有效将没有价值的数据剔除,同时还要将结构化数据、非结构化数据、业务系统实时采集数据等以分布式数据库、关系型数据库、费关系型数据库等数据存储计算技术进行分类存储与处理,使得数据研发计算与应用能够真正服务于企业内部决策与生产指导,支撑企业数字化转型。

(4)人工智能

组织好数据,接下来就需要深度挖掘数据。就像人类发明语言和文字一样,最终目的是要帮助人类进行大规模分工协作来完成人类认为有意义的事情的。而面对这样的海量数据,人类的大脑已经处理不过来了,于是人类将各种意义转化为算法交给机器,让机器自行决策,最终给我们提供一个收敛的结果,就有了有效信息。

我们很少关心数据,真正关心的是数据背后的信息。人工智能帮助人类在海量数据中找到了有用的信息,于是便有了各种意义的存在,为我们在进行数字新经济建设的过程中指明了出路和方向。

(5)区块链

如何有效的利用信息呢?在区块链技术之前,基本靠人类的各种信念:“我们坚信人是有良知的!”还有一种就是靠强有力的中心组织保障,但前提是这个组织必须是有良知的。

在信息化的进程中,人的信念是不可靠的一环,在面临因中心化架构带来各种弊端与问题时,提出了区块链技术,简单的说就是利用分布式网络+非对称加密算法将已经形成的信息有效的串联起来,保证信息是达成人们共识的还不可修改,人们准备利用区块链技术消除各种不美好的事情,这也是为什么大家现在都这么看好区块链的原因,毕竟所有人都向往一个理想世界,那里没有任何欺骗,而区块链技术指明了一条方向。

未来的数字经济建立在虚拟网络构建的信息基础设施之上,诚信在任何时候都是商业得以进行的基础,区块链构建的诚信网络使得人们在毫无信任的条件下,开展商业活动、进行价值交换、促进经济发展。

横向关系梳理



(1)区块链与物联网

区块链技术可以为物联网提供点对点直接互联的方式来传输数据,而不是通过中央处理器,这样分布式的计算就可以处理数以亿计的交易了。同时,还可以充分利用分布在不同位置的数以亿计闲置设备的计算力、存储容量和带宽,用于交易处理,大幅度降低计算和储存的成本。

另外,区块链技术叠加智能合约可将每个智能设备变成可以自我维护调节的独立的网络节点,这些节点可在事先规定或植入的规则基础上执行与其他节点交换信息或核实身份等功能。这样无论设备生命周期有多长,物联网产品都不会过时,节省了大量的设备维护成本。

物联网安全性的核心缺陷,就是缺乏设备与设备之间相互的信任机制,所有的设备都需要和物联网中心的数据进行核对,一旦数据库崩塌,会对整个物联网造成很大的破坏。而区块链分布式的网络结构提供一种机制,使得设备之间保持共识,无需与中心进行验证,这样即使一个或多个节点被攻破,整体网络体系的数据依然是可靠、安全的。

未来物联网不仅仅是将设备连接在一起完成数据的采集,人们更加希望连入物联网的设备能够具有一定的智能,在给定的规则逻辑下进行自主协作,完成各种具备商业价值的应用。

(2)区块链与云计算

从定义上来看,云计算是按需分配,区块链则构建了一个信任体系,两者好像并没有直接关系。但是区块链本身就是一种资源,有按需供给的需求,是云计算的一个组成部分,云计算的技术和区块链的技术之间是可以相互融合的。

云计算与区块链技术结合,将加速区块链技术成熟,推动区块链从金融业向更多领域拓展,比如无中心管理、提高可用性、更安全等。

区块链与云计算两项技术的结合,从宏观上来说,一方面,利用云计算已有的基础服务设施或根据实际需求做相应改变,实现开发应用流程加速,满足未来区块链生态系统中初创企业、学术机构、开源机构、联盟和金融等机构对区块链应用的需求。另一方面,对于云计算来说,“可信、可靠、可控制”被认为是云计算发展必须要翻越的“三座山”,外汇返佣www.kaifx.cn而区块链技术以去中心化、匿名性,以及数据不可篡改为主要特征,与云计算长期发展目标不谋而合。从存储方面来看,云计算内的存储和区块链内的存储都是由普通存储介质组成。而区块链里的存储是作为链里各节点的存储空间,区块链里存储的价值不在于存储本身,而在于相互链接的不可更改的块,是一种特殊的存储服务。云计算里确实也需要这样的存储服务。

从安全性方面来说,云计算里的安全主要是确保应用能够安全、稳定、可靠的运行。而区块链内的安全是确保每个数据块不被篡改,数据块的记录内容不被没有私钥的用户读取。利用这一点,如果把云计算和基于区块链的安全存储产品结合,就能设计出加密存储设备。

与云计算技术不同的是,区块链不仅是一种技术,而是一个包含服务、解决方案的产业,技术和商业是区块链发展中不可或缺的两只手。 区块链技术和应用的发展需要云计算、大数据、物联网等新一代信息技术作为基础设施支撑,同时区块链技术和应用发展对推动新一代信息技术产业发展具有重要的促进作用。

(3)区块链与大数据

区块链是底层技术,大数据则是对数据集合及处理方式的称呼。区块链上的数据是会形成链条的,它就有真实、顺序、可追溯的特性,相当于已经从大数据中抽取了有用数据并进行了分类整理。所以区块链降低了企业对大数据处理的门槛,而且能够让企业提取更多有利数据。

另外,大数据中涉及到用户的隐私数据问题,在区块链技术的加持下也不会出现。用户完全不用担心自己的私人信息被偷偷收集,也不用担心自己的隐私被公之于众,更不用担心自己被杀熟。隐私数据使用决定权完全在用户自己手里,甚至可能会出现,企业会通过一定的付费手段获取隐私信息,用户从中能够盈利。

(4)区块链与人工智能

对于任何广泛接受的技术的进步,没有比缺乏信任具有更大的威胁,也不排除人工智能和区块链。为了使机器间的通信更加方便,则需要有一个预期的信任级别。想要在区块链网络上执行某些交易,信任则是一个必要条件。

区块链有助于人工智能实现契约管理,并提高人工智能的友好性。例如通过区块链对用户访问进行分层注册,让使用者共同设定设备的状态,并根据智能合约做决定,不仅可以防止设备被滥用,还能防止用户受到伤害,可以更好地实现对设备的共同拥有权和共同使用权。

人工智能与区块链技术结合最大的意义在于,区块链技术能够为人工智能提供核心技能——贡献区块链技术的“链”功能,让人工智能的每一步“自主”运行和发展都得到记录和公开,从而促进人工智能功能的健全和安全、稳定性。
4.用图表和简单的文字简要描述大数据的发展前景和就业趋势,并谈谈你的看法。
.为什么产生大数据技术?

随着互联网时代的发展以及人们生活方方面面的交流需求,每天的信息和数据产量膨胀式增长,以往的技术已不能满足当下发展的要求,大数据技术应运而生。

.为什么要学习大数据技术?

(1)大数据的特点奠定了他的地位:①数据类型繁多②处理速度快③价值密度低

(2)大数据对科学研究产生影响,使得实验条件得以拓展,能够完成更多对自然现象更精确的理解,在很大程度上推动了人类社会发展的进步

(3)大数据决策成为一种新的决策方式,大数据应用促进信息技术与各行业的深度融合,大数据开发推动新技术和新应用的不断涌现

(4)时代发展越来越离不开大数据,就业市场对大数据人才的需求越发旺盛
1)大数据维护、研发、架构工程师方向,所涉及的职业岗位为:大数据工程师、大数据维护工程师、大数据研发工程师、大数据架构师等;

(2)大数据挖掘、分析方向。所涉及的职业岗位为:大数据分析师、大数据高级工程师、大数据分析师专家、大数据挖掘师、大数据算法师等。

故我认为学习有关大数据的技术是比较有必要的,而对于计算机科学与技术专业的学生来说,掌握大数据技术也是基础所需。

一、大数据安全隐患

(一)大数据遭受异常流量攻击

大数据所存储的数据非常巨大,往往采用分布式的方式进行存储,而正是由于这种存储方式,存储的路径视图相对清晰,而数据量过大,导致数据保护,相对简单,黑客较为轻易利用相关漏洞,实施不法操作,造成安全问题。由于大数据环境下终端用户非常多,且受众类型较多,对客户身份的认证环节需要耗费大量处理能力。由于APT攻击具有很强的针对性,且攻击时间长,一旦攻击成功,大数据分析平台输出的最终数据均会被获取,容易造成的较大的信息安全隐患。

(二)大数据信息泄露风险

大数据平台的信息泄露风险在对大数据进行数据采集和信息挖掘的时候,要注重用户隐私数据的安全问题,在不泄露用户隐私数据的前提下进行数据挖掘。需要考虑的是在分布计算的信息传输和数据交换时保证各个存储点内的用户隐私数据不被非法泄露和使用是当前大数据背景下信息安全的主要问题。同时,当前的大数据数据量并不是固定的,而是在应用过程中动态增加的,但是,传统的数据隐私保护技术大多是针对静态数据的,所以,如何有效地应对大数据动态数据属性和表现形式的数据隐私保护也是要注重的安全问题。最后,大数据的数据远比传统数据复杂,现有的敏感数据的隐私保护是否能够满足大数据复杂的数据信息也是应该考虑的安全问题。

(三)大数据传输过程中的安全隐患

数据生命周期安全问题。伴随着大数据传输技术和应用的快速发展,在大数据传输生命周期的各个阶段、各个环节,越来越多的安全隐患逐渐暴露出来。比如,大数据传输环节,除了存在泄漏、篡改等风险外,还可能被数据流攻击者利用,数据在传播中可能出现逐步失真等。又如,大数据传输处理环节,除数据非授权使用和被破坏的风险外,由于大数据传输的异构、多源、关联等特点,即使多个数据集各自脱敏处理,数据集仍然存在因关联分析而造成个人信息泄漏的风险。

基础设施安全问题。作为大数据传输汇集的主要载体和基础设施,云计算为大数据传输提供了存储场所、访问通道、虚拟化的数据处理空间。因此,云平台中存储数据的安全问题也成为阻碍大数据传输发展的主要因素。

个人隐私安全问题。在现有隐私保护法规不健全、隐私保护技术不完善的条件下,互联网上的个人隐私泄露失去管控,微信、微博、QQ等社交软件掌握着用户的社会关系,监控系统记录着人们的聊天、上网、出行记录,网上支付、购物网站记录着人们的消费行为。但在大数据传输时代,人们面临的威胁不仅限于个人隐私泄露,还在于基于大数据传输对人的状态和行为的预测。近年来,国内多省社保系统个人信息泄露、12306账号信息泄露等大数据传输安全事件表明,大数据传输未被妥善处理会对用户隐私造成极大的侵害。因此,在大数据传输环境下,如何管理好数据,在保证数据使用效益的同时保护个人隐私,是大数据传输时代面临的巨大挑战之一。

(四)大数据的存储管理风险

大数据的数据类型和数据结构是传统数据不能比拟的,在大数据的存储平台上,数据量是非线性甚至是指数级的速度增长的,各种类型和各种结构的数据进行数据存储,势必会引发多种应用进程的并发且频繁无序的运行,极易造成数据存储错位和数据管理混乱,为大数据存储和后期的处理带来安全隐患。当前的数据存储管理系统,能否满足大数据背景下的海量数据的数据存储需求,还有待考验。不过,如果数据管理系统没有相应的安全机制升级,出现问题后则为时已晚。

二、大数据安全挑战

大数据安全虽仍继承传统数据安全保密性、完整性和可用性三个特性,但也有其特殊性,主要表现在以下两方面:

(一)个人隐私保护

以前数据是企业的资产,是在企业内部、局部的环境里使用,流动性不强,所以,数据的个人隐私表现不突出。但是到了互联网+时代,数据无处不在,各种数据积累起来后形成了多元数据关联,不法分子和别有用心的人可通过多元数据关联分析导致个人隐私信息泄露。怎样有效保护个人隐私是大数据安全面临的第一个重要问题。

(二)跨境数据流动

在现在这个时代,数据的流动很重要。全球性购物促销活动多个国家都参与其中,数据的跨境流动是大数据的一个特殊属性。在法律制度、数据服务外包、打击网络犯罪方面保护跨境数据的安全是很重要的。

所以,建立大数据安全标准体系框架时要对传统数据的采集、组织、存储、处理等生命周期各方面安全标准进行适用性分析,适合的接着采用,不适合的要修订,缺项的必须增加。

外部非授权人员对信息系统进行恶意入侵,非法访问隐私数据;数据具有易复制性,发生数据安全事件后,无法进行有效的追溯和审计;大数据有流动、共享的需求,大量数据的汇聚传输加大了数据泄露的风险。

(三)传统安全措施难以适配

大数据海量、多源、异构、动态的特征导致大数据系统存储结构复杂、开放性、分布式计算和高效精准的服务,这些特殊需求传统安全措施解决不了。

(四)平台安全机制亟待改进

以前我们用ORACLE数据库,到了大数据时代,大家基于hadoop体系结构。在hadoop体系结构里,用户的身份鉴别和授权访问等安全保障能力比较薄弱。同时开源hadoop的一些组件在使用时没有测试,里面可能存在漏洞和恶意代码,存在人家开的后门。

(五)应用访问控制愈加复杂

在数据库时代应用访问控制通过数据库的访问机制解决。每一个用户都要注册,注册完才能访问到数据库。但是到了大数据时代,存在大量未知的用户和大量未知的数据,有很多的用户不知道他的身份,虽然他注册了也不知道他是谁,所以预先设置角色和预先设置角色的权限都做不到




大数据可能带来的问题涉及到生活、社会、国家的方方面面。基于大数据时代信息的高速发展,利用大数据技术采集信息已几乎成为各大app网站的通用手段,通过全面复杂的信息对用户进行大数据杀熟已是众所周知的事情。而大数据虽高效地采集并准确识别到对应信息,但其安全性仍有待提高。若不适当引导利用,被有心者故意而为之,不仅可能会导致隐私的泄露,甚至危害国家安全。

posted @ 2021-09-10 19:11  xbxbxbxbxbxb  阅读(458)  评论(0)    收藏  举报