大数据作业一

问题一:了解微信、微博、小视频每天产生的数据量与数据类型。
答:目前微博每天可能产生4亿+的数据量,数据类型为string,微信每天可能有450亿的消息发送,数据类型为string,小视频每天有上千万的小视频,数据类型为string;

问题二:选择一个你感兴趣的领域应用数据思维进行分析决策的案例。
答:@电子商务网站流量分析
     网站流量分析,是指在获得网站访问量基本数据的情况下对有关数据进行的统计和分析,其常用手段就是Web挖掘。Web挖掘可以通过对流量的分析,帮助我们了解Web上的用户访问模式。那么了解用户访问模式有哪些好处呢?
     在技术架构上,我们可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如辅助改进网络的拓扑设计,提高性能,在有高度相关性的节点之间安排快速有效的访问路径等。
     1.帮助企业更好地设计网站主页和安排网页内容。
     2.帮助企业改善市场营销决策,如把广告放在适当的Web页面上。
     3.帮助企业更好地根据客户的兴趣来安排内容。
     4.帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。
     人们在访问某网站的同时,便提供了个人对网站内容的反馈信息:点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都被保存在网站日志中。从保存的信   息来看,网站虽然拥有了大量的网站访客及其访问内容的信息,但拥有了这些信息却不等于能够充分利用这些信息。那么如果将这些数据转换到数据仓库中呢?这些带有大量信息的数据借助数据仓库报告统(一般称作在线分析处理系统),虽然能给出可直接观察到的和相对简单直接的信息,却也不能告诉网站其信息模式及怎样对其进行处理,而且它一般不能分析复杂信息。所以对于这些相对复杂的信息或是不那么直观的问题,我们就只能通过数据挖掘技术来解决,即通过机器学习算法,找到数据库中的隐含模式,报告结果或按照结果执行。为了让电子商务网站能够充分应用数据挖掘技术,我们需要采集更加全面的数据,采集的数据越全面,分析就能越精准。在实际操作中,有以下几个方面的数据可以被采集
访客的系统属性特征。比如所采用的操作系统、浏览器、域名和访问速度等。
     访问特征。包括停留时间、点击的URL等。
     条款特征。包括网络内容信息类型、内容分类和来访URL等。
     产品特征。包括所访问的产品编号、产品目录、产品颜色、产品价格、产品利润、产品数量和特价等级等。
当访客访问该网站时,以上有关此访客的数据信息便会逐渐被积累起来,那么我们就可以通过这些积累而成的数据信息整理出与这个访客有关的信息以供网站使用。
可以整理成型的信息大致可以分为以下几个方面:
     1.访客的购买历史以及广告点击历史。
     2.访客点击的超链接的历史信息。
     3.访客的总链接机会(提供给访客的超级链接)。
     4.访客总的访问时间。
     5.访客所浏览的全部网页。
     6.访客每次会话的产出利润。
     7.访客每个月的访问次数及上一次的访问时间等。
     8.访客对于商标总体正面或负面的评价。

问题三:大数据 人工智能 云计算 物联网 区块链的概念及相互关系。
概念:
1、大数据:
麦肯锡全球研究所给出的定义是:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
2、人工智能:
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
3、云计算:
云计算可以被理解成一个系统硬件,一个具有巨大的计算能力、网络通讯能力和存储能力的数据处理中心(Internet Data Center,简称IDC)。数据处理中心本质上是大量服务器的集合,数据处理中心的功能、规模是以服务器的数量来衡量的。
4、物联网IoT(Internet of things):
物联网是互联网的应用拓展,与其说物联网是网络,不如说物联网是业务和应用。因此,应用创新是物联网发展的核心,以用户体验为核心的创新是物联网发展的灵魂。
5、区域链:
区块链是一个信息技术领域的术语。从本质上讲,它是一个共享数据库,存储于其中的数据或信息,具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特征。基于这些特征,区块链技术奠定了坚实的“信任”基础,创造了可靠的“合作”机制,具有广阔的运用前景。

相互关系:
物联网为大数据提供了大部分的数据来源,而云计算则为大数据提供了支撑平台。
大数据又是人工智能的重要基础,人工智能需要通过大数据完成学习和决策的过程。
从整个智能系统的体系结构来看,物联网是触角,云计算是支撑平台,
大数据提供数据分析,人工智能完成最终的决策。
区块链技术未来与大数据技术的结合应用将会带来一系列重要的改变,
区块链技术本身就是一种数据存储方式,
而且区块链存取的数据具有较强的安全性和防篡改特性,
大数据与区块链的结合还能解决数据价值化过程中的“确权”问题和流通问题,
可以说未来大数据与区块链的结合将更加紧密。

问题四、大数据的职业前景。
根据2019年教育部公布的《2018年度普通高等学校本科专业备案和审批结果》显示。
据统计,普通高校此次新增了2072个本科专业,其中包括1831个新增备案专业和241个新增审批专业。
新增专业中,数据科学与大数据技术专业备受欢迎,全国共196所高校新增了该专业。
而根据清华大学经管学院2017年11月发布的《中国经济的数字化转型:人才与就业》报告显示,
当前我国大数据领域人才缺口高达150万,到2025年将达到200万。
所以,就当前和可预见的未来来看,社会对大数据人才的需求量还是非常之大的!


posted @ 2020-09-12 20:59  吴大叔  阅读(225)  评论(0编辑  收藏  举报