大数据概述与学习资源

1.了解微信、微博、小视频每天产生的数据量与数据类型

用户量:截止2020年1月,以国内移动互联网DAU计(不去重),腾讯系坐拥18.4亿用户,阿里系7.7亿用户,百度系5.9亿用户,头条系5.1亿用户,快手系2.3亿用户。

时长:截止2020年1月,以用户移动互联网月使用时长计,腾讯系676亿小时,占全网42.9%;阿里系76亿小时,占全网4.8%;百度系90亿小时,占全网5.7%;头条系229亿小时,占全网14.5%;快手系80亿小时,占全网5.1%;其余合计424亿小时。BATTK自2015年至2020年一直保持着70%以上的时长市场份额

 

2.选择一个你感兴趣的领域应用数据思维进行分析决策的案例。

这里是上海城乡结合部九亭镇新华都超市的一个角落,农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点,拍摄10张 照片:水怎么摆放、位置有什么变化、高度如何……这样的点每个业务员一天要跑15个,按照规定,下班之前150张照片就被传回了杭州总部。每个业务员,每 天会产生的数据量在10M,这似乎并不是个大数字。

但农夫山泉全国有10000个业务员,这样每天的数据就是100G,每月为3TB。当这些图片如雪片般进入农夫山泉在杭州的机房时,这家公司的CIO胡健就会有这么一种感觉:守着一座金山,却不知道从哪里挖下第一锹。

胡健想知道的问题包括:怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答,但它们更多是基于经验,而不是基于数据。

从2008年开始,业务员拍摄的照片就这么被收集起来,如果按照数据的属性来分类,“图片”属于典型的非关系型数据,还包括视频、音频等。要系统地对非 关系型数据进行分析是胡健设想的下一步计划,这是农夫山泉在“大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息,如果类似 图像、视频和音频资料可以系统分析,如果人的位置有更多的方式可以被监测到,那么摊开在胡健面前的就是一幅基于人消费行为的画卷,而描绘画卷的是一组组复 杂的“0、1、1、0”。

3.大数据 人工智能 云计算 物联网 区块链的概念及相互关系。

大数据:任何形式产生的数据,有海量、多样、复杂等属性。

物联网:把任何物品与互联网连接起来进行信息交换,以实现智能化识别、定位、跟踪、监控和管理的一种网络,简言之物联网就是“物物相连的互联网”。

云计算:按使用量付费,提供可配置的共享资源,减少我们的开发、管理维护。

人工智能:人工智能英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

区块链:区块链是比特币的一个概念。是利用块链式数据结构来验证与存储数据。利用分布式节点共识算法,来生成和更新数据。利用密码学的方式,保证数据传输和访问的安全。

物联网和云计算的关系:云计算相当于人的大脑,是物联网的神经中枢。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

大数据和云计算的关系:从技术上来看,大数据和云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

 4.大数据的职业前景

数联寻英《大2113数据人才报告》显示,目前5261中国的大数据人才仅46万。仅就人工智能4102领域而言,印度的从业人员在165315万左右,美国有85万,而我国仅有5万人。随着科技的不断发展,在短短3-5年内,我国大数据人才的缺口将增至150万。

而波士顿咨询公司(BCG)发布的《数字经济下就业与人才研究报告》预计,中国整体数字经济规模在2035年将达到16万亿美元左右,总就业容量将达到4.15亿。

目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万,越来越多人加入到大数据培训,当下大数据从业人员的两个主要趋势是:

1、大数据领域从业人员的薪资将继续增长;

2、大数据人才供不应求。

posted @ 2020-09-11 11:28  杨振强  阅读(165)  评论(0编辑  收藏  举报