1.1 大数据概论
1、什么是大数据
从字面意思理解,大数据指的是巨量数据。计量单位已经超过TB级别发展到PB、EB、ZB、YB甚至BB级别。进制:1024

-
大数据是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合。
-
从技术角度来看,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
-
就其定义而言,大数据是一个较为抽象的概念,至今尚无确切、统一的定义,各方对“大数据”给出了10余种不同的定义。
2、大数据的特点(5V)
-
规模性
-
数据量巨大
-
淘宝的交易数据、facebook的用户日志数据
-
-
多样性
-
结构化数据
-
关系型数据库表示和存储,表现为二维数据
-
以行为单位的数据,一行数据表示一个实体的信息,每行数据属性是相同的
-
如:财务系统数据、信息管理系统数据、医疗系统数据等
-
-
非结构化数据
-
不方便使用关系型数据库二维逻辑来表现的数据
-
如:视频、图片、音频等
-
产生价值的大数据,往往就是非结构化数据
-
-
半结构化数据(自描述结构)
-
结构化数据的一种
-
包含相关标记(非常形象的例子是json)
-
同一类实体可以用不同的属性,且属性的顺序并不重要(可以类比json格式)
-
如:HTML文档、XML文档、JSON数据、邮件、网页等
-
-
-
高速性
-
数据的增长速度和处理速度
-
如何快速计算分析大数据
-
例:百度如何在成千上万的结果中毫秒级找到符合你关键词的选项
-
-
价值性
-
大数据的核心特征是价值
-
大数据的价值密度高低和数据总量的大小成反比,即数据价值密度越高数据总量越小,数据价值密度越低数据总量越大
-
有价值的信息提取依托海量的基础数据
-
未解决的问题:如何通过强大的机器算法更迅速地在海量数据中完成数据的价值提纯
-
-
真实性
-
真实性其实就是数据的质量
-
海量的数据并一定能反应用户的真实行为信息或客观的真实信息
-
如:作弊机器人刷的点击率,其实并不是用户的真实需求
-
3、大数据应用场景
-
电商大数据——精准营销
-
对用户:猜你喜欢
-
对商家:提前备货
-
-
金融大数据
-
精准营销——理财产品推荐、针对性广告信息
-
风险管控——记录实施信用卡反欺诈
-
决策支持——信贷风险控制
-
效率提升——加快内部数据处理速度
-
产品设计——设计满足客户需求的产品
-
-
医疗大数据
- 积累海量的病例、病例报告、治疗方案、药物报告等信息,给病人提供合理的诊疗方案,提高看病效率、降低误诊率
-
零售大数据——最懂消费者
-
根据消费者喜好,精准营销、降低营销成本(电信行业推荐合适的套餐)
-
预测用户可能会购买的其他产品
-
案例:啤酒与尿布
-
-
交通大数据
-
车辆通行密度,规划单行线路
-
信号灯调度,提高已有线路运行能力
-
-
舆情监控大数据
-
舆情监控
-
犯罪管理
-
4、大数据发展前景
-
国家政策
- 党的十八大和十九大都提到大数据发展
-
国际方面
- 我国未来3-5年,大数据人才缺口超150万
-
高校方面
- 2021年,全国730所高校获批数据科学与大数据技术专业
5、业务流程分析
-
提需求(产品人员)
-
搭建数据平台、分析数据指标(程序员)
-
数据可视化(报表展示、邮件发送、大屏展示)
浙公网安备 33010602011771号