大数据认知
一.大数据定义
大数据: 涵盖了人们在大规模基础上可以做的事情,通过对海量数据进行分析,来获得巨大的产品价值和服务。
1.数据量大
- 高于TB级的数据量
2.数据种类多
- 结构化:以数据库,文本为主的数据类型
- 非结构化:音频,图片,地理位置等数据类型
3.数据处理速度要求高
4.数据的价值密度低
二.数据存储单位
bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB
- bit 比特
- Byte 一字节
- KB 千字节
- MB 兆字节
- GB 吉字节
- TB 太字节
- PB 拍字节
- EB 艾字节
- ZB 泽字节
- YB 尧字节
- BB 珀字节
- NB 诺字节
- DB 刀字节
大数据的基本特征
1.数据量大: 数据量达到PB,EB,ZB的级别(PB=1024TB,1EB=1024PB,ZB=1024EB)
2.类型繁多: 文件类型有日志,音频,图片,影视等
3.价值密度底: 由于数据量大,存在干扰数据
4.处理速度快: 对时效性要求高,需要实时对数据进行分析
大数据带来的挑战
1.数据库挑战: 现有的数据库不能处理,或不能快速处理,TB量级的数据更何况超过TB量级的数据。
2.实时性挑战: 由于大数据的特性,数据价值与时延挂钩,单位时间内处理的数据越快,数据价值就越高。
3.数据运维的挑战: 数据量爆发式的增长,对数据进行,高效数据,存储,计算带来了挑战。同时所需量的机械也会制约大数据的发展。
处理大数据指导思想
分布式:分而治之
- 分布式存储
- 分布计算
常规计算与大数据计算
| 图灵计算 | 云计算 |
|---|---|
| 注重cpu和操作系统 | 注重节点的交互 |
| 确定的计算 | 不确定计算 |
| 最优解 | 尽可能的解 |
| 统一调度 | 无集中控制,局域网偏好依附 |
| 机械的执行 | 有主体行为能力 |
| 可计算模型 | 服务计算模型 |
| 人不参与计算 | 人参与计算 |
大数据具体特征
- 稠密与稀疏共存: 局部稠密与全局稀疏
- 冗余与缺失并存: 大量冗余与局部缺失
- 显式与隐式均有: 大量显式与丰富隐式
- 静态与动态互视: 动态演进与静态关联
- 多元与异质共处: 多元多变与异质异性
- 量大与可用矛盾:量大低值与可用稀少

浙公网安备 33010602011771号