大数据认知

一.大数据定义

大数据: 涵盖了人们在大规模基础上可以做的事情,通过对海量数据进行分析,来获得巨大的产品价值和服务。

1.数据量大

  • 高于TB级的数据量

2.数据种类多

  • 结构化:以数据库,文本为主的数据类型
  • 非结构化:音频,图片,地理位置等数据类型

3.数据处理速度要求高

4.数据的价值密度低

二.数据存储单位

bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB

  • bit 比特
  • Byte 一字节
  • KB 千字节
  • MB 兆字节
  • GB 吉字节
  • TB 太字节
  • PB 拍字节
  • EB 艾字节
  • ZB 泽字节
  • YB 尧字节
  • BB 珀字节
  • NB 诺字节
  • DB 刀字节

大数据的基本特征

1.数据量大: 数据量达到PB,EB,ZB的级别(PB=1024TB,1EB=1024PB,ZB=1024EB)
2.类型繁多: 文件类型有日志,音频,图片,影视等
3.价值密度底: 由于数据量大,存在干扰数据
4.处理速度快: 对时效性要求高,需要实时对数据进行分析

大数据带来的挑战

1.数据库挑战: 现有的数据库不能处理,或不能快速处理,TB量级的数据更何况超过TB量级的数据。
2.实时性挑战: 由于大数据的特性,数据价值与时延挂钩,单位时间内处理的数据越快,数据价值就越高。
3.数据运维的挑战: 数据量爆发式的增长,对数据进行,高效数据,存储,计算带来了挑战。同时所需量的机械也会制约大数据的发展。

处理大数据指导思想

分布式:分而治之

  • 分布式存储
  • 分布计算

常规计算与大数据计算

图灵计算 云计算
注重cpu和操作系统 注重节点的交互
确定的计算 不确定计算
最优解 尽可能的解
统一调度 无集中控制,局域网偏好依附
机械的执行 有主体行为能力
可计算模型 服务计算模型
人不参与计算 人参与计算

大数据具体特征

  • 稠密与稀疏共存: 局部稠密与全局稀疏
  • 冗余与缺失并存: 大量冗余与局部缺失
  • 显式与隐式均有:  大量显式与丰富隐式
  • 静态与动态互视:  动态演进与静态关联
  • 多元与异质共处:  多元多变与异质异性
  • 量大与可用矛盾:量大低值与可用稀少

posted @ 2021-03-30 22:27  唐某人-python  阅读(585)  评论(0)    收藏  举报