数据系统和分布式(一)数据系统基础

数据和分布式

数据系统基础

第一章. 可靠可拓展可维护的应用系统

可靠性
- 出现意外情况, 硬软件故障,人为失误, 系统应该正常运转, 虽然性能降低, 但是功能正确
可拓展性
- 随着系统规模的增长 , 系统应该合理的匹配增长
- 比如Twitter的例子P19
  - 描述性能我们关心中位数, 百分位数
  - 比如P50代表至少一半用户查询等待时间是在这个时间之内的
  - 同样的还有99.99%这种
  - 实际上为了提高性能, 我们常常在垂直拓展和水平拓展之间做取舍
可维护性
- 许多时间的推移, 新加入的运维人员应该比较容易适应
- 可运维性: 运维更轻松
- 简单性: 简化系统复杂度
- 可演化性: 易于改变
常见术语
- 现在的应用很多都有数据系统的很多模块
- 数据库: 用来存储数据
- 高速缓存: 缓存那些复杂或操作代价昂贵的结果加快下一次访问
- 索引: 按关键字来检索数据并支持各种过滤
- 流式处理: 持续发送数据到另外一个进程 , 采用异步方式
- 批处理: 定期处理大量的累计数据

第二章数据模型和查询语言

计算机常常的分层结构, 在数据系统中也不例外. 在某个具体的层次上 , 我们关注的问题是如何用下一层来表示当前层
- 用数据结构对现实建模 -> 用json或者xml或者关系数据库的表进行存储-> 用内存, 磁盘或者网络的字节格式来表示 ->硬件用电流, 磁场来表示数据
关系模型和文档模型
- 关系模型最出名的就是SQL
- 子主题 2

第三章数据存储和检索

从基本的层面: DB = 插入时存储数据, 查询时返回数据
哈希索引
B树索引
事务分析和处理
- 事务不一定有ACID属性
- OLTP
  - 在线事务处理
  - OnLine Transition Process
  - 使用索引的某些键查找少量积累, 根据用户的输入插入或更新记录并且常常是交互式的
  - 比如博客的评论 ,游戏的动作
  - 基本访问模式和处理业务交易类似
- OLAP
  - 在线分析处理
  - OnLine Analytic Process
  - 分析查询需要扫描大量的记录 ,并汇总一个信息
  - 比如一个月店铺总收入促销期间比平时多麦了多少香蕉
- 数据规模 OLTP GB~TB OLAP TB到PB
- 命名常常OLAP单独在数据仓库上因为不愿意让业务分析人员在OLTP上执行代价很高的操作数据仓库有OLTP的只读副本
- 采用数据仓库的目的是可以针对不同的分析访问模式进行优化
子主题 5
- 子主题 1

第四章数据编码和演化

在内存里 ,数据保存在对象, 结构体, 数组, 哈希表 ,树. 把数据写入文件或者通过网络发送时, 由于指针对其他进程没有意义,所以字节序列和内存的大不一样
Json
XML
二进制
- Thrift
  - Facebook开发的 07 - 08开源
    - 有两种编码方式
      - Binary Protocol
        
        对一个3字段的59byte
      - CompactProtocol
        
        只要34字节
- Protocol Buffers
  - Google开发的 07 - 08开源
    - 类似CompactProtocol
      - 只要33Byte
- 特征是编码时不存储具体的字段名, 比如name, 而是用一个Tag来标识字段, 带来了更好的模式演化, 为以后拓展字段等
  - 旧代码读新代码写入的数据
    - 可以通过简单的忽略解决
    - 实现了向前兼容性
  - 新代码读入旧代码的数据
    - 字段必须为optional或者具有默认值
    - 实现了向后兼容性
- 而且required 和 optional是在运行时检查, 在编码时不编码进去
- Avro
  - 与前两个比, 优点在于没有标签号
数据流模式
- 基于数据库的流模式
- 基于服务的数据流
  - REST
  - RPC 远程过程调用 Remote Procedure Call
    - RPC存在一些问题
      - 本地函数可预测(只和参数有关), 网络请求是不可预测的, 网络问题很常见 ,请求或者响应可能因为网络丢失, 那是不是要有重试机制? 幂等性怎么解决
      - 本地要么return一个结果要么抛出异常要么死循环. 远程可能因为超时没有结果. 根本不知道发生了什么
      - 如果重试失败的请求, 可能请求已经完成, 只是响应丢失, 可能会导致执行多次, 除非建立( 重复数据)消除(幂等性)机制
      - 由于网络延迟, 函数执行时间很难说
      - 本地可以把引用或者指针传给本地内存的对象 RPC一定要编码成网络字节序列
      - 子主题 6
    - 子主题 2
  - 面向微服务的一个关键的设计目标是, 通过使服务可独立部署和演化, 让应用程序易于更改和维护
- 基于消息传递的数据流
  - 也就是消息队列
    - Rabbit MQ,Active MQ, Apache Kafka
  - 优点:
    - 1.如果接受方过载, 或者不可用 .它可以作为缓冲区, 提高系统可靠性
    - 2.自动把消息重新发到崩溃的进程 , 防止消息丢失
    - 1. 解耦
    - 4.避免了发送方需要知道接收方的IP地址, 端口号( 在频繁变更的虚拟机中)很有用
    - 5.支持一条消息多个接收方
    - 6.逻辑上的分离, 发送方只管发送消息,不关心谁使用它们
    - 7.异步的
- 分布式Actor框架

分布式数据系统

子主题 1

子主题 2

子主题 3

派生数据

XMind: ZEN - Trial Version

posted @ 2020-10-02 10:08 Yan_Hao 阅读(306) 评论(0) 收藏举报

刷新页面返回顶部

Yan_Hao

数据系统和分布式(一)数据系统基础

数据 和 分布式

数据系统基础

第一章. 可靠 可拓展 可维护的应用系统

第二章 数据模型 和 查询语言

第三章 数据存储 和 检索

第四章 数据编码和 演化

分布式数据系统

子主题 1

子主题 2

子主题 3

派生数据

公告

数据和分布式

第一章. 可靠可拓展可维护的应用系统

第二章数据模型和查询语言

第三章数据存储和检索

第四章数据编码和演化