悟空-简单就好
.net企业级应用研究

考虑最复杂的情况
开发出最简单的实现


Word文档-资料管理系统!

   以铁路的售票系统来说明分库分表对架构的影响。

 

 一、问题:铁路的售票系统的数据量是海量吗?
 
  不是。因为数据量不大,真不大。

  每一个车次与车次间是独立的,每车次不超过2000张票,一天发车不超过50万车次;
 以预售期15天来讲,15*0.1亿张不超过1.5亿笔的热线数据,称不上海量数据的。
 再加上可以按线路分库,更是不到千万级的单表容量。已经发车完成的进入归档分析。
 即数据库按路线使用不同的服务器,不同的车次放在不同的表中。并发量锁真不大。

 当然,如果不分库分表,再加上不归档处理,铁路的售票系统的数据量看起来是海量的;
关键是这海量的数据没有意义。


二、如何分库分表?

 2.1 分库,考虑数据间没有直接关系和服务器如何部署

  铁路的售票系统为例来说,按路线分库,再按车次分表是合理的。
  设路线有1万条,按每1000条需要两台服务器(一台热机沉余),不到20台服务器
  如果使用SAN存储,则使用SAN作为存储,本机作为热机沉余,只需要10台。
  当然使用mySQL这种经济型数据库,服务器需要更多来防灾;
  即可以采用双写或多写的方式来保证数据的绝对安全。

 2.2分表,考虑数据间不存在重叠,即数据满足二分原则

  铁路的售票系统的任意两个车次是没有关系的,所以可以分表。
  电信的某个用户的通话和其它用户的通话记录,也是没有关系,所以可以分表处理
  (实际上电信的系统,分库分表后也是不大的,难在后台的计费、结算等规则)

 

三、数据库访问接口

 

  1. 元数据:如何识别到当前要处理的数量在哪张表?

    铁路的售票系统会有一个车次管理系统,例2012年2月12日 D3206 车次,
    按预先设计的在哪台服务器的哪个库,建哪个表。

  2.建立元数据的规则:即具体如何分库分表的规则

    这个就是数据库的访问接口。

  3.数据库访问接口的透明程度

  即哪个层知道哪些元数据信息。
 例,是否让窗口售票的客户端来解析元数据的规则然后缓存,还是通过中间件来解析缓存的

 具体各层使用怎样透明程度,和业务性质、节点和数据中心的拓扑等有关。

 

四、历史数据归档与分析

  1.使用分库分表后,数据需要归档,分析处理的程序变得复杂,但使联机交易变得简单
  2.分析:要注意是针对热线数据分析、归档数据分析、混合分析有关,
   通过分库分表和归档,更方便使用分布式的统计方案。

  具体可以参考,淘宝的开放平台架构师写的文章:

   Beatles小记-分布式数据流分析框架(一)     http://www.blogjava.net/cenwenchu/archive/2011/12/07/365776.html

 

 结论:分库分表跟不分库分表,整个架构是完全不一样的。

   像铁票的售票系统、淘宝、电信、银行等,绝对要采用分库分表的数据存储方案,

   来解决数据量的增长而不影响性能的问题。

   像淘宝等互联网应用还要解决带宽即CDN问题。

 

供大家一起讨论、分享经验。

posted on 2012-01-14 22:39 新悟空 阅读(2776) 评论(16) 编辑 收藏
Comments
  • 个人知识管理      
    Posted @ 2012-01-14 23:12
    云数据库:可以简单归为如何分库分表?和由此此发的新问题。  回复 引用 查看   
  • 个人知识管理      
    Posted @ 2012-01-14 23:15
    在平时遇到的大数量的表,我们往往没有注意一开始架构时,要采用分表的方案,以致到上线发现问题,就只能分区。因为分表架构和不分表架构,在数据接口层、业务逻辑上有很大的不同。
    但目的就是一个:不让性能随数据的增长而下降。
    先满足前端的联机交易,后端的联机分析可以再择一方案处理
     回复 引用 查看   
  • 个人知识管理      
    Posted @ 2012-01-14 23:54
    王津THU:回复@网易汪源:您说的好,很多网站确实是分布式高并发的,但网站有五大宝:cacheserver\webserver\appserver\db连接池\db。这五大宝让网站程序员从高并发分布式事务中解脱出来只需要专心于具体业务逻辑的实现。其实高并发分布式事务问题很复杂,必须深入五大宝的原理和底层才明白  回复 引用 查看   
  • 遗忘海岸      
    Posted @ 2012-01-15 08:04
    我觉得,铁倒部应该请哥过去  回复 引用 查看   
  • 个人知识管理      
    Posted @ 2012-01-15 11:38
    如果写一篇能让别人以后在架构时,多想着分库分表,平时就做好技术积累。
    足啊。
    铁道部固有的利益体系,这辈子是没希望了。
    不管怎样,建言就只能是我们能做的;能被听到也是目的之一
    引用遗忘海岸:我觉得,铁倒部应该请哥过去
     回复 引用 查看   
  • 编程趋势      
    Posted @ 2012-01-15 13:21
    纸上谈兵把  回复 引用 查看   
  • Jerry Qian      
    Posted @ 2012-01-15 17:09
    分库之后,怎么才能让业务程序员以原来的方式调用dal层。而不关心数据是在哪个库哪个表,你有这方面的组件吗?  回复 引用 查看   
  • 个人知识管理      
    Posted @ 2012-01-15 17:56
    没有通用的,一般要根据业务特点定义接口规则后开发接口。
    要注意考虑数据库连接池的利用及考虑透明性如何安排等。

    引用Jerry Qian:分库之后,怎么才能让业务程序员以原来的方式调用dal层。而不关心数据是在哪个库哪个表,你有这方面的组件吗?
     回复 引用 查看   
  • Chairo      
    Posted @ 2012-01-15 18:13
    分库分表了,怎么计算最优换乘?  回复 引用 查看   
  • Lenic      
    Posted @ 2012-01-15 19:15
    很有启发意义,多谢了!  回复 引用 查看   
  • 个人知识管理      
    Posted @ 2012-01-15 19:20
    @Chairo
    最优换乘不是:联机交易问题。
    是线路排程的优化和择优问题
    引用Chairo:分库分表了,怎么计算最优换乘?
     回复 引用 查看   
  • 无色      
    Posted @ 2012-01-15 20:11
    铁路的系统又不是今年开始运行,24小时不断n年,对数据库是个挑战,包括升级,扩容,高并发。  回复 引用 查看   
  • Chairo      
    Posted @ 2012-01-15 20:21
    @个人知识管理
    联机交易中应该已经包含了查询时候选择最优换乘的吧....
     回复 引用 查看   
  • marco hsu      
    Posted @ 2012-01-15 20:23
    很有启发,谢谢楼主  回复 引用 查看   
  • 个人知识管理      
    Posted @ 2012-01-15 21:56
    最优换乘:是要根据路线规划和运营表来计算即可,和某个车次的联机交易关系不大。
    包括回程票的计算,和联机交易关系都不大。
    例:福州到苏州,经上海换乘,
    1、根据用户指定的始发时间及换乘的保险时间,计算出路线
    ==实际上铁路目前没有提供自动换乘,需要人工自己计算
    2、分别申请福州到上海、和上海到苏州的限时交易令牌
    用户可能只选择其中的某一个令牌进行交易,也可能全选
    交易、用户退出或超时后限时交易令牌失效
    3、非换乘的单张车票采用即时交易令牌

    这些是窗口实时售票的算法,互联网订票若采用分配算法,则不需要交易令牌

    引用Chairo:
    @个人知识管理
    联机交易中应该已经包含了查询时候选择最优换乘的吧....
     回复 引用 查看   
  • blackcat      
    Posted @ 2012-01-16 15:20
    就是啊。根本上是应用架构问题。数据访问量实在算不上是大。  回复 引用 查看