【转】数据库反规范化

注:文章来自百度文库,具体作者不详

 

反规范化目标:确定是否放松规范化规则程度引入受控冗余数据来改善系统性能。

为什么要加入反规范化呢,原因在于规范化的目标是减少冗余和提高表设计的灵活性,但是与此同时也增加了在查询数据连接查询的难度。如果系统对查询的频率和性能要求很高,那么我们就不能不在设计和冗余上权衡,已得到一个折中的解决方法。而而折中的方式就是引入受控冗余来降低规范化程度。

       当然反规范化确实带来了不少缺点:

       1.反规范化是实现更加复杂

       2.反规范化经常会牺牲设计的灵活性

       3.反规范化可能加快检索速度,但是会减低更新和插入数据的速度

 

       对于反规范化,有以下类型可遵循的:

1.合并一对一的关系

       这个很容易理解,对于两个已有的一对一关系的表,将其合并,并选择其中的一个表的主键作为新表的主键。

2.复杂一对多关系的非键列来减少连接查询

       为了减少或删除经常性的查询链接,我们可以考虑对于一个 1:n 关系的两个表添加冗余项,其实际操作是在 1 关系中的主表中选取出经常被n 关系的表连接访问的属性,直接冗余添加的n 关系表中。例子:

  这是一个学生 – 部门表关系 , 假设如果系统每天要通过 student 表中的deptid 外键来查询department 的 deptname ,而且其频率是 10000 / day 。很明显,通过student 表中的deptid 外键来查询department 的 deptname 必须通过连接查询才能得到相关结果,而连接查询往往起查询速度 慢 直接表查询 一个数量级,在高频率访问的条件下,引入冗余,改造表来减低规范化程度如下:

 

在student 表中添加冗余项 deptname。这样可以大大的减少在此关系上的链接查询,进入提高的系统的性能。

3.复制多对多关系中的列来减少连接查询

      对于 n:m 关系的表,举个例子,其表结构应该是:

Student :Teacher  : 每一个学生都可以由多个老师教,每个老师也可以教多个学生。对于这样的一个表结构,其连接查询就在于 用关系表的外键来查询 student 和 teacher 表中相关的数据。,和明显,这里包含了两个连接步骤,如果查询频率过高,那么连接查询总体消耗的效率那就不言而喻了。对于这样的表,引入冗余点在于在 stu_tea 表中田间 student 或 teacher 表中的一些关键列,这些列式经常通过连接查询得到的。 

假设经常被连接查询的关键列式 student.name 和 teacher.teachername 。那可以考虑将这两列加入到 stu_tea 中。这样可以极大的减少连接查询的次数。

 

这样添加了 teachername 和 studentname ,减少了连接查询这两项属性的必要性。

4.引入重复列减少连接查询。

      其实在 1NF 是我们就要消除 重复属性列,一般一个表拥有重复属性列是因为他拥有了多值属性,在 1NF 中,我们一般都会将重复属性列拆解,将其分为 一个 1 :n 的关系,1关系代表主表,n 代表重复属性列值。

     但是如果考虑到 我们在查询重复属性列值的频率很高的情况下,那也可以考虑引入重复列来消除连接查询。例子:

 

 一个公司通常拥有过个办公电话, 则有 company : tel === 1 : n 。 为了得到某个某个公司的电话号码,我们必须先查询到相关公司的 companyid ,然后在从 tel 表中查询相关的电话号码。 如果这样的查询太过频繁,我们可以考虑的解决方法是:

 

5.使用分区表

       使用分区表通常都是用来解决一个含有非常大量数据的表的方法。对于这样的一个分解,有两种方法可选:

       水平分区法 20:80 : 将表中的记录分开放到几个较小的表。

 

垂直分区法: 将表中的列分布在一些较小的表中,通过复制原表的主键来保证可以重构原表。

 

       当然,反规范化的确加重了数据库维护数据完整性的代价,为了很好的保证数据库数据的一致性,我们可以选择的几种解决事务处理的方式来防止这种情况的发生。

       1.触发器:触发器可以用于自动派生的或复制数据

       2.事务:是整个数据处理过程都成为一个原子操作运行

       当然,当你对某个数据表引入了冗余,为了识别它们,我们要产生一个冗余项存档列表。

 

posted @ 2015-07-07 10:07  MERRU  阅读(1186)  评论(0)    收藏  举报