高性能数据库设计基础 - 设计范式

<约定>
        关系 <-> 表 
        属性 <-> 字段 
        元组 <-> 记录 
        插入异常:在进行插入数据时,无法将数据插入到数据库中,关系数据库无法操作,即为插入异常。 
        删除异常:删除一个关系中不必要的信息时,将不该删除的信息也删除了,即为删除异常。 
        更新异常:对数据库进行更新时,如有疏漏,某些记录被漏改,造成数据的不一致而出错,这即是更新异常。



引言

        数据库的设计范式是数据库设计所需要满足的规范,满足这些规范的数据库是简洁的、结构明晰的,同时,不会发生插入(insert)、删除(delete)和更新(update)操作异常。反之则是乱七八糟,不仅给数据库的编程人员制造麻烦,而且面目可憎,可能存储了大量不需要的冗余信息。 

范式主要分为: 

        1.第一范式 
        2.第二范式 
        3.第三范式 
        4.BC范式 
        5.第四范式 
        6.第五范式


第一范式(1NF):

        数据库表中的字段都是单一属性的,不可再分 (列的原子性)。 而且不包含重复列的表。1NF是关系模式应具备的最起码的条件,如果数据库设计不能满足第一范式,就不称为关系型数据库。关系数据库设计研究的关系规范化是在1NF之上进行的。


第二范式(2NF):

        如果关系模式R是1NF,且每个非主属性都完全函数依赖于整个候选键,那么就称R是第二范式。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。同时也包括:不设计没有主键,或没有唯一索引的表。另外:所有单关键字的数据库表都符合第二范式,因为不可能存在组合关键字。 

        举例:

        假定选课关系表为SelectCourse(学号, 姓名, 年龄, 课程名称, 成绩, 学分),关键字为组合关键字(学号, 课程名称),因为存在如下决定关系: 
                        (学号, 课程名称) → (姓名, 年龄, 成绩, 学分) 

        这个数据库表不满足第二范式,因为存在如下决定关系: 

                       (课程名称) → (学分)  
                       (学号) → (姓名, 年龄) 

        即存在组合关键字中的字段决定非关键字的情况。 

        由于不符合2NF,这个选课关系表会存在如下问题:
 
        (1) 数据冗余: 
                       同一门课程由n个学生选修,"学分"就重复n-1次;同一个学生选修了m门课程,姓名和年龄就重复了m-1次。
        (2) 更新异常: 
                若调整了某门课程的学分,数据表中所有行的"学分"值都要更新,否则会出现同一门课程学分不同的情况。 
        (3) 插入异常: 
                假设要开设一门新的课程,暂时还没有人选修。这样,由于还没有"学号"关键字,课程名称和学分也无法记录入数据库。 
        (4) 删除异常: 
                假设一批学生已经完成课程的选修,这些选修记录就应该从数据库表中删除。但是,与此同时,课程名称和学分信息也被删除了。很显然,这也会导致插入异常。 

        把选课关系表SelectCourse改为如下三个表: 

                学生:Student(学号, 姓名, 年龄); 
                课程:Course(课程名称, 学分); 
                选课关系:SelectCourse(学号, 课程名称, 成绩)。 

        这样的数据库表是符合第二范式的, 消除了数据冗余、更新异常、插入异常和删除异常。


       
第三范式(3NF):

        在第二范式的基础上,数据表中若每个非键列都独立于其它非键列且只依赖于主键,则该表使用的是第三范式。
        原则上说是对非主键之间的依赖关系能细分则细分。
        比如:
                一个表,原来设计为
                        Create TAble Clothes( 
                          ClothesID int primary key,--ID
                          Color     varchar(10),     --颜色
                          Description varchar(20)    --描述
                        )
                那么Color违反了第三范式,于是第三范式应该这样设计:
                        Create TAble Clothes( 
                          ClothesID int primary key,--ID
                          ColorID     Int,     --颜色ID
                          Description varchar(20)    --描述
                        )
                        Create Table Color(
                          ColorID int primary key,
                          Color  varchar(20)
                        )
                Color作为主表,Clothes作为子表,两者用ColorID互联.

        因此,满足第三范式的数据库表应该不存在如下依赖关系:

                关键字段 → 非关键字段x → 非关键字段y

        举例:

        假定学生关系表为Student(学号, 姓名, 年龄, 所在学院, 学院地点, 学院电话),关键字为单一关键字"学号",因为存在如下决定关系: 
                (学号) → (姓名, 年龄, 所在学院, 学院地点, 学院电话) 

        这个数据库是符合2NF的,但是不符合3NF,因为存在如下决定关系: 

                (学号) → (所在学院) → (学院地点, 学院电话) 

        即存在非关键字段"学院地点"、"学院电话"对关键字段"学号"的传递函数依赖。 

        它也会存在数据冗余、更新异常、插入异常和删除异常的情况,读者可自行分析得知。 

        把学生关系表分为如下两个表: 

                学生:(学号, 姓名, 年龄, 所在学院); 

                学院:(学院, 地点, 电话)。 

        这样的数据库表是符合第三范式的,消除了数据冗余、更新异常、插入异常和删除异常。 

        三范式设计的好处:减少数据冗余,提高系统可维护性,提高系统可扩展性。


BC范式(鲍依斯-科得范式):

        BC范式是第三范式的增强版,不过也有人说是直接从1NF发展过来的,即每个属性(包括主属性或非主属性),都完全依赖于候选键,并且不存在传递依赖情况(不存在关键字段决定关键字段 )。

        举例:

        假设仓库管理关系表为StorehouseManage(仓库ID, 存储物品ID, 管理员ID, 数量),且有一个管理员只在一个仓库工作;一个仓库可以存储多种物品。这个数据库表中存在如下决定关系: 

        (仓库ID, 存储物品ID) →(管理员ID, 数量) 

        (管理员ID, 存储物品ID) → (仓库ID, 数量) 

        所以,(仓库ID, 存储物品ID)和(管理员ID, 存储物品ID)都是StorehouseManage的候选关键字,表中的唯一非关键字段为数量,它是符合第三范式的。但是,由于存在如下决定关系: 

                (仓库ID) → (管理员ID) 

                (管理员ID) → (仓库ID) 

        即存在关键字段决定关键字段 的情况,所以其不符合BCNF范式。它会出现如下异常情况: 

        (1) 删除异常: 

                当仓库被清空后,所有"存储物品ID"和"数量"信息被删除的同时,"仓库ID"和"管理员ID"信息也被删除了。 

        (2) 插入异常: 

                当仓库没有存储任何物品时,无法给仓库分配管理员。 

        (3) 更新异常: 

                如果仓库换了管理员,则表中所有行的管理员ID都要修改。 

        把仓库管理关系表分解为二个关系表: 

                仓库管理:StorehouseManage(仓库ID, 管理员ID); 

                仓库:Storehouse(仓库ID, 存储物品ID, 数量)。 

        这样的数据库表是符合BCNF范式的,消除了删除异常、插入异常和更新异常。


第4范式(4NF):

        限制关系模式的属性之间不允许有非平凡且非函数依赖的多值依赖。在BCNF的前提下,消除多值依赖。函数依赖和多值依赖是两种最重要的数据依赖。如果只考虑函数依赖,则属于BCNF的关系模式规范化程度已最高了。如果考虑多值依赖,则属于4NF的关系模式规范化程度是最高的了。

        举例:

        product   | agentfactory
        Car            A1        F1
        Bus           A1         F2
        Car            A2         F2

        在这里,Car的定位,必须由 agent 和 Factory才能得到(所以主键由agent和factory组成),可以通过 product依赖了agent和factory两个属性

        所以正确的是

        表1                              表2:
        product   |   agent            factory  |   product
        Car            A1                  F1            Car
        Bus            A1                  F2            Car
        Car            A2                  F2             Bus

第5范式(5NF):

        关系模式R中的每一个连接依赖, 都是由R的候选键所蕴含, 称R是第五范式的。它要求能从由原始表分解和转换而得的新表中精确重建出原始表。利用第五范式可以确定在分解和转换过程中有没有数据丢失。是将表分割成尽可能小的块,为了排除在表中所有的冗余。
        看到定义,就知道是要消除连接依赖,并且必须保证数据完整。

        举例:

        A   |   B  |   C
        a1      b1   c1
        a2      b1   c2
        a1      b2  c1
        a2      b2   c2

        如果要定位到特定行,必须三个属性都为关键字。
        所以关系要变为 三个关系,分别是A 和B,B和C ,C和A 如下:

        表1                      表2                  表3
        A   |   B               B   |   C         C    |    A
        a1      b1            b1      c1         c1      a1                    
        a1      b2            b1      c2         c1      a2


结论:

       
范式可以避免数据冗余,减少数据库的空间,减轻维护数据完整性的麻烦,但是操作难,因为需要联系多个表才能得到所需要数据,而且越高范式性能就会越差。在数据库的设计中一个良好策略是将所有数据安排在使用第四范式的表中,然后决定该结果是否提供了一个可接受的性能级别。如果没有,则可将数据重新安排在使用第三范式的表中,然后重新评价性能。
posted @ 2007-08-05 00:46  不搽雪花膏  阅读(972)  评论(0编辑  收藏  举报