huangfox

冰冻三尺,非一日之寒!

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

首先需要说明的问题:

对于B树有人说是bTree,有人说是b-Tree,在本文我们统一使用英文描述(bTree、b-Tree、b+-Tree、b*-Tree),减少歧义。我理解bTree为二叉树,b-Tree、b+-Tree、b*-Tree为多叉树,且b+-Tree为b-Tree的变种,b*-Tree为b+-Tree的变种。我更倾向于将b树理解为b-Tree(有没有人读成b减树吧!?),而bTree就读成二叉树。

 

一)b-Tree

b-Tree是一种多路搜索树:

  1. 定义任意非叶子结点最多只有M个儿子;且M>2
  2. 根结点的儿子数为[2, M]
  3. 除根结点以外的非叶子结点的儿子数为[M/2, M]
  4. 每个结点存放至少M/2-1(取上整)和至多M-1个关键字;(至少2个关键字)
  5. 非叶子结点的关键字个数=指向儿子的指针个数-1
  6. 非叶子结点的关键字:K[1], K[2], …, K[M-1];且K[i] < K[i+1]
  7. 非叶子结点的指针:P[1], P[2], …, P[M];其中P[1]指向关键字小于K[1]子树,P[M]指向关键字大于K[M-1]的子树,其它P[i]指向关键字属于(K[i-1], K[i])的子树;
  8. 所有叶子结点位于同一层;

例如:

这棵b-Tree的m=3。

b-Tree的特性:

  1. 关键字集合分布在整颗树中;
  2. 任何一个关键字出现且只出现在一个结点中;
  3. 搜索有可能在非叶子结点结束;
  4. 其搜索性能等价于在关键字全集内做一次二分查找
  5. 自动层次控制;

 

二)b+-Tree

 b+-Tree是b-Tree的变体,也是一种多路搜索树:

  1. 其定义基本与B-树同,除了:
  2. 非叶子结点的子树指针与关键字个数相同;
  3. 非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树B-树是开区间);
  4. 为所有叶子结点增加一个链指针;
  5. 所有关键字都在叶子结点出现;

例如:

b+-Tree的特性:

  1. 所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好是有序的;
  2. 不可能在非叶子结点命中;
  3. 非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储(关键字)数据的数据层;
  4. 更适合文件索引系统;

 

三)b*-Tree

b*-Tree是b+-Tree的变体,在b+-Tree的非根和非叶子结点再增加指向兄弟的指针。

例如:

b*-Tree定义了非叶子结点关键字个数至少为(2/3)*M,即块的最低使用率为2/3(代替b+-Tree1/2);

b+-Tree的分裂:当一个结点满时,分配一个新的结点,并将原结点中1/2的数据复制到新结点,最后在父结点中增加新结点的指针;b+-Tree的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针。 b*-Tree的分裂:当一个结点满时,如果它的下一个兄弟结点未满,那么将一部分数据移到兄弟结点中,再在原结点插入关键字,最后修改父结点中兄弟结点的关键字(因为兄弟结点的关键字范围改变了);如果兄弟也满了,则在原结点与兄弟结点之间增加新结点,并各复制1/3的数据到新结点,最后在父结点增加新结点的指针。 所以,b*-Tree分配新结点的概率比 b*-Tree要低,空间使用率更高。

 

 

 

 

 

---------未完待续

 

 

posted on 2012-06-28 14:29  huangfox  阅读(835)  评论(0编辑  收藏  举报