算法导论第十二章：二叉查找树

查找树是一种数据结构,它支持多种动态集合操作,包括search, minimum, maximum, predecessor, successor, insert以及delete。他既可以用作字典，也可以用作优先队列。

二叉查找树上基本操作的执行时间和树的高度成正比。对一棵n个结点的完全二叉树来说，这些操作的最坏情况运行时间为Θ(lgn)。但是如果树是含有那个结点的线性链，则这些操作的最坏运行时间是Θ(n)。本章可以看到一棵随机构造的二叉查找树的期望高度为O(lgn)。

实际中，并不能总是保证二叉查找树是随机构造的，但有些二叉查找树的变形能保证各种基本操作的最坏情况性能。第十三章介绍的红黑树，其高度为O(lgn)。第十八章介绍B树，这种结构对维护随机访问的二级存储器上的数据库特别有效。

二叉查找树

二叉查找树是按二叉树结构来组织的，每个结点除了key域和卫星数据外，还包含left，right和p。结点的存储方案满足以下性质：如果结点y是结点x左子树种的一个结点，则key[y]<=key[x]。如果y是x右子树中的一个结点，则key[x]<=key[y]。

对二叉查找树进行中序遍历可以有序输出所有的结点关键字。

练习：

12.1.3给出二叉树的一个非递归的中序遍历算法。

（1）可以用一个栈数据结构来模拟递归过程中的栈变化过程，从而完成非递归形式的遍历算法；

（2）也可以不借助栈数据结构，中序遍历的过程中是由从根到叶、从父到子的down过和从子到父的up过程组成的。在非递归的情况下，在处理某个节点x时，关键是要分清下一步是要down还是up。其实这可以由上一个结点位置来判断，如果上一个结点是x的父节点且x是它的左儿子，则应该往左down，如果x是它的右儿子，则应该up。如果上一结点是x的左儿子，则应该往右down，如果是x的右儿子，则应该up。

OPTYPE {down, up}

INORDER_WITHOUTSTACK（T）

1 Node x = root[T]

2 Node last_node = nil

3 OPTYPE last_op = down

4 while (!over)

5 switch (last_op)

6 Case down:

7 If (left[x]) last_node=x, last_op=down, x=left[x]

8 Else output(x);

9 if (right[x]) last_node=x, last_op=down, x=right[x]

10 Else if (x.p) last_node=x,last_op=up,x=x.p

11 Else over=true

12 Case up:

13 If (last_node = left[x]) output(x)

14 If (right[x]) last_node=x, last_op=down, x=right[x]

15 Else if (x.p) last_node=x,last_op=up,x=x.p

16 Else over=true

17 Else if (x.p) last_node=x,last_op=up,x=x.p

18 Else over=true

查询二叉查找树

查找关键字k：

从树根开始比较key[x]和k，如果key[x]=k停止，如果key[x]>k则往左子树查找，否则往右子树查找，如此循环。

最大关键字元素和最小关键字元素：

最大关键字就是树的最右结点：沿树根往右子节点移动，直到NIL。

最小关键字元素就是树的最左结点：沿树根往左子结点移动，直到NIL。

前驱和后继：

某个节点x的前驱：如果x有左子，那么前驱是左子树的最大关键字；否则从下往上查看x的祖先结点，直到某个节点y满足性质：x出现在y的右子树种。如果y存在，则y就是x的前驱，否则x没有前驱。

某个节点x的后继：如果x有右子，则x的后继是右子树的最小关键字；否则从下往上查看x的祖先结点，直到某个结点y满足性质：x出现在y的左字数中，如果y存在，则y是x的后继，否则x没有后继。

查找前驱和后继的最坏运行时间为lgn。

但对x查找其后继（前驱）的k个结点的运行时间为lgn+k，以前驱为例，证明如下：

假设x的左子树有k1个结点，如果k<k1，则k1时间内就可以完成，假设k1<k，遍历这k1个结点需要k1时间，找到下一个前驱需要往根方向移动，不妨设移动的距离为h1。如此往复。假设期间产生了 k1,k2,k3..，h1,h2…这些数据。可知 k1+k2+k3…<=k，h1+h2+…<=树的高度。所以运行时间k1+k2+k3+…+h1+h2+…<=lgn+k。

实际上，如果对树的最小结点调用n-1次后继操作，等同于中序遍历二叉查找树。

插入删除结点

插入一个结点与查找一个关键字的过程是基本一致的。当查找过程到达nil时，这个位置就是插入的位置。

删除的过程要稍微复杂一点：

（1）如果结点没有子节点，则直接删除。

（2）如果结点只有左子树或右子树，则删除该节点，然后用该子树的根节点来取代该节点的位置。

（3）如果该节点有左右子树，则将该节点的数据与其前驱或后继结点的数据进行交换，再删除该前驱或后继结点

随机构造的二叉查找树

二叉查找树的操作性能依赖于树的高度，为了避免坏的关键字顺序造成树的高度过高，可以采用随机化的手段来构造树。可以证明，随机构造的二叉查找树的期望高度为O(lgn)。

先定义三个随机变量：

Xn：n个结点的二叉查找树的高度；

Yn：指数高度Yn=2^Xn；Yn = 2*max(Yi-1,Yn-i)。

Rn：根节点的在关键字中的统计顺序。

Zn,i：定义指示器随机变量Zn,i=I{Rn=i}; E[Zn,i] = 1/n。

推理过程如下：

利用恒等式：,用数学归纳得出,再利用jensen不等式：，可得E[Xn] = O(lgn)。

随机构造二叉查找树与随机化快速排序比较

在构造二叉树的时候，当选定某个关键字称为根节点之后，那么比这个关键字大的关键字都将出现在该节点的右字数，小的关键字都将出现在左子树。这个过程与快速排序选定中轴节点的过程及其相似。进一步，所有的结点都将与根节点进行比较，但左子树中的结点不会与右子树的结点比较，反之亦然。可以看出构造二叉查找树的过程与快速排序的过程惊人地相似，实际上如果将选定根节点和选定中轴结点相对应，那么两者整个过程中所进行的元素比较是完全相同的，只是顺序不一致而已。

可以分析二叉查找树的平均结点深度。每个结点的深度等于其在插入树的过程中的比较次数，所有的比较次数之和平均为nlgn，因此平均的结点深度为lgn。

思考题

基数树：

基数树数据结构，用来存储0,1位串，位置串并没有存储在节点中，一个结点只要标明从根到该节点的路径是否构成一个有效位串。当查找某关键字a=a0a1…ap，时，在深度为i的一个结点处，如果ai=0，则向左转，如果ai=1则向右转。下图的基数树存储了位串0,001,10， 100，1011．白色结点为有效位串的终结结点。

设S为一组不同的二进制构成的集合，各串的长度之和为n。说明如何利用基数树，在Θ(n)时间内将S按字典顺序排序。

分析：构造基数树的过程很显然，假设一个位串的长度为k，则只需要时间k就可以将串插入基数树中。然后进行中序遍历就可以，按序输出。

如果将基数树扩展，是否可以用来存储一般的字符串，并加快查找过程？

posted on 2011-02-26 10:04 longhuihu 阅读(218) 评论(0) 收藏举报