算法导论课后习题解析第五章

5.1-1
如果我们能够比较任意两个应聘者的优劣，那么我们就能够对所有的应聘者按照优劣进行排序，之后按顺序对每个人赋予rank值，这样我们就知道了原来应聘者rank值的序列。

5.1-2
要利用Random(0, 1)实现Random(a, b)，我们可以把问题转化为实现a+Random(0, b-a)。
之后可以利用Random(0, 1)来生成二进制下随机数的每一位。由于数的范围是$[0, b-a]$，所以位数的范围是$[1, 1 + \lfloor \lg {(b-a)} \rfloor]$。
如果生成的数大于b-a，就将其舍去重新生成，直到产生符合要求的数为止。

Random(a, b)
	n = 1, s = 2
	while s <= b - a
		n = n + 1
		s = s * 2
	r = b - a + 1
	while r > b - a
		for i = 1 to n
			r.bit[i] = Random01()
	return r + a

假设要生成的数最多为n，如果第一次生成的数成功那么每个数的概率为$(\frac 12)^n$；
如果第一次生成的数失败且失败的概率为p，那么第二次生成数成功时每个数的概率为$p (\frac 12)^n$，所以最终每个数生成的概率为 $$\sum_{i=0}^{\infty} {p^i (\frac 12)^n}$$ 即所得每个数的概率是相同的。
每一次生成需要的时间为$k=\lfloor \lg (b-a) \rfloor + 1$，第i次生成成功的概率为$1-p$，那么时间期望是 $$\eqalign { E(T) & = \sum_{i=1}^{\infty} { ik \cdot P\{T=ik\}} \\ & = \sum_{i=1}^{\infty} {ik \cdot p^{i-1}(1-p)} \\ & = k(1-p)\sum_{i=1}^{\infty}{i p ^{i-1}} \\ & = \frac {k}{1-p} \\ & = \frac {\lfloor \lg (b-a) \rfloor + 1}{1-p} }$$ 又 $$1 - p = \frac {b-a+1}{2^{\lfloor \lg (b-a) \rfloor +1}} \gt \frac {b-a+1}{2(b-a+1)}= \frac 12$$ $$\Rightarrow E(T) \lt 2(\lfloor \lg (b-a) \rfloor + 1) = O(\lg {(b-a)})$$

5.1-3
如果执行两次Biased-Random，出现两个1的概率为$p^2$，出现两个0的概率为$(1-p)^2$，出现一个1和一个0的概率是$2p(1-p)$。在0、1各一个的情况下，由于先出现1和后出现1的概率是相同的，所以可以利用这一点来设计等概率出现0、1的情况。

Random01()
	while true
		x = Biased-Random()
		y = Biased-Random()
		if x != y
			return x

$$\eqalign { E(T) & = \sum_{i=1}^{\infty} {2p(1-p)(1-2p(1-p))^{i-1})} \\ & = \frac {1}{2p(1-p)}\\ & = O(\frac {1}{2p(1-p)})}$$

5.2-1
当第一个应聘者就是最佳人选的时候只需要聘用一次，这时的概率为$1/n$。
当所有的应聘者按照从劣到优的顺序排列时需要聘用n次，此时的概率为$1/(n!)$。

5.2-2
由于第一个应聘者肯定会被聘用，所以第一个应聘者肯定不是最优的，设倒数第i好的应聘者的rank值为i，$r_i$为第i个应聘者的rank值，那么$1 \le r_1 \lt n$，记第一个应聘者的rank值为i的事件为$A_i$，出现两次聘用的事件为B，那么 $$P(A_i) = \frac {1}{n}$$ 最优的应聘者应该在比第一个应聘者rank值大的应聘者序列中第一个出现，概率为 $$P(B| A_i) = \frac {1}{n-i}$$ 所以总概率为 $$\eqalign {P(B) &= \sum_{i=0}^{n-1} {P(A_i) P(B|A_i)} \\ &= \sum_{i=0}^{n-1} {\frac 1n \frac 1{n-i}} \\ &= \frac 1n \sum_{i=1}^{n-1}{\frac 1i} \\ &= \frac 1n [\ln (n-1) +C]}$$

5.2-3
由于出现每个面的几率相同，为$1/n$，所以期望 $$E = \sum_{i=1}^{n} i\frac 1n = \frac {n+1}2$$

5.2-4
由于每个人拿到自己的帽子的概率是相同的，为$1/n$，设$A_i = 1$为第i个人拿到了自己的帽子，那么 $$P\{A_i = 1\} = \frac 1n$$ $$E(A_i) = 1 \cdot \frac 1n + 0 \cdot \frac {n-1}n = \frac 1n$$ $$E(A) = E(\sum_{i=1}^n A_i) = \sum_{i=1}^{n} {E(A_i)} = \sum_{i=1}^n {\frac 1n} = 1$$

5.2-5
设$A_{ij} = 1$为A[i], A[j]互为逆序对。由于序列是随机的，所以一个元素比另一个大的概率是1/2，即 $$P \{ A_{ij} = 1\} = \frac 12$$ $$E(A_{ij}) = 1 \cdot \frac 12 + 0 \cdot \frac 12 = \frac 12$$ $$\eqalign {E(A) &= E(\sum_{i=1}^{n-1}{\sum_{j=i+1}^{n}{A_{ij}}}) \\ & = \sum_{i=1}^{n-1}{\sum_{j=i+1}^{n}{E(A_{ij})}} \\ & = \sum_{i=1}^{n-1}{\sum_{j=i+1}^{n}{\frac 12}} \\ & = \frac 12 \frac {n(n-1)}2 }$$ 这道题也可以说明插入排序时平均的移动次数为最差时的一半。

5.3-1
只要把第一次循环结果作为初始条件即可

Randomize-In-Place(A)
	n = A.length
	swap A[1]  A[Random(1, n)]
	for i = 2 to n
		swap A[i]  A[Random(i, n)]

然后初始条件变为序列A[1, 1]以$1/n = (n-1)!/n!$的概率出现A的一种1-permutation，其他和原算法保持不变。

5.3-2
这个算法能够产生不同的全排列，但是不能够等可能的产生所有的全排列。例如，当A的长度为3的时候，与原先不同的全排列有n!-1 = 5种，但是该算法第一遍循环的时候放在A[1]的数有两种可能A[2]、A[3]，第二边循环的时候放在A[2]的数只有一种可能A[3]，所以一共能产生的全排列数为2，小于总的全排列数，故方法错误。

5.3-3
这个算法产生的每个全排列的可能性是不同的。例如，当A的长度为3的时候，该算法产生的结果一共有$3^3=27种可能$，但是长度为3的全排列最多有3!=6种，所以这些结果里肯定有相同的全排列。由于产生的结果需要均匀分布(uniform distribution)，所以出现的每种全排列的次数应该相同，但是由于27不能被6整除，所以每种全排列出现的可能是不同的，故算法错误。

5.3-4
由于产生的随机数范围是[1,n]，而全部的位置有n个，所以得到的位置不会重复并且所有位置都可能取到，故在每个位置上的概率相同为$1/n$。但是该算法是错误的，因为每次放到B中的位置是随机的，所以不能保证B中的每个位置都有赋值，故不能保证B是A的全排列。

5.3-5
取得全部不同的序列的种数为 $$A_{n^3}^n = \frac {n^3!}{(n^3-n)!}$$ 所有的种数为$(n^3)^n$，所以全部不同的概率 $$P(U) = \frac {A_{n^3}^n}{(n^3)^n} = \frac {n^3!}{(n^3-n)!(n^3)^n} \ge ( \frac {n^3-n}{n^3} )^n = (1-\frac 1{n^2})^n \ge 1-\frac 1n$$

5.3-6
如果产生了优先级相同的情况，那么重复生成一组优先级，直至出现全部不同的情况。

Not-Unique(A)
	n = A.length
	sort A to a new array B[1..n]
	for i = 1 to n - 1
		if B[i] == B[i + 1]
			return true
	return false

Randomize-By-Sorting2(A)
	n = A.length
	let P[1..n] be a new array
	do
		for i = 1 to n
			P[i] = Random(1, n*n*n)
	while Not-Unique(P)
	sort A, using P as sort keys

假设一次生成出现重复的概率为r，那么每种全排列出现的概率为 $$\sum_{i=i}^{\infty} {(1-r)r^{i-1}\frac 1{n!}} = \frac 1{n!}$$ 假设每次生成优先级并判断重复的时间为$k=O(n \lg n)$，那么总时间的期望为： $$E(T) = \sum_{i=1}^{\infty}{ki \cdot P\{T=ik\}} = \sum_{i=1}^{\infty}{ki (1-r)r^{i-1}}= \frac k{1-r}$$ 由5.3-5可知 $$1-r \ge 1-\frac 1n$$ 所以 $$E(T) = \frac k{1-r} \le \frac k{1- 1/n}=\frac {n}{n-1}k \le 2k = O(n \lg n)$$ 故算法的期望时间复杂度不变。

5.3-7

Initialization: 首先当$m=0,n=n_0$时，我们有$\varnothing$以概率$1/C_{n_0}^0=1$的概率成为$(1,\cdots,n_0)$的一个子集。
Maintenance: 接下来，每次迭代开始前我们假定有每种$(1,\cdots,n)$的m-子集S都以为概率$1/C_{n}^m$出现。新的子集可以看作原来的子集新添一个元素。令新子集包含数n+1的事件为B，出现一种包括数n+1的新子集的事件为$X_i$，取出的随机数$i \in S$的事件为C。如果C发生，那么B肯定发生： $$P(C) = \frac {m}{n+1} \qquad P(\overline{C}) = 1-\frac {m}{n+1} \\ P(BC) = P(B|C) \cdot P(C) = 1 \cdot \frac m{n+1} = \frac m {n+1}$$ 如果C不发生，那么数n+1有可能从剩下的n-m+1个数中选出，概率为： $$P(B \overline{C}) = P(B|\overline{C}) \cdot P(\overline{C}) = \frac {1}{n-m+1} \cdot (1-\frac {m}{n+1})=\frac {1}{n+1}$$ 这样就可知B的概率： $$P(B) = P(BC) + P(B \overline{C}) = \frac {m+1} {n+1}$$ 由于新的集合包含了之前的子集S，所以： $$P(X_i|B) = \frac {1}{C_{n}^m} \\ P(X_iB) = P(X_i|B) \cdot P(B) = \frac {m!(n-m)!(m+1)}{n!(n+1)} = \frac {(m+1)!(n+1-m-1)!}{(n+1)!} = \frac {1}{C_{n+1}^{m+1}}$$ $$P(X_i) = P(X_iB) + P(X_i\overline{B}) = \frac 1{C_{n+1}^{m+1}} + 0 = \frac 1{C_{n+1}^{m+1}}$$ 可知当新的集合包含数n+1时，每种可能都以相同概率出现。如果取出的随机数$i \not \in S$，增加的一个数能从剩下的n-m个数中取出，令出现不包括数n+1的新子集的事件为$Y_i$这时： $$P(Y_i|\overline{B}) = \frac {1}{C_n^m} \cdot \frac {1}{n-m}$$ 于是可以算出每种子集出现的概率： $$\eqalign {P(Y_i\overline{B}) & = P(Y_i|\overline{B}) \cdot P(\overline{B}) \\ & = \frac {1}{C_n^m} \cdot \frac {1}{n-m} \cdot \frac {n-m}{n+1} \\ & = \frac {m!(n-m)!(n-m)}{n!(n-m)(n+1)} \\ & = \frac {(m+1)!(n+1-m-1)!}{(n+1)!} \\ & = \frac {1}{C_{n+1}^{m+1}}}$$ $$P(Y_i) = P(Y_iB) + P(Y_i\overline{B}) = 0 + \frac 1{C_{n+1}^{m+1}} = \frac 1{C_{n+1}^{m+1}}$$ 由于当新子集包含和不包含数n+1时每种情况出现的概率都相同为$1/C_{n+1}^{m+1}$，当m和n增1之后满足了下一次迭代的前提。
Termination: 最后当迭代结束时，得到的m-子集的每种可能都以$1/C_n^m$的概率出现。

5.4-1
要考虑有人和你生日相同，我们可以考虑没有人和你生日相同的情况，一个人和你生日相同的概率为1/365，所以不同的概率为1-1/365，n个人都和你生日不同的概率为$(364/365)^n$，所以我们只要保证： $$(\frac {364}{365})^n \le \frac 12 \\ \Rightarrow n \ge -\frac 1{\lg {(364/365)}} \approx 253$$ 要有至少两个人生日是7.8，那么就要排除掉没有人生日是7.8和只有一个人是7.8的情况，概率为： $$(\frac {364}{365})^n + (\frac {364}{365})^{n-1} = (\frac {364}{365})^{n-1}(1+\frac 1{365})=\frac {366}{365}(\frac {364}{365})^{n-1} \le \frac 12 \\ \Rightarrow n \ge 1 - \frac {1+\lg (366/365)}{\lg {(364/365)}} \approx 255$$

5.4-2
显然当投掷次数小于2时不可能有箱子装有两个球，当投掷次数大于b时肯定有箱子装有两个以上的球。所以我们只要考虑$2 \le k \lt b$的情况。令第i次投掷后任意箱子球数小于2的事件为$B_i$，第i次投掷到空箱子的事件为$A_i$，那么： $$\begin{align} P(B_i) & = P(B_{i-1})P(A_i|B_{i-1}) \\ & = P(B_{i-1})P(A_{i-1}|B_{i-1})P(A_i|B_{i-1}) \\ & = P(B_1)P(A_2|B_1) \cdots P(A_i|B_{i-1}) \\ & = 1 \cdot \frac {b-1}{b} \cdot \frac {b-2}{b} \cdots \frac {b-i}{b} \end{align}$$ 那么第k次投中已有球的箱子的概率： $$\begin{align} P_k & = P(B_{k-1})P(\overline {A_k}|B_{k-1}) \\ & = \frac {k-1}{b} P(B_{k-1}) \\ & = \frac {(k-1)A_b^{k-1}}{b^k} \end{align}$$ 所以投掷次数的期望： $$E = \sum_{k=2}^b {k P_k}$$

5.4-3
只需要两两互斥即可，因为只用到了性质 $$P\{b_i=r, b_j=r\} = P\{b_i=r\} \cdot P\{b_j=r\}$$

5.4-4
利用随机变量指示器(indicator random variables)来求解，令： $$X_{ijk} = I \{ i,j,k三人拥有相同的生日 \}$$ 设第i个人的生日为$B_i$，一年有m天，则有： $$P\{b_i = r, b_j = r, b_k = r \} = P \{b_i = r\} \cdot P\{b_j=r\} \cdot P\{b_k=r\} = \frac 1{m^3}$$ 可以求得期望 $$E[X_{ijk}] = P\{X_{ijk} = 1\} = \sum_{r=1}^{m} {\frac 1{m^3}} = \frac 1{m^2}$$ 令X为三人生日相同的组数，总人数为n，可知： $$X = \sum_{i=1}^{m} {\sum_{j=i+1}^{m} {\sum_{k=j+1}^{m} {X_{ijk}}}} = \frac {m(m-1)(m-2)} {6n^2}$$ 当$m(m-1)(m-2) \ge 6n^2$时，有三个人生日相同的期望大于1，此时可以求得： $$m = \Theta (\sqrt [3] {n^2})$$

5.4-5
这是生日悖论(birthday paradox)的反问题，一个k-string相当于一个每个人的生日组成的序列，n相当于一年的天数，产生一个k-permutation即为每个人的生日都不相同。所以概率为： $$\frac {A_n^K}{n^k}$$

5.4-6
首先求空盒子数量的期望，令$X_i = I \{ 盒子i是空的 \}$，那么 $$E[X_i] = P\{ X_i = 1 \} = (\frac {n-1}{n})^n $$ 令X为空盒子的数量，那么 $$E[X] = \sum_{k=1}^n {E[X_k]} = \sum_{k=1}^n {(\frac {n-1}{n})^n} = n(1-\frac 1n)^n$$ 由于 $$\lim_{n\rightarrow \infty}{(1-\frac 1n)^n} = \frac 1e$$ 所以在n较大时空盒子数量的期望接近$n/e$。接下来考虑只有一个球的情况，令$X_i = I \{ 盒子i中有一个球 \}$，那么 $$E[X_i] = P\{ X_i = 1 \} = n(\frac {n-1}{n})^{n-1} \frac 1n = (\frac {n-1}{n})^{n-1}$$ 令X为空盒子的数量，那么 $$E[X] = \sum_{k=1}^n {E[X_k]} = \sum_{k=1}^n {(\frac {n-1}{n})^{n-1}} = n(1-\frac 1n)^{n-1}$$ 由于 $$n(1-\frac 1n)^{n-1} = n\frac {(1-\frac 1n)^n}{1-\frac 1n}$$ 所以在n较大时空盒子数量的期望接近$n^2/e(n-1)$。

5.4-7
令$A_{i,j}$表示从第i次开始至少有j个连续的H面出现，那么有 $$P\{ A_{i, \lg n - 2\lg {\lg n}} \} = \frac 1 {2^{\lg n - 2\lg {\lg n}}} = \frac {(\lg n)^2}{n}$$ 所以每个长度为$\lg n - 2\lg {\lg n}$的组都没有出现连续H面次数超过$\lg n - 2\lg {\lg n}$的概率为 $$\begin{align} (1-\frac {(\lg n)^2}{n})^{\frac {n}{\lg n - 2\lg {\lg n}}} & \le e^{-\frac {n/(\lg n - 2\lg {\lg n})-1}{n/(\lg n)^2}} \\ & = O(e^{-\lg n}) \\ & = O(\frac 1n) \end{align}$$

5-1

a) 令$X_i$代表第i次Increment操作后计数器增加的数，那么 $$P\{X_i = 0\} = 1 - \frac {1}{n_{i+1}-n_i}$$ $$P\{X_i = n_{i+1}-n_i \} = \frac {1}{n_{i+1}-n_i}$$ $$E[X_i] = 0 \cdot P\{X_i = 0\} + (n_{i+1}-n_i) \cdot P\{X_i = n_{i+1}-n_i \} = 1$$ 令$Y_n$表示n次Increment操作后计数器增加的数，可知期望为 $$E[Y_n] = \sum_{i=1}^n {X_i} = n $$

b) 求方差(variance)可以用到公式 $$D(\sum_{i=1}^n{X_i}) = \sum_{i=1}^n {D(X_i)}$$ $$D(X) = E[X^2] - E^2[X]$$ 所以 $$\begin{align} D(X_i) & = E[X_i^2] - E^2[X_i] \\ & = 100^2 \cdot \frac {1}{100} - 1 \\ & = 100 - 1 \\ & = 99 \end{align}$$ 求和可得$D(Y_n) = 99n$

5-2

a) 我的想法是利用一个长度为n的数组来标记某个元素是否被查看过，并且记录已经查看元素的数量，伪码如下：

Random-Search(A, key)
	n = A.length
	c = 0
	let B[1..n] be a new array
	for i = 1 to n
		B[i] = 0
	while c < n
		j = Random(1, n)
		if A[j] == key
			return j
		if B[j] == 0
			B[j] = 1
			c = c + 1
	return NIL

b) 令A为检查元素的次数，那么 $$P\{ A = k \} = \frac {1}{n} (\frac {n-1}{n})^{k-1}$$ 利用几何分布公式可以算出期望为 $$E[A] = \sum_{k=1}^{\infty} {k P\{ A = k \}} = n$$

c) 令A为检查元素的次数，那么 $$P\{ A = i \} = \frac {k}{n} (\frac {n-k}{n})^{i-1}$$ $$E[A] = \sum_{i=1}^{\infty} {i P\{ A = i \}} = \frac nk$$

d) 令$X_i$表示i-1个元素被检查过后检查到一个新元素的次数，令$X_{ij}$表示第i-1个元素被检查过后的j次检查发现了新元素，那么 $$P( X_{ij} ) = (\frac {1}{i-1})^{j-1} \frac {1}{n-i+1}$$ $$E[X_i] = \sum_{j=1}^{\infty} {j(\frac {i-1}{n})^{j-1} \frac {n-i+1}{n}} = \frac {n}{n-i+1}$$ 当算法终止时的检查次数为$X=X_1 + X_2 + \cdots + X_n$ $$\begin{align} E[X] & = E[\sum_{i=1}^n {X_i}] \\ & = \sum_{i=1}^{n} E[X_i] \\ & = \sum_{i=1}^n {\frac n{n-i+1}} \\ & = \sum_{i=1}^n {\frac n{i}} \\ & = n(\ln n + C) \\ & = O(n \lg n) \end{align}$$

e) 由于要找元素出现在每个位置的概率相同为$1/n$，所以期望为 $$E = \sum_{k=1}^n k\frac 1n = \frac {n+1}2$$

f) 如果有k个数符合要求，那么每个位置出现要找元素的概率为$k/n$，设X为要找的元素第一次出现的位置，那么概率为 $$P\{ X = i \} = \frac {k}{n} (\frac {n-k}{n})^{i-1}$$ 于是可得期望 $$E[X] = \sum_{i=1}^{n-k} {i \frac {k}{n} (\frac {n-k}{n})^{i-1}} \lt \frac nk = O(\frac nk)$$

g) 如果没有要找的元素，那么将所有元素遍历一遍之后介素，所以运行时间是n。

h) 可以将第二种方法(Deterministic Search)看作是第三种方法(Scramble Search)的一种特殊情况，其他的情况都是与这种特殊情况对等的，所以同理可得期望运行时间是$O(n/k)$，最差情况为n。

i) 第二种方式较好，时间复杂度和第三种一致，但是省去了产生全排列的过程。

posted @ 2013-05-15 16:44 有来有去阅读(4549) 评论(4) 收藏举报

刷新页面返回顶部

算法导论课后习题解析 第五章

公告

算法导论课后习题解析第五章