许多群体遗传学理论集中于描述等位基因随时间的变化,如果我们理解如何以及为什么等位基因的频率会发生改变,这对我们认识生物演化有很大的帮助.
有两个因素深刻的影响了等位基因频率的改变,一个是自然选择,另一个就是遗传漂变。遗传漂变是指有限大小的等位基因频率的随机改变。举一个例子,想象在一个小群体中的个体的自由交配,并产生一个新的群体。可能一些个体会产生更多的后代,而另一些个体产生的后代数量会少一些。这并不是因为自然选择,而是因为一些其它的因素,这些因素与遗传没有关系,比如一些个体可能在参与交配前就死掉了。此外,一些杂合个体会随机的将他的一个配体传递给后代,比如一个二倍体生物的基因型为Aa,基于孟德尔第一定律会随机的将配子A或是配子a传递给后代以上因素都会导致下一个世代中种群的基因频率和基因型频率不精确的等于当前世代对它的期望值.一个经典的例子是Buri的果蝇群体演化实验,每个世代随机的选取8个雄性和8个雌性果蝇,进行繁衍,通过果蝇眼睛的颜色对基因频率进行追踪。其中一个控制果蝇的眼睛颜色的等位基因我们设为A,初始的在种群中的基因频率为0.5,但经过19个世代之后,大部分情况下种群内只存在一种等位基因,也就是等位基因频率要么是0要么是1.上述结果表明,遗传漂变在种群基因频率的变化中发挥了重要作用。
种群遗传学家开发了大量不同的数学模型来描述遗传漂变,一个普遍使用的模型是Wright-Fisher 模型。我们对遗传漂变特性的讨论并不只限于Wright-Fisher模型,这些结果在其它模型上也是通用的。我们通过Wright-Fisher 模型可以让我们更方便的来理解遗传漂变所发挥的作用。
Wright-Fisher 模型假设存在一个单倍体群体,每个个体只携带有一套遗传信息。不存在有性生殖,也就是个体可以不依赖其它个体进行繁殖。这样的模型对细菌群体会非常适用。但是大部分情况下,双倍体生物基因频率的动态和单倍体模型的动态基本没有区别,有因为单倍体模型易于建模,所以我们会使用wright-fisher模型来近似双倍体模型.在这里我准备从单倍体的视角来进行推演。
首先,wright-fisher模型假设了一种离散的繁殖模式,我们定义同时期繁衍产生的一批生物被称为同一世代的生物,每当生物开始繁殖的时候,参与繁衍的个体都是最新的同世代的个体,旧世代的个体全部消亡。我们通常假设群体大小固定为N,这是因为我们希望模拟一个个体数为N的单倍体群体.基因进行传递的时候是通过随机可放回式抽样的方式来进行的,基因从世代t向世代t+1传递,也就是对t世代中基因的选择是独立且同等机会的。下一个世代中基因频率的计算可以通过二项分布来进行估计。
Haploid
通过Wright-Fisher 模型我们可以通过数学语言来描述基因频率的改变,假设我在当前世代t中的种群大小为N,他们都是单倍体,在这些单倍体生物中只具有基因型A和基因型a,基因型A的频数设为\(i\),基因型a的频数为\(i'\),
\[j+j' = N
\]
那么我们从当前世代的所有基因型的拷贝中进行随机抽取,那么我们得到一个基因型为A的概率为
\[p_{A} = \frac{i}{N}
\]
同理我们得到一个基因型为a的概率为
\[p_{a} = \frac{i'}{N}
\]
我们通过N次抽样得到一个种群大小为N的新世代的个体,这些个体中基因型A的频数为\(j\)的概率\(P(A,i,j)\)为
(\(P(A,i,j)\)表示的是当前世代中基因型A的频数为i,下一个世代中基因型A的频率为j的概率)
\[
P(A,i,j) = C_{N}^{j}(\frac{i}{N})^{j}(\frac{N-i}{N})^{N-j}
\]
这实际上是一个条件概率,
由于我们的种群中只存在2种基因型,当N不变的时候我们中种群的数量的状态是有限的,一个有N种:
\[\begin{array}{l}
A: N& a: 0\\
A: N-1& a: 1\\
A: N-2& a: 2\\
A: N-3& a: 3\\
...
A: 0& a: N\\
\end{array}{}
\]
我们的种群可以以这N种状态中的任意一种,开始演化,
那么根据不同的确定的初始状态,
我们能够构建一个马尔可夫序列的概率转移矩阵\(P = \{P_{ij}\}\),这个概率转移矩阵描述了经过一个世代之后,当给定不同的初始的种群的基因A数量状态,它转换成另一种初始状态的概率,这个矩阵被我们简称为一步概率转移矩阵
我们保持N固定不变,以N值为6举例,那么概率转移矩阵的解析形式为
\[\begin{array}{l}
\left. C_{6}^{0} \frac{0}{6}^{0} \frac{6}{6}^{6} \right. & \left. C_{6}^{1} \frac{0}{6}^{1} \frac{6}{6}^{5} \right. & \left. C_{6}^{2} \frac{0}{6}^{2} \frac{6}{6}^{4} \right. & \left. C_{6}^{3} \frac{0}{6}^{3} \frac{6}{6}^{3} \right. & \left. C_{6}^{4} \frac{0}{6}^{4} \frac{6}{6}^{2} \right. & \left. C_{6}^{5} \frac{0}{6}^{5} \frac{6}{6}^{1} \right. & \left. C_{6}^{6} \frac{0}{6}^{6} \frac{6}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{1}{6}^{0} \frac{5}{6}^{6} \right. & \left. C_{6}^{1} \frac{1}{6}^{1} \frac{5}{6}^{5} \right. & \left. C_{6}^{2} \frac{1}{6}^{2} \frac{5}{6}^{4} \right. & \left. C_{6}^{3} \frac{1}{6}^{3} \frac{5}{6}^{3} \right. & \left. C_{6}^{4} \frac{1}{6}^{4} \frac{5}{6}^{2} \right. & \left. C_{6}^{5} \frac{1}{6}^{5} \frac{5}{6}^{1} \right. & \left. C_{6}^{6} \frac{1}{6}^{6} \frac{5}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{2}{6}^{0} \frac{4}{6}^{6} \right. & \left. C_{6}^{1} \frac{2}{6}^{1} \frac{4}{6}^{5} \right. & \left. C_{6}^{2} \frac{2}{6}^{2} \frac{4}{6}^{4} \right. & \left. C_{6}^{3} \frac{2}{6}^{3} \frac{4}{6}^{3} \right. & \left. C_{6}^{4} \frac{2}{6}^{4} \frac{4}{6}^{2} \right. & \left. C_{6}^{5} \frac{2}{6}^{5} \frac{4}{6}^{1} \right. & \left. C_{6}^{6} \frac{2}{6}^{6} \frac{4}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{3}{6}^{0} \frac{3}{6}^{6} \right. & \left. C_{6}^{1} \frac{3}{6}^{1} \frac{3}{6}^{5} \right. & \left. C_{6}^{2} \frac{3}{6}^{2} \frac{3}{6}^{4} \right. & \left. C_{6}^{3} \frac{3}{6}^{3} \frac{3}{6}^{3} \right. & \left. C_{6}^{4} \frac{3}{6}^{4} \frac{3}{6}^{2} \right. & \left. C_{6}^{5} \frac{3}{6}^{5} \frac{3}{6}^{1} \right. & \left. C_{6}^{6} \frac{3}{6}^{6} \frac{3}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{4}{6}^{0} \frac{2}{6}^{6} \right. & \left. C_{6}^{1} \frac{4}{6}^{1} \frac{2}{6}^{5} \right. & \left. C_{6}^{2} \frac{4}{6}^{2} \frac{2}{6}^{4} \right. & \left. C_{6}^{3} \frac{4}{6}^{3} \frac{2}{6}^{3} \right. & \left. C_{6}^{4} \frac{4}{6}^{4} \frac{2}{6}^{2} \right. & \left. C_{6}^{5} \frac{4}{6}^{5} \frac{2}{6}^{1} \right. & \left. C_{6}^{6} \frac{4}{6}^{6} \frac{2}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{5}{6}^{0} \frac{1}{6}^{6} \right. & \left. C_{6}^{1} \frac{5}{6}^{1} \frac{1}{6}^{5} \right. & \left. C_{6}^{2} \frac{5}{6}^{2} \frac{1}{6}^{4} \right. & \left. C_{6}^{3} \frac{5}{6}^{3} \frac{1}{6}^{3} \right. & \left. C_{6}^{4} \frac{5}{6}^{4} \frac{1}{6}^{2} \right. & \left. C_{6}^{5} \frac{5}{6}^{5} \frac{1}{6}^{1} \right. & \left. C_{6}^{6} \frac{5}{6}^{6} \frac{1}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{6}{6}^{0} \frac{0}{6}^{6} \right. & \left. C_{6}^{1} \frac{6}{6}^{1} \frac{0}{6}^{5} \right. & \left. C_{6}^{2} \frac{6}{6}^{2} \frac{0}{6}^{4} \right. & \left. C_{6}^{3} \frac{6}{6}^{3} \frac{0}{6}^{3} \right. & \left. C_{6}^{4} \frac{6}{6}^{4} \frac{0}{6}^{2} \right. & \left. C_{6}^{5} \frac{6}{6}^{5} \frac{0}{6}^{1} \right. & \left. C_{6}^{6} \frac{6}{6}^{6} \frac{0}{6}^{0} \right.\\
\end{array}
\]
看着非常的复杂我们还可以给出他的数值形式,
\[\begin{array}{l}
1.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000\\
0.33490 & 0.40188 & 0.20094 & 0.05358 & 0.00804 & 0.00064 & 0.00002\\
0.08779 & 0.26337 & 0.32922 & 0.21948 & 0.08230 & 0.01646 & 0.00137\\
0.01562 & 0.09375 & 0.23438 & 0.31250 & 0.23438 & 0.09375 & 0.01562\\
0.00137 & 0.01646 & 0.08230 & 0.21948 & 0.32922 & 0.26337 & 0.08779\\
0.00002 & 0.00064 & 0.00804 & 0.05358 & 0.20094 & 0.40188 & 0.33490\\
0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 1.00000\\
\end{array}
\]
当我们给定一个确定的初始状态,或者关于初始状态的概率分布,我们就能够确定经过一个世代之后,种群中基因型A处于一种数量状态的概率
种群中基因型A数量的初始状态或者关于初始状态的概率分布我们可以通过一个长度为N的向量\(\pi\)来进行表示,它的第k个元素表示,当种群中基因A频数为k的概率
初始状态向量的元素之和为1
我们可以通过初始状态(行向量)右乘一个一步概率转移矩阵得到经过一个世代之后种群基因A数量状态的概率分布
\[
\pi_{1} =\pi_{0}\times P
\]
基于此我们可以得到经过t个世代之后,种群数量状态的概率分布
\[
\pi_{t} =\pi_{0}\times P^{t}
\]
上式中\(P^{t}\)被我们称为t步概率转移矩阵
我们现在约定当种群中同时存在基因型A和基因型a的时候,该种群处于过渡态,当种群中只存在基因型A和基因型a的时候我们称该种群处于稳定态
在教科书中我们可以看到,它会给出一张图来显示经过数个世代的模拟wright-fisher模型模拟演化后种群等位基因A数量状态的动态,随着时间的推移,种群似乎都会抵达稳定态,基本很难以过渡态的形式存在
我们从马尔可夫链的视角看也能够观察到这种趋势
我们以N = 6为例,看一下wright-fisher模型经过100个世代后它的t步概率转移矩阵
\[\begin{array}{l}
1.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000\\
0.83333 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.16667\\
0.66667 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.33333\\
0.50000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.50000\\
0.33333 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.66667\\
0.16667 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.83333\\
0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 1.00000\\
\end{array}
\]
可以看到经过100个世代之后,给定任意一个确定的初始状态,种群抵达过渡态的概率为0,只能抵达稳定态
所以基于单倍体wright-fisher模型我们可以给出一个命题
当世代数趋近于无穷大的时候,一个种群大小固定的含有两个基因型的单倍体群体,在wright fisher model的条件下,其中一个基因型必然被固定,而另一个基因型会丢失,种群不会以过渡态的形式存在。
我们该如何严谨的证明这个命题呢?
\[\begin{array}{l}
\left. C_{6}^{0} \frac{0}{6}^{0} \frac{6}{6}^{6} \right. & \left. C_{6}^{1} \frac{0}{6}^{1} \frac{6}{6}^{5} \right. & \left. C_{6}^{2} \frac{0}{6}^{2} \frac{6}{6}^{4} \right. & \left. C_{6}^{3} \frac{0}{6}^{3} \frac{6}{6}^{3} \right. & \left. C_{6}^{4} \frac{0}{6}^{4} \frac{6}{6}^{2} \right. & \left. C_{6}^{5} \frac{0}{6}^{5} \frac{6}{6}^{1} \right. & \left. C_{6}^{6} \frac{0}{6}^{6} \frac{6}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{1}{6}^{0} \frac{5}{6}^{6} \right. & \left. C_{6}^{1} \frac{1}{6}^{1} \frac{5}{6}^{5} \right. & \left. C_{6}^{2} \frac{1}{6}^{2} \frac{5}{6}^{4} \right. & \left. C_{6}^{3} \frac{1}{6}^{3} \frac{5}{6}^{3} \right. & \left. C_{6}^{4} \frac{1}{6}^{4} \frac{5}{6}^{2} \right. & \left. C_{6}^{5} \frac{1}{6}^{5} \frac{5}{6}^{1} \right. & \left. C_{6}^{6} \frac{1}{6}^{6} \frac{5}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{2}{6}^{0} \frac{4}{6}^{6} \right. & \left. C_{6}^{1} \frac{2}{6}^{1} \frac{4}{6}^{5} \right. & \left. C_{6}^{2} \frac{2}{6}^{2} \frac{4}{6}^{4} \right. & \left. C_{6}^{3} \frac{2}{6}^{3} \frac{4}{6}^{3} \right. & \left. C_{6}^{4} \frac{2}{6}^{4} \frac{4}{6}^{2} \right. & \left. C_{6}^{5} \frac{2}{6}^{5} \frac{4}{6}^{1} \right. & \left. C_{6}^{6} \frac{2}{6}^{6} \frac{4}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{3}{6}^{0} \frac{3}{6}^{6} \right. & \left. C_{6}^{1} \frac{3}{6}^{1} \frac{3}{6}^{5} \right. & \left. C_{6}^{2} \frac{3}{6}^{2} \frac{3}{6}^{4} \right. & \left. C_{6}^{3} \frac{3}{6}^{3} \frac{3}{6}^{3} \right. & \left. C_{6}^{4} \frac{3}{6}^{4} \frac{3}{6}^{2} \right. & \left. C_{6}^{5} \frac{3}{6}^{5} \frac{3}{6}^{1} \right. & \left. C_{6}^{6} \frac{3}{6}^{6} \frac{3}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{4}{6}^{0} \frac{2}{6}^{6} \right. & \left. C_{6}^{1} \frac{4}{6}^{1} \frac{2}{6}^{5} \right. & \left. C_{6}^{2} \frac{4}{6}^{2} \frac{2}{6}^{4} \right. & \left. C_{6}^{3} \frac{4}{6}^{3} \frac{2}{6}^{3} \right. & \left. C_{6}^{4} \frac{4}{6}^{4} \frac{2}{6}^{2} \right. & \left. C_{6}^{5} \frac{4}{6}^{5} \frac{2}{6}^{1} \right. & \left. C_{6}^{6} \frac{4}{6}^{6} \frac{2}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{5}{6}^{0} \frac{1}{6}^{6} \right. & \left. C_{6}^{1} \frac{5}{6}^{1} \frac{1}{6}^{5} \right. & \left. C_{6}^{2} \frac{5}{6}^{2} \frac{1}{6}^{4} \right. & \left. C_{6}^{3} \frac{5}{6}^{3} \frac{1}{6}^{3} \right. & \left. C_{6}^{4} \frac{5}{6}^{4} \frac{1}{6}^{2} \right. & \left. C_{6}^{5} \frac{5}{6}^{5} \frac{1}{6}^{1} \right. & \left. C_{6}^{6} \frac{5}{6}^{6} \frac{1}{6}^{0} \right.\\
\left. C_{6}^{0} \frac{6}{6}^{0} \frac{0}{6}^{6} \right. & \left. C_{6}^{1} \frac{6}{6}^{1} \frac{0}{6}^{5} \right. & \left. C_{6}^{2} \frac{6}{6}^{2} \frac{0}{6}^{4} \right. & \left. C_{6}^{3} \frac{6}{6}^{3} \frac{0}{6}^{3} \right. & \left. C_{6}^{4} \frac{6}{6}^{4} \frac{0}{6}^{2} \right. & \left. C_{6}^{5} \frac{6}{6}^{5} \frac{0}{6}^{1} \right. & \left. C_{6}^{6} \frac{6}{6}^{6} \frac{0}{6}^{0} \right.\\
\end{array}
\]
首先我们肯定很难直接去对这个矩阵进行特征值分解,至少我目前做不到
\[\begin{array}{l}
1.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000\\
0.33490 & 0.40188 & 0.20094 & 0.05358 & 0.00804 & 0.00064 & 0.00002\\
0.08779 & 0.26337 & 0.32922 & 0.21948 & 0.08230 & 0.01646 & 0.00137\\
0.01562 & 0.09375 & 0.23438 & 0.31250 & 0.23438 & 0.09375 & 0.01562\\
0.00137 & 0.01646 & 0.08230 & 0.21948 & 0.32922 & 0.26337 & 0.08779\\
0.00002 & 0.00064 & 0.00804 & 0.05358 & 0.20094 & 0.40188 & 0.33490\\
0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 1.00000\\
\end{array}
\]
\[\begin{array}{l}
1.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000\\
0.83333 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.16667\\
0.66667 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.33333\\
0.50000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.50000\\
0.33333 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.66667\\
0.16667 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.83333\\
0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 1.00000\\
\end{array}
\]
但是我们可以观察到对于它的一步转移概率矩阵,当状态为稳定态时,它转移为过渡态的概率为0,不管世代如何变化稳定态转移为稳定态的概率始终保持为1,另一方面当世代数很大的时候过渡态转移为过渡态所代表子矩阵的概率全都趋近于0
那我们首先对这个矩阵要做的事情就是进行矩阵的行交换和列交换,矩阵的行交换和列交换并不改变矩阵的值和对应状态转移的概率,这一步并不是必要的但是更方便我们进行矩阵的分块表示。
我们首先将矩阵的第N列,也就是给定状态后,种群基因A频数转移至N的概率和矩阵的第二列进行交换,之后我们通过行交换,将变换后矩阵的第N行也就是当种群中基因A频率为N是下一个世代转变为其他状态的概率和第而行进行交换。现在我们的概率转移矩阵可以通过矩阵分块进行如下表示
\[\left(\begin{array}{l}
I & O\\
A' & A\\
\end{array}\right)
\]
其中I表示稳定态经过一个世代转移至稳定态的概率转移矩阵,它是一个\((2\times2)\)的单位矩阵,O表示稳定态转移至过渡态的零矩阵
A‘是过渡态转移至稳定态的概率转移矩阵,A是过渡态转移至过渡态的概率转移矩阵
那么经过1个世代后上述矩阵变为
\[\left(\begin{array}{l}
I & O\\
A' & A\\
\end{array}\right)\left(\begin{array}{l}
I & O\\
A' & A\\
\end{array}\right)=\left(\begin{array}{l}
I & O\\
A'+AA' & A^2\\
\end{array}\right)
\]
经过2个世代之后
\[\left(\begin{array}{l}
I & O\\
A'+AA' & A^2\\
\end{array}\right)
\left(\begin{array}{l}
I & O\\
A' & A\\
\end{array}\right)=\left(\begin{array}{l}
I & O\\
A'+AA'+A^2A' & A^3\\
\end{array}\right)
\]
那么经过t个世代之后
\[\left(\begin{array}{l}
I & O\\
A' & A\\
\end{array}\right)^t = \left(\begin{array}{l}
I & O\\
\sum_{i=0}^{t-1}{A^{i}A'} & A^t\\
\end{array}\right) = \left(\begin{array}{l}
I & O\\
X(t) & A^t\\
\end{array}\right)
\]
我们要证明的第一个要点就是经过无穷个世代(\(t\rightarrow\infty\))之后从过渡态到过渡态的概率转移矩阵趋近于0矩阵
我选择从矩阵A的性质出发,我们知道它是一个大的概率转移矩阵的一部分,那么这个子矩阵的行向量之和必然小于1大于等于0
我们首先求一下两个矩阵A的乘积C看看有什么规律
设
\[A = \left(\begin{array}{l}
a_{11} & a_{12} & \cdots & a_{1n}\\
a_{21} & a_{22} & \cdots & a_{2n}\\
\vdots & \vdots & & \vdots\\
a_{n1} & a_{n2} & \cdots & a_{nn}\\
\end{array}\right)
\]
我列出两个矩阵A乘积的第j行
\[c_{j.} = (A\times A)_{j.}:\\
c_{j1} = a_{j1}a_{11}+a_{j2}a_{21}+a_{j3}a_{31}+...+a_{jn}a_{n1}\\
c_{j2} = a_{j1}a_{12}+a_{j2}a_{22}+a_{j3}a_{32}+...+a_{jn}a_{n2}\\
c_{j3} = a_{j1}a_{13}+a_{j2}a_{23}+a_{j3}a_{33}+...+a_{jn}a_{n3}\\
\cdots\\
c_{jn} = a_{j1}a_{1n}+a_{j2}a_{2n}+a_{j3}a_{3n}+...+a_{jn}a_{nn}\\
\]
我们对第j行进行求和
可以发现
\[\sum_{i=0}^{n}{c_{ji}} = a_{j1}\sum_{i=0}^{n}{a_{1i}}+a_{j2}\sum_{i=0}^{n}{a_{2i}}+...+a_{jn}\sum_{i=0}^{n}{a_{ni}}
\]
它表明新的矩阵C第j行的元素之和等于原矩阵A的第j行元素上一次列号对应行元素之和再求和,我们又知道矩阵A的行元素之和一定小于1大于0,所以得到的新的矩阵C的第j行的元素之和一定是要小于原矩阵A对应的第j行元素之和的
我们可以把这个结论进行推广对于两个不同的矩阵A和B,只要矩阵B的元素都大于等于0小于1,矩阵B的行上元素之和小于1,那么A右乘B得到的新的矩阵C的行向量元素绝对值之和一定是要小于矩阵A中对应行元素绝对值之和的,我们记这个结论为定理1
我们可以依次写出t步转移概率矩阵中A^t第j个行的元素之和的序列
那么根据上述推广的定理(这里我还是把过程补全),这个序列一定是一个递减序列
\[{S^1_{j},S^2_{j},S^3_{j},...S^t_{j},...}
\]
我们设
\[S^t_{j} = a^t_{j1}+a^t_{jn}+...+a^t_{jn}
\]
\[\begin{aligned}
& S^{t+1}_{j} = a^{t+1}_{j1}+a^{t+1}_{jn}+...+a^{t+1}_{jn} \\
& S^{t+1}_{j} = a^t_{j1}\sum_{i=0}^{n}{a^1_{1i}}+a^t_{jn}\sum_{i=0}^{n}{a^1_{2i}}+...+a^t_{jn}\sum_{i=0}^{n}{a^1_{ni}}\\
& M = \max\left\{\sum_{i=0}^{n}{a^1_{1i}},\sum_{i=0}^{n}{a^1_{2i}},...,\sum_{i=0}^{n}{a^1_{ni}}\right\}\\
& 0\le M \le 1\\
& S^{t+1}_{j} \le M \cdot (a^t_{j1}+a^t_{jn}+...+a^t_{jn}) = M \cdot S^t_{j} < S^t_{j}\\
& S^{t+1}_{j} < S^t_{j}\\
\end{aligned}
\]
我们还可以进一步推出
\[S_{j}^{t+k}\le M^{k}S^t_{j}
\]
那么根据单调有界收敛定理,我们指导这个知道这个数列一定会收敛至一个常数,同时我们又知道了这个数列比一个公比大于0小于1的等比数列还要小,因为很容易这样一个等比数列它一定会收敛于0的。
最后因为概率转移矩阵里肯定都是值大于等于0的数,这个子矩阵内部的数也必然大于等于0,子矩阵一行上的元素之和一定大于单独的元素,而我们刚刚推之子矩阵A的t次幂,t趋近于无穷的时候,它的行向量之和趋近于0,那么根据夹逼定理,每个元素也必然趋近于0.
因此我们现在可以说
当时间趋近于无穷的时候过渡态不可能转移至过渡态
\[\lim_{t\rightarrow \infty} P^{t} = \lim_{t\rightarrow \infty}
\left(\begin{array}{l}
I & O\\
X(t) & A^t\\
\end{array}\right) =
\left(\begin{array}{l}
I & O\\
\lim_{t\rightarrow \infty}X(t) & O\\
\end{array}\right)
\]
类似于定理1的证明思路,我们可以证明定理2
对于矩阵A和矩阵B,他们同时满足,行向量元素之和为1,那么矩阵A和B的乘积的行向量之和仍然为1
根据定理2我们就可以推之,子矩阵X(t)的元素大于等于0且行元素之和等于1
另外一点我们通过二项分布的计算公式可以知道X(1)肯定不等于0,另外我们知道两个值为正数的矩阵,他们的矩阵乘得到的矩阵值也一定是正数
所以X(t)的元素的元素都不为0,也就表明对于任意固定大小N,任意过渡态转移到基因A固定的状态或者基因A丢失的状态他们的概率都不为0
所以我们可以得出结论,对于wright-fisher model下有限大小的种群,在无限长的时间里,一种基因型必然固定或丢失
接下来我们来进一步讨论X(t)的形式,通过之前N = 6时的计算我们发现
\[\begin{array}{l}
1.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000\\
0.83333 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.16667\\
0.66667 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.33333\\
0.50000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.50000\\
0.33333 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.66667\\
0.16667 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.83333\\
0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 0.00000 & 1.00000\\
\end{array}
\]
X(t) 对应的部分和基因型A频数关系可能是
\[P(A,i,N) = \frac{i}{N}
\]
那么我们该如何严谨的去证明它呢
首先我们认为种群中每个个体都具有独一无二的基因型
我们现在来讨论当时间无限长的时候,种群的结局,我们关注种群中任意一个个体的基因型A,其它个体的基因型视为a,根据定义当基因型A固定其它基因型不可能存在,所以任意一种基因型的固定和其它基因型的存在是互斥事件,所以结局最终只能有N种
又因为不管我选择哪个个体的基因型作为A,它的初始状态一定是固定的也就是种群基因型A数量状态=1,又由于我们的概率转移矩阵已经确定那么经过无穷世代过后该个体的基因型被固定的概率\(p_i\)都应该是一个定值p,有因为我们已经知道最终的结局一共只有N种,即其中的一种基因型被固定那么
\[
\sum_{i=0}^{N}{p_i} = Np = 1\\
p = \frac{1}{N}
\]
那现在回到之前的问题,当我的种群中只存在两种基因型A,a,那么A的数量为\(N_A\)基因型A最终被固定的概率该如何计算呢
我们可以把该问题转化为具有标签A的个体的集合中至少有一个被固定的概率
我们将具有标签A的个体排好队
设k_i为具有标签A的第i个个体,k_{N_a}为具有标签A的第N_a个个体
由于我们之前已经知道任意一个个体的基因型的在种群中固定和其它基因型固定是互斥的
所以具有标签A的个体的集合中至少有一个固定这个事件由且仅由N_A个事件构成,即
{具有标签A的第i个个体的基因型在群体中被固定,i属于1~N_a}
所以该事件的概率为\(\frac{N_A}{N}\),证明完毕
Diploid
略