在小鼠DNA上训练DNA模型,比起人类DNA上训练,采用MLM训练,但是loss更低,什么原因

在对诸如 DNABERT 以及 Nucleotide Transformer 或是 HyenaDNA 等 DNA 模型进行掩码语言模型训练时,研究者往往会发现小鼠 DNA 上的训练损失普遍低于人类 DNA。这种现象通常源于基因组本身的统计学特征以及序列冗余度和进化动力学的差异。

其中最直接的影响因素在于重复序列的同质性。人类基因组中约有一半是重复序列,但由于其中的 Alu 元件等绝大多数序列非常古老,在数千万年的进化中积累了大量的点突变,导致它们变得极其碎片化且各不相同。这种高度变异的特性显著加大了模型预测掩码位点的难度。与之形成对比的是,小鼠的转座子活动远比人类频繁且更为年轻,这使得小鼠基因组中存在大量高度相似且演化时间较短的重复序列。模型能够轻易捕捉这些高度一致的模式,从而在预测时获得极低的损失。

除了序列重复性之外,基因组的压缩比与紧凑性也是关键因素。虽然小鼠基因组拥有与人类相当的基因数量,但其整体规模比人类基因组小了大约百分之十五。这意味着小鼠的内含子和基因间区等非编码区更为短小精悍。人类基因组中则充斥着更加漫长且复杂的非编码序列,这些序列往往带有更高的随机性或更复杂的长程依赖关系,从而增加了预测的挑战性。同时碱基分布的差异也不容忽视。人类 DNA 的 GC 含量分布非常广泛且不均匀,具有显著的等结构域结构,这种极端区域的存在提高了建模的复杂度。而小鼠 DNA 的 GC 含量分布相对更加均匀集中,从统计学角度来看,这种低方差的序列在局部表现出更低的信息熵,使模型更容易拟合其背景分布。

进化速率与中性变异的影响同样深远。尽管小鼠的世代时间短且进化速率快,但在单一参考基因组的预训练中,小鼠基因组往往经历了更剧烈的纯化选择或特定的序列扩张。相关研究表明,小鼠 DNA 在局部序列的统计规律上展现出比人类更高的预测性。此外数据饱和度在训练过程中也起到了推动作用。如果在训练时使用相同数量的标记,由于小鼠基因组较小,模型对小鼠基因组的覆盖倍数就会更高。在有限的训练周期内,模型更有可能记下或深度拟合小鼠序列中的常见基元,这直接导致了验证集上损失值的下降。

总而言之,小鼠 DNA 模型损失较低并不一定代表模型学到了更多深层规律,而更多是因为小鼠基因组在数学上更容易被预测。其更高的序列冗余度以及更年轻一致的重复序列,使得整体统计结构比人类基因组更为简单。为了进一步验证这一观点,可以尝试对比两者的困惑度差异,或者确认训练集中人类和小鼠的空位填充比例是否保持一致。通过跨物种零样本测试,即利用小鼠模型去预测人类序列并观察损失上升的幅度,也能帮助判断模型是否出现了过拟合。如果你有兴趣,我们可以进一步通过分析这两个物种序列在数学上的熵值差异,为这一猜想提供更坚实的证据。

posted @ 2026-03-23 21:19  ylifs  阅读(2)  评论(0)    收藏  举报