MIT公开课 | DNA大语言模型

本文记录MIT公开课"Machine Learning in Computational Biology 2024 (MLCB24)"第十二讲：DNA大语言模型。

关注公众号，后台回复“DNALLM”可获取本课程PPT和讲义！

授课教授介绍：

Eric Alm 是MIT生物工程教授 / Broad Institute 成员。其研究专注于人类微生物组在健康和疾病中的关键作用，结合计算和实验方法，探索微生物组工程在治疗中的创新应用。此外，他还致力于发掘低成本、非侵入性的生物标志物，以提高疾病检测和预防效率。

PPT及授课实录大意整理：

在本次课程中，我们将深入探讨DNA模型的应用，重点介绍它们在基因组分析中的作用，尤其是如何帮助我们理解复杂的生物过程。我们将讨论卷积神经网络（CNN）如何用于DNA序列数据的处理，RNA剪接位点的预测，以及利用深度学习算法进行DNA序列分析的新技术。

1. RNA剪接

RNA剪接是基因表达中的一个关键步骤，将前体mRNA中的内含子（非编码区）剪除，连接外显子（编码区）。这一过程对生成最终的mRNA至关重要，后者将被翻译为蛋白质。RNA剪接位点的预测就是确定剪接发生的位置，这对于理解基因调控和可变剪接事件非常重要，尤其是在癌症等遗传疾病的研究中。

RNA剪接的预测面临的挑战在于序列的变异性和可变剪接的复杂性。然而，机器学习方法如支持向量机（SVM）、随机森林以及深度学习方法如**卷积神经网络（CNN）和递归神经网络（RNN）**在这一领域取得了显著进展。比如，SpliceAI工具就能准确预测这些剪接事件，帮助基因注释和疾病研究。

2. 什么是卷积？

卷积是深度学习中常用的技术之一。卷积操作可以看作是通过滤波器（也叫核）对数据进行处理，从而提取数据中的特征。在处理DNA序列时，卷积神经网络（CNN）通过滑动窗口的方式，将滤波器应用到DNA序列上，提取出有效的序列特征。每个卷积层通过与输入数据进行元素级的乘法和求和操作，来识别DNA序列中的模式。

卷积的基本概念：

卷积核（Kernel）

：卷积操作的滤波器，在处理DNA序列时，通常是一个二维矩阵。
特征图（Feature Map）

：卷积后生成的输出，包含了DNA序列中的关键信息。
宽度（Width）

：卷积核的大小，决定了每次卷积所覆盖的输入区域。
步幅（Stride）

：卷积核滑动时的步长，决定了每次卷积操作的间隔。

卷积的优势在于它能够共享参数，从而减少计算量，并且具有平移不变性，意味着它能够识别不同位置的相同特征。

在DNA分析中，SpliceAI应用了卷积神经网络来预测RNA剪接位点，通过对DNA序列应用卷积操作，提取出关键的剪接位点特征。

3. DNA大模型（Foundation Model）

DNA大模型是一类大规模的神经网络，类似于语言模型（如GPT），它们通过训练大量的基因组数据，捕捉DNA序列中的规律和关系。这些模型能够在多种下游任务中发挥作用，如功能注释、突变影响预测、基因调控预测等。

与传统的基于规则的方法不同，DNA基础模型利用深度学习的优势，在预训练后，可以应用于许多不同的基因组学任务，极大地提高了效率。这些模型的优点在于它们能够从庞大的数据集中学习到全局性的序列模式，并且具备很强的迁移学习能力，可以通过微调来适应特定的任务。

DNA基础模型的应用：

功能注释

：预测基因、调控元件或突变的功能。
突变影响预测

：识别致病突变，预测它们对基因表达或蛋白功能的影响。
进化分析

：分析不同物种间的DNA序列保守性，理解突变偏好。

4. DNABERT模型

DNABERT是一种基于Transformer架构的DNA序列处理模型，它类似于BERT（双向编码器表示的Transformer）。通过将DNA序列分解成k-mer序列作为输入，DNABERT能够通过掩码预测技术，学习DNA序列的全局表示。这个过程类似于自然语言处理中的掩码语言模型，其目的在于理解DNA序列的内在规律。

DNABERT的应用：

功能注释

：通过对DNA序列进行训练，预测基因的功能。
突变影响预测

：通过学习DNA序列的规律，预测突变对基因表达的影响。
进化分析

：通过学习跨物种的DNA序列，理解基因组的演化趋势。

5. 高级技术：SegmentNT 和 HyenaDNA

在DNA序列的分析中，SegmentNT和HyenaDNA是两种创新技术。SegmentNT采用了U-Net架构，用于进行序列分割，它能够精准地从DNA序列中提取出有用的片段。HyenaDNA则采用了一种高效的**O(L log L)**算法，使得它能够在处理大规模基因组数据时保持高效性，适合于长序列的依赖关系建模。

这些方法的优势在于它们能够处理非常长的序列，同时能够高效提取其中的重要特征，是大规模基因组数据分析中的重要工具。