从零学mRNA 疫苗 | 基于Transformer神经网络的脂质纳米颗粒(LNP)设计

最近正式踏入全新赛道,此前做科研服务,如今加入mRNA疫苗企业,一切都要从零开始系统学习。我相信,最好的学习方式就是持续输出,因此后续会在公众号定期更新mRNA疫苗相关的技术干货与学习笔记。
唠一句实在嗑,尽管mRNA算得上当下生物专业里最前沿、最热门、最具前景的方向,可实际收入却依旧低于深圳市平均工资,也让我越发觉得:选对行业、选对专业,真的太重要了。同样的能力与付出,在生物行业能拿到10万,换到其他行业往往20万都不止;即便生物行业里极少数顶尖技术大佬能做到30万,放在其他行业,收益早已突破百万
后续依旧会一边学习一边分享,也和大家一起聊聊生物行业的真实现状与技术干货。交流合作可以私信加我微信


脂质纳米颗粒(LNP)是核酸药物研发与应用的核心递送载体,其配方设计的优化直接决定核酸递送效能,但这一过程受多组分耦合、实验手段局限、传统计算模型适配性不足等多重难题制约,成为核酸疗法产业化的关键瓶颈。为破解这些问题,研究团队构建了包含超3000种LNP的LANCE大型数据集,并研发出基于Transformer架构的COMET复合材料Transformer模型,为LNP设计的难题提供了新的解决思路。本文将围绕LNP设计过程中存在的核心困难与挑战展开详细剖析,同时结合COMET模型的研发背景阐释这些问题的成因与突破方向。

本研究的创新点

● 建立了LANCE数据库:生成了目前最大的LNP数据集之一,包含超过3000种不同配方

● 开发COMET模型:基于Transformer神经网络的深度学习模型,能够准确预测LNP的效能

● 适配非经典配方:可以处理包含两种可电离脂质和聚合物材料的非典型LNP配方

LNP是什么?

脂质纳米颗粒(Lipid Nanoparticles,LNP),是由多种脂质组分按特定比例构成的纳米级递送载体,核心作用是帮助核酸(mRNA、siRNA 等)突破生物屏障,实现胞内递送,是 RNA 药物和疫苗的关键技术支撑。

为什么需要LNP?

核酸分子(mRNA、siRNA等)存在易被生物体内的核酸酶降解、易被先天免疫系统识别并清除的天然缺陷,且因自身带负电,无法穿透同样带负电的细胞膜,裸核酸难以抵达靶细胞并发挥胞内治疗作用,而LNP可通过脂质分子形成的纳米级结构包裹核酸,物理隔绝核酸酶与免疫细胞的攻击,大幅延长核酸在体内的半衰期;其核心组分可电离脂质能随体内pH值变化改变电荷属性,在细胞外呈中性便于运输,进入内体后呈正电并与内体膜融合,实现核酸的胞内释放,突破了核酸递送的核心生物屏障。同时,作为非病毒载体,LNP相较病毒载体无插入突变、免疫原性过强等潜在风险,生物相容性更佳,且其由可电离脂质、辅助脂质、固醇类、PEG化脂质等多组分构成,效能可通过调整脂质种类、摩尔比例及合成参数精准优化,还能拓展为双可电离脂质、聚合物-脂质杂化等非经典配方,适配不同靶细胞、核酸类型及给药方式,加之其合成工艺成熟,可通过自动化平台实现高通量制备,能满足核酸药物临床转化与产业化的大规模供应需求。此外,LNP的配方设计可进一步优化以提升稳定性,如适配冻干工艺解决常温储存难题,进一步支撑了核酸疗法的临床应用与推广,整体上有效解决了核酸分子递送的系列核心难题,为mRNA疫苗、基因编辑、肿瘤免疫治疗等各类核酸疗法从实验室走向临床奠定了关键基础。

LNP组成成分

  1. 可电离脂质:核心组分,负责结合带负电的核酸,帮助穿透细胞膜;

  2. 辅助脂质(如 DOPE):优化膜融合特性提升递送效率;

  3. 固醇类(如胆固醇):维持颗粒结构稳定性;

  4. PEG 化脂质(如 C14-PEG):调控颗粒尺寸,降低免疫原性。

  5. (可选)可拓展为双可电离脂质组合、聚合物 - 脂质杂化体系(如 PBAE 聚合物),适配更复杂的治疗场景。

LNP设计的挑战

LNP(脂质纳米颗粒)的效能由脂质组分、摩尔比例、合成参数等多维度因素共同决定,其设计过程受配方特性、实验手段、模型适配、应用场景及产业化等多重因素制约,结合研究成果,核心挑战与现存问题主要体现在多因素耦合的配方设计复杂性、实验优化的固有局限性、传统计算模型的适配缺陷、场景化适配的高要求、稳定性调控难题及体外体内转化壁垒六大方面。

  1. 配方多因素高度耦合,无统一优化规律。LNP 为多组分复合体系,经典配方包含可电离脂质、辅助脂质、固醇类、PEG 化脂质四类核心脂质,其效能不仅取决于单一脂质的分子结构,还与各脂质的摩尔比例、合成参数(N/P 比、水 / 有机相比、脂质 - mRNA 重量比)深度耦合,且所有因素的影响均呈现配方特异性—— 无单一的最优摩尔比例、合成参数能通用于所有脂质组合,甚至水 / 有机相比的调整对 LNP 效能的影响,还会随辅助脂质含量变化而改变。同时,双可电离脂质这类非经典配方的组分协同作用难以精准把控,仅部分强效可电离脂质能实现对弱效脂质的效能增强,且协同效果还受总可电离脂质含量调控,进一步提升了配方设计的复杂度。

  2. 传统实验优化手段效率低,无法覆盖全设计空间。LNP 的设计空间因脂质种类、比例及合成参数的组合呈现指数级扩张,传统实验优化方式耗时费力,难以对庞大的设计空间进行全面探索

  3. 传统计算模型适配性差,难以契合 LNP 复合特性。此前应用于 LNP 设计的机器学习模型多聚焦单一脂质分子(如仅针对可电离脂质的结构优化),忽略了 LNP 的多组分复合本质,无法整合分子结构、摩尔比例、合成参数等多模态特征

  4. 应用场景多样化,配方需针对性重新优化。不同靶细胞、核酸载荷对 LNP 的配方要求差异显著,跨细胞系的 LNP 转染活性相关性极低

  5. LNP 稳定性调控困难,冻干及常温储存效能损失难以预测

  6. 体外体内转化存在壁垒,体外优化配方未必适用于体内

模型训练所使用的 LANCE数据集

LANCE(Lipid–RNA Nanoparticle Composition and Efficacy)是专为 LNP 设计的大型数据集,为COMET模型提供全面、多维度的训练样本,核心围绕 LNP 配方设计的关键变量构建。

  1. 核心规模与测试体系:通过高通量自动化流体处理平台合成 LNP,共生成3028 种独特 LNP、超 6000 个标记数据点,均封装萤火虫荧光素酶 mRNA,在小鼠 DC2.4 和 B16-F10 两种细胞系中测试,以生物发光读数量化转染效能,为模型提供细胞特异性的效能标签。

  2. 四维正交设计框架:覆盖 LNP 配方设计的核心变量,分为四部分:脂质组分身份(7 种可电离脂质、3 种固醇、2 种辅助脂质、2 种 PEG 脂质的组合)、双可电离脂质协同(42 种二元可电离脂质配对)、合成参数(N/P 比、水 / 有机相比、脂质 - mRNA 重量比)、摩尔比例精细扫描(对可电离脂质、胆固醇、辅助脂质做 10%-80% 的 24 个等距梯度扫描),同时设计 13 种基础脂质摩尔比,充分捕捉配方参数的耦合效应。

  3. 标准化数据处理:实验设置两生物、两技术重复,以板内标准 LNP 校准原始生物发光值,经对数变换和最小 - 最大归一化将效能值映射至 0-1 区间,消除实验偏差,为模型提供高质量的标签数据;同时数据集捕捉了配方特异性、细胞特异性的效能规律,为模型学习结构 - 活性关系奠定基础。

图 1:COMET 模型整体架构与 LANCE 数据集设计框架

● 1a:LNP 的组成与效能关键影响参数。明确 LNP 由核酸(mRNA)+ 四类脂质组成,其效能不仅取决于脂质分子结构,还与摩尔比例、N/P 比、水 / 有机相比等合成参数高度相关。

● 1b:COMET 模型核心架构。展示模型从分子 / 摩尔 / 全局参数编码→Transformer 特征聚合→任务特异性预测头输出的全流程,引入 [CLS] 效能令牌实现 LNP 整体特征表征,支持多细胞系效能同时预测。

● 1c:LANCE 数据集的四维设计。围绕 LNP 配方关键变量分为 4 部分:脂质组分身份、双可电离脂质协同、合成参数、摩尔比例精细扫描,最终生成3028 种独特 LNP,覆盖 LNP 设计全维度。

● 1d:LANCE 数据集的 13 种基础脂质摩尔比。为研究摩尔比例对效能的影响,设计 13 种基准配比,通过单脂质类别梯度调整,捕捉比例与效能的关联规律。

COMET模型设计框架

COMET(Composite Material Transformer)是专为LNP多组分、多模态特性设计的基于 Transformer 架构的深度学习模型,核心突破了传统单分子建模的局限,实现了对 LNP 分子结构、摩尔比例、合成参数等多维度特征的端到端整合表征与效能预测,同时具备极强的灵活适配性,可支持非经典 LNP 配方、新型材料及不同应用场景的预测需求。

模型的输入数据编码

COMET对输入数据的编码核心是“分特征定制编码+维度统一”:分子结构编码为512维,摩尔百分比、全局参数均编码为256维,最终拼接为统一格式的特征序列,输入Transformer层进行后续特征聚合,既保留各特征的核心信息,又适配模型的计算逻辑。

  1. 分子结构特征(脂质/聚合物)

● 输入:脂质/聚合物的原子类型、3D空间坐标;

● 处理:通过预训练的Uni-Mol模型(冻结权重避免过拟合)端到端编码;

● 输出:256维分子嵌入向量,完整保留化学结构、官能团等核心信息。

  1. 摩尔百分比特征(各脂质组分占比)

● 输入:可电离脂质、胆固醇等各组分的摩尔百分比数值;

● 处理:先经共享高斯层生成128维数值嵌入,叠加128维脂质类别独热嵌入(区分脂质类型),再通过两层全连接MLP投影;

● 输出:256维组分表征向量,融合“比例数值+脂质类别”双重信息。

  1. 全局合成参数特征

● N/P比(连续数值):经独立的256维高斯层编码,输出256维向量;

● 水/有机相比(离散类别):采用256维独热编码,输出256维向量;

● 其他拓展参数(如脂质-mRNA重量比):可复用上述策略统一编码。

特征整合

统一特征序列【核心:拼接 + CLS 令牌,实现 LNP 整体表征】

输入数据经过编码输出为256向量列拼接后整合后成为输入transformer的特征矩阵

拼接示意如下

通用cls|任务特异性cls|可电离脂质|辅助脂质|固醇类|PEG 化脂质|摩尔百分比特征|全局合成参数特征|...

特点:

引入双 CLS 令牌体系是核心设计:通用 LNP 级 CLS 令牌负责聚合 LNP 配方的全局基础特征,任务特异性 CLS 令牌为每个预测任务(如 DC2.4 细胞效能、冻干稳定性)单独设计,实现 底层特征共享 + 任务特征专属,适配多任务学习;

无序列依赖:特征令牌的排列顺序不影响模型结果,完美适配 LNP 配方 “无固定组分顺序” 的特性。

Transformer 自注意力机制

这是模型能学习 LNP 多组分耦合规律的核心,也是区别于传统单分子建模的关键,由多头自注意力机制和多个 Transformer 块串联组成:

● 多头自注意力机制:为每个特征令牌分配动态注意力权重,自动识别对 LNP 效能起关键作用的特征

● Transformer 块:采用Pre-LayerNorm + 残差连接的经典结构

● 输出:仅保留任务特异性 CLS 令牌作为后续预测的输入,该令牌已聚合了 LNP 配方的所有特征信息和对应任务的专属特征信息,是 LNP 配方的 “数字化整体表征”。

任务特异性预测层

每个预测任务搭配一个独立的轻量化预测头(仅两层全连接 MLP),将聚合后的 CLS 令牌转化为单值连续型的 LNP 效能评分,直接用于实验中的配方排序、虚拟筛选,贴合药物研发的实际需求。

COMET模型训练过程

  1. LANCE数据集按照7:1:2分成训练、验证、测试三部分

  2. 在训练集种随机采样64个LNP,两两组合得到2016个LNP对(x_h,x_l)代表一对LNP效能高低区分

  3. 对于每个batch种的每个LNP前向传播得到64个分数:LNP配方 → 编码 → Transformer → CLS → MLP → 预测分数 ŷ

  4. 计算损失:L = -log Sigmoid( ŷ_h - ŷ_l - λ·(y_h - y_l) ) 括号内为预测分数差-实验标签差。这个batch的总loss=2016个loss取平均 。 λ=0.01为作者定义的超参数

  5. 反向传播 → 计算所有参数的梯度。如果是多任务(DC2.4 + B16-F10同时训练): CAGrad检查两个任务的梯度方向 如果冲突 → 调整梯度方向(系数0.2) ;如果一致 → 正常更新;→Adam优化器更新权重 (Uni-Mol部分冻结,不更新)

  6. 验证:把训练和验证集合并 → 切分为5份;
    Fold1: 模型1在 Fold2~5上训练,Fold1做验证 ;
    Fold2: 模型2在 Fold1,3,4,5上训练,Fold2做验证 ;
    ...以此类推

  7. 得到5个独立模型,预测时: 各模型分数先 z-normalize (减均值除标准差) 再取平均 → 最终分数

以下为文献结果部分

结果1. LNP 配方参数对转染效能的影响规律

利用 LANCE 数据集的高通量实验数据,系统揭示脂质选择、合成参数、双可电离脂质搭配、细胞系特异性对 LNP 效能的调控规律,验证数据集的有效性,也为 COMET 模型提供了生物学规律支撑。

● 2a:脂质种类对 DC2.4 细胞效能的影响。CKK-E12/C12-200作为可电离脂质的效能显著优于经典 MC3/SM-102;辅助脂质 DOPE、固醇胆固醇、PEG 脂质 C14-PEG 为高效配方的核心组分。

● 2b/c:水 / 有机相比的影响依赖辅助脂质含量。高辅助脂质含量时,水 / 有机相比从 3:1 改为 1:1 会显著提升效能(2b);低辅助脂质含量时该影响减弱(2c),DSPC 基配方中此影响可忽略。

● 2d:脂质 - mRNA 重量比对效能无显著关联。不同重量比下 LNP 效能无明显差异,说明该参数并非 LNP 效能的核心调控因素。

● 2e:双可电离脂质的协同效应。强效可电离脂质(CKK-E12/C12-200)可显著增强弱效脂质(L319/MC3)的效能,且CKK-E12/L319 组合效能优于单一组分 / 双强效组合,25% 总可电离脂质含量为最优比例。

● 2f:LNP 效能的跨细胞系特异性。DC2.4 和 B16-F10 细胞仅有 772 种配方为双高效;SM102 适配 DC2.4、DC - 胆固醇适配 B16-F10,证实不同细胞系需针对性优化配方。

结果 2:COMET 模型预测性能验证与虚拟筛选体外实验

COMET 模型预测精度高,各定制化优化模块可显著提升性能;虚拟筛选能快速发现高效 LNP 配方,且先导优化可精准提升现有配方效能,大幅减少实验工作量。

  • 3a:COMET 模型在不同测试集的预测性能。随机测试集上 Spearman 系数 0.873、Pearson 系数 0.866;模拟药物发现的 “命中测试集” 中仍保持 Spearman 0.725,且能 79.6% 精准将高效命中物排至前 50%。
  • 3b/c:消融实验验证各模型模块的贡献。成对排序损失(PO)优于回归损失(RO);集成学习是性能提升最显著的模块,噪声增强、CAGrad、标签边际项均能小幅提升模型精度。
  • 3d:COMET 虚拟筛选流程。分为探索性筛选(远离已知高效配方,筛选化学多样性命中物)和先导优化(围绕已知高效 LANCE 配方,微调比例 / 替换组分 / 调整 N/P 比)。
  • 3e/f:探索性命中物体外验证。COMET 筛选的命中物在 DC2.4/B16-F10 细胞中效能显著优于 SM-102/MC3 等临床基准配方。
  • 3g-l:先导优化物体验证。DC2.4 中 2/3 优化配方效能优于亲本,B16-F10 中 3/3 优化配方均优于亲本;仅 LA-580 因亲本效能已达天花板,优化无显著提升。



结果 3:COMET 模型的跨场景灵活适配性验证

验证 COMET 在新型材料(PBAE 聚合物)、新人源细胞系、新核酸载荷、冻干稳定性预测四大非经典场景的适配性,证实模型无需大幅修改架构,仅需少量数据即可实现精准预测。COMET 具备极强的场景泛化能力,无需重构架构,仅通过特征编码拓展 + 小数据集训练,即可适配非经典 LNP 配方、新型材料、新细胞系 / 载荷及稳定性预测,突破传统模型的应用边界。

  • 4a/b:PBAE 聚合物的结构与 COMET 编码方式。将 PBAE 的二丙烯酸 - 胺重复单元 + 支化剂作为第五类组分,赋予专属嵌入编码,与脂质组分统一整合入模型。
  • 4c/d:PBAE-LNP 预测性能。即使 PBAE 数据仅占训练集 13%,模型在 DC2.4/B16-F10 中仍保持 Spearman 0.767/0.756,预测精度优异。
  • 4e:PBAE 训练数据量对性能的影响。仅 17 个 PBAE 样本即可实现 Spearman 0.660,数据量增至 352 个时达 0.824,证实模型低数据场景适配性强。
  • 4f-i:PBAE-LNP 先导优化验证。优化配方在 DC2.4 中均优于亲本,B16-F10 中 1/2 优于亲本,证实模型可拓展至聚合物 - 脂质杂化体系。
  • 4j-m:新人源细胞系 / 新载荷预测。Caco-2(肠道细胞)、HepG2(肝癌细胞,IL-15 mRNA 载荷)中,模型经小数据集训练后,集成学习下 Spearman 均达 0.7 以上,精准预测效能。
  • 4n-o:冻干稳定性预测。仅 168 个样本训练后,模型可有效预测 LNP 冻干后的效能损失,集成学习后 Spearman 达 0.788,且发现冻干后高效配方的核心组分与常温不同(如 DC - 胆固醇更适配)。


结果 4:COMET 设计 LNP 的小鼠体内效能验证

将 COMET 虚拟筛选的高效命中物进行小鼠皮下给药体内实验,对比临床基准配方(SM-102/MC3)的效能、封装效率和细胞毒性,验证模型设计配方的体内实用性。COMET 设计的 LNP 还具备更高的 mRNA 封装效率和更低的细胞毒性,优于临床基准 SM-102,证实模型设计的配方兼具高效能与高安全性。

  • 5a:小鼠体内 6h 生物发光成像。COMET 设计的 DE-4/BE-1/DO-388-1 等配方,生物发光信号显著强于 SM-102/MC3,说明体内转染效能更高。
  • 5b:0-24h 总生物发光定量。COMET 设计配方的总发光量是 MC3 的 40 倍以上、SM-102 的 5 倍以上,体内效能提升显著。
  • 5c/d:不同时间点的生物发光通量。COMET 设计配方的转染动力学更快,在早期时间点即可达到高发光值,且持续时间长,表现出更优的体内递送特性。

结果 5:COMET 模型的可解释性分析

通过t-SNE 特征可视化和集成梯度特征重要性分析,解析 COMET 的预测决策逻辑,避免 “黑箱模型” 问题,为实验人员的 LNP 配方优化提供定量 + 可视化的指导依据。COMET 并非黑箱模型,其预测基于可解释的生物学规律,特征重要性分析可直接为实验配方优化指明方向(如优先选择 C14-PEG/DOPE、控制离子 izable 脂质摩尔比 < 50%),实现模型预测与实验研发的双向指导。

  • 6a-g:10000 个虚拟 LNP 的 t-SNE 可视化。高效 LNP 在特征空间形成明显的聚类分布,且存在双细胞系高效的通用聚类(绿色)、DC2.4 专属聚类(黄色)、B16-F10 专属聚类(蓝色);聚类与离子 izable 脂质选择、DC - 胆固醇含量、N/P 比(25-30 为优)、离子 izable 脂质摩尔比(<50% 为优)高度相关。
  • 6h-j:DC2.4 细胞的特征重要性。脂质身份是最核心影响因素,其次是 N/P 比、摩尔比例;脂质类别中 PEG 脂质(C14-PEG 最优)、可电离脂质选择最重要,摩尔比例中离子 izable / 辅助脂质占比影响最大。
  • 6k-m:B16-F10 细胞的特征重要性。规律与 DC2.4 基本一致,唯一差异为辅助脂质选择的重要性略高于可电离脂质,进一步证实 LNP 配方的细胞系特异性。


声明:本分享内容来自文献总结,不涉及公司机密内容。

posted @ 2026-03-05 15:04  生信探索  阅读(3)  评论(0)    收藏  举报