从零学mRNA 疫苗 | 基于Transformer神经网络的脂质纳米颗粒(LNP)设计
最近正式踏入全新赛道,此前做科研服务,如今加入mRNA疫苗企业,一切都要从零开始系统学习。我相信,最好的学习方式就是持续输出,因此后续会在公众号定期更新mRNA疫苗相关的技术干货与学习笔记。
唠一句实在嗑,尽管mRNA算得上当下生物专业里最前沿、最热门、最具前景的方向,可实际收入却依旧低于深圳市平均工资,也让我越发觉得:选对行业、选对专业,真的太重要了。同样的能力与付出,在生物行业能拿到10万,换到其他行业往往20万都不止;即便生物行业里极少数顶尖技术大佬能做到30万,放在其他行业,收益早已突破百万
后续依旧会一边学习一边分享,也和大家一起聊聊生物行业的真实现状与技术干货。交流合作可以私信加我微信

脂质纳米颗粒(LNP)是核酸药物研发与应用的核心递送载体,其配方设计的优化直接决定核酸递送效能,但这一过程受多组分耦合、实验手段局限、传统计算模型适配性不足等多重难题制约,成为核酸疗法产业化的关键瓶颈。为破解这些问题,研究团队构建了包含超3000种LNP的LANCE大型数据集,并研发出基于Transformer架构的COMET复合材料Transformer模型,为LNP设计的难题提供了新的解决思路。本文将围绕LNP设计过程中存在的核心困难与挑战展开详细剖析,同时结合COMET模型的研发背景阐释这些问题的成因与突破方向。
本研究的创新点
● 建立了LANCE数据库:生成了目前最大的LNP数据集之一,包含超过3000种不同配方
● 开发COMET模型:基于Transformer神经网络的深度学习模型,能够准确预测LNP的效能
● 适配非经典配方:可以处理包含两种可电离脂质和聚合物材料的非典型LNP配方
LNP是什么?
脂质纳米颗粒(Lipid Nanoparticles,LNP),是由多种脂质组分按特定比例构成的纳米级递送载体,核心作用是帮助核酸(mRNA、siRNA 等)突破生物屏障,实现胞内递送,是 RNA 药物和疫苗的关键技术支撑。
为什么需要LNP?
核酸分子(mRNA、siRNA等)存在易被生物体内的核酸酶降解、易被先天免疫系统识别并清除的天然缺陷,且因自身带负电,无法穿透同样带负电的细胞膜,裸核酸难以抵达靶细胞并发挥胞内治疗作用,而LNP可通过脂质分子形成的纳米级结构包裹核酸,物理隔绝核酸酶与免疫细胞的攻击,大幅延长核酸在体内的半衰期;其核心组分可电离脂质能随体内pH值变化改变电荷属性,在细胞外呈中性便于运输,进入内体后呈正电并与内体膜融合,实现核酸的胞内释放,突破了核酸递送的核心生物屏障。同时,作为非病毒载体,LNP相较病毒载体无插入突变、免疫原性过强等潜在风险,生物相容性更佳,且其由可电离脂质、辅助脂质、固醇类、PEG化脂质等多组分构成,效能可通过调整脂质种类、摩尔比例及合成参数精准优化,还能拓展为双可电离脂质、聚合物-脂质杂化等非经典配方,适配不同靶细胞、核酸类型及给药方式,加之其合成工艺成熟,可通过自动化平台实现高通量制备,能满足核酸药物临床转化与产业化的大规模供应需求。此外,LNP的配方设计可进一步优化以提升稳定性,如适配冻干工艺解决常温储存难题,进一步支撑了核酸疗法的临床应用与推广,整体上有效解决了核酸分子递送的系列核心难题,为mRNA疫苗、基因编辑、肿瘤免疫治疗等各类核酸疗法从实验室走向临床奠定了关键基础。
LNP组成成分
-
可电离脂质:核心组分,负责结合带负电的核酸,帮助穿透细胞膜;
-
辅助脂质(如 DOPE):优化膜融合特性提升递送效率;
-
固醇类(如胆固醇):维持颗粒结构稳定性;
-
PEG 化脂质(如 C14-PEG):调控颗粒尺寸,降低免疫原性。
-
(可选)可拓展为双可电离脂质组合、聚合物 - 脂质杂化体系(如 PBAE 聚合物),适配更复杂的治疗场景。
LNP设计的挑战
LNP(脂质纳米颗粒)的效能由脂质组分、摩尔比例、合成参数等多维度因素共同决定,其设计过程受配方特性、实验手段、模型适配、应用场景及产业化等多重因素制约,结合研究成果,核心挑战与现存问题主要体现在多因素耦合的配方设计复杂性、实验优化的固有局限性、传统计算模型的适配缺陷、场景化适配的高要求、稳定性调控难题及体外体内转化壁垒六大方面。
-
配方多因素高度耦合,无统一优化规律。LNP 为多组分复合体系,经典配方包含可电离脂质、辅助脂质、固醇类、PEG 化脂质四类核心脂质,其效能不仅取决于单一脂质的分子结构,还与各脂质的摩尔比例、合成参数(N/P 比、水 / 有机相比、脂质 - mRNA 重量比)深度耦合,且所有因素的影响均呈现配方特异性—— 无单一的最优摩尔比例、合成参数能通用于所有脂质组合,甚至水 / 有机相比的调整对 LNP 效能的影响,还会随辅助脂质含量变化而改变。同时,双可电离脂质这类非经典配方的组分协同作用难以精准把控,仅部分强效可电离脂质能实现对弱效脂质的效能增强,且协同效果还受总可电离脂质含量调控,进一步提升了配方设计的复杂度。
-
传统实验优化手段效率低,无法覆盖全设计空间。LNP 的设计空间因脂质种类、比例及合成参数的组合呈现指数级扩张,传统实验优化方式耗时费力,难以对庞大的设计空间进行全面探索
-
传统计算模型适配性差,难以契合 LNP 复合特性。此前应用于 LNP 设计的机器学习模型多聚焦单一脂质分子(如仅针对可电离脂质的结构优化),忽略了 LNP 的多组分复合本质,无法整合分子结构、摩尔比例、合成参数等多模态特征
-
应用场景多样化,配方需针对性重新优化。不同靶细胞、核酸载荷对 LNP 的配方要求差异显著,跨细胞系的 LNP 转染活性相关性极低
-
LNP 稳定性调控困难,冻干及常温储存效能损失难以预测
-
体外体内转化存在壁垒,体外优化配方未必适用于体内
模型训练所使用的 LANCE数据集
LANCE(Lipid–RNA Nanoparticle Composition and Efficacy)是专为 LNP 设计的大型数据集,为COMET模型提供全面、多维度的训练样本,核心围绕 LNP 配方设计的关键变量构建。
-
核心规模与测试体系:通过高通量自动化流体处理平台合成 LNP,共生成3028 种独特 LNP、超 6000 个标记数据点,均封装萤火虫荧光素酶 mRNA,在小鼠 DC2.4 和 B16-F10 两种细胞系中测试,以生物发光读数量化转染效能,为模型提供细胞特异性的效能标签。
-
四维正交设计框架:覆盖 LNP 配方设计的核心变量,分为四部分:脂质组分身份(7 种可电离脂质、3 种固醇、2 种辅助脂质、2 种 PEG 脂质的组合)、双可电离脂质协同(42 种二元可电离脂质配对)、合成参数(N/P 比、水 / 有机相比、脂质 - mRNA 重量比)、摩尔比例精细扫描(对可电离脂质、胆固醇、辅助脂质做 10%-80% 的 24 个等距梯度扫描),同时设计 13 种基础脂质摩尔比,充分捕捉配方参数的耦合效应。
-
标准化数据处理:实验设置两生物、两技术重复,以板内标准 LNP 校准原始生物发光值,经对数变换和最小 - 最大归一化将效能值映射至 0-1 区间,消除实验偏差,为模型提供高质量的标签数据;同时数据集捕捉了配方特异性、细胞特异性的效能规律,为模型学习结构 - 活性关系奠定基础。


图 1:COMET 模型整体架构与 LANCE 数据集设计框架
● 1a:LNP 的组成与效能关键影响参数。明确 LNP 由核酸(mRNA)+ 四类脂质组成,其效能不仅取决于脂质分子结构,还与摩尔比例、N/P 比、水 / 有机相比等合成参数高度相关。
● 1b:COMET 模型核心架构。展示模型从分子 / 摩尔 / 全局参数编码→Transformer 特征聚合→任务特异性预测头输出的全流程,引入 [CLS] 效能令牌实现 LNP 整体特征表征,支持多细胞系效能同时预测。
● 1c:LANCE 数据集的四维设计。围绕 LNP 配方关键变量分为 4 部分:脂质组分身份、双可电离脂质协同、合成参数、摩尔比例精细扫描,最终生成3028 种独特 LNP,覆盖 LNP 设计全维度。
● 1d:LANCE 数据集的 13 种基础脂质摩尔比。为研究摩尔比例对效能的影响,设计 13 种基准配比,通过单脂质类别梯度调整,捕捉比例与效能的关联规律。
COMET模型设计框架
COMET(Composite Material Transformer)是专为LNP多组分、多模态特性设计的基于 Transformer 架构的深度学习模型,核心突破了传统单分子建模的局限,实现了对 LNP 分子结构、摩尔比例、合成参数等多维度特征的端到端整合表征与效能预测,同时具备极强的灵活适配性,可支持非经典 LNP 配方、新型材料及不同应用场景的预测需求。
模型的输入数据编码
COMET对输入数据的编码核心是“分特征定制编码+维度统一”:分子结构编码为512维,摩尔百分比、全局参数均编码为256维,最终拼接为统一格式的特征序列,输入Transformer层进行后续特征聚合,既保留各特征的核心信息,又适配模型的计算逻辑。
- 分子结构特征(脂质/聚合物)
● 输入:脂质/聚合物的原子类型、3D空间坐标;
● 处理:通过预训练的Uni-Mol模型(冻结权重避免过拟合)端到端编码;
● 输出:256维分子嵌入向量,完整保留化学结构、官能团等核心信息。
- 摩尔百分比特征(各脂质组分占比)
● 输入:可电离脂质、胆固醇等各组分的摩尔百分比数值;
● 处理:先经共享高斯层生成128维数值嵌入,叠加128维脂质类别独热嵌入(区分脂质类型),再通过两层全连接MLP投影;
● 输出:256维组分表征向量,融合“比例数值+脂质类别”双重信息。
- 全局合成参数特征
● N/P比(连续数值):经独立的256维高斯层编码,输出256维向量;
● 水/有机相比(离散类别):采用256维独热编码,输出256维向量;
● 其他拓展参数(如脂质-mRNA重量比):可复用上述策略统一编码。
特征整合
统一特征序列【核心:拼接 + CLS 令牌,实现 LNP 整体表征】
输入数据经过编码输出为256向量列拼接后整合后成为输入transformer的特征矩阵
拼接示意如下
通用cls|任务特异性cls|可电离脂质|辅助脂质|固醇类|PEG 化脂质|摩尔百分比特征|全局合成参数特征|...
特点:
引入双 CLS 令牌体系是核心设计:通用 LNP 级 CLS 令牌负责聚合 LNP 配方的全局基础特征,任务特异性 CLS 令牌为每个预测任务(如 DC2.4 细胞效能、冻干稳定性)单独设计,实现 底层特征共享 + 任务特征专属,适配多任务学习;
无序列依赖:特征令牌的排列顺序不影响模型结果,完美适配 LNP 配方 “无固定组分顺序” 的特性。
Transformer 自注意力机制
这是模型能学习 LNP 多组分耦合规律的核心,也是区别于传统单分子建模的关键,由多头自注意力机制和多个 Transformer 块串联组成:
● 多头自注意力机制:为每个特征令牌分配动态注意力权重,自动识别对 LNP 效能起关键作用的特征
● Transformer 块:采用Pre-LayerNorm + 残差连接的经典结构
● 输出:仅保留任务特异性 CLS 令牌作为后续预测的输入,该令牌已聚合了 LNP 配方的所有特征信息和对应任务的专属特征信息,是 LNP 配方的 “数字化整体表征”。
任务特异性预测层
每个预测任务搭配一个独立的轻量化预测头(仅两层全连接 MLP),将聚合后的 CLS 令牌转化为单值连续型的 LNP 效能评分,直接用于实验中的配方排序、虚拟筛选,贴合药物研发的实际需求。
COMET模型训练过程
-
LANCE数据集按照7:1:2分成训练、验证、测试三部分
-
在训练集种随机采样64个LNP,两两组合得到2016个LNP对(x_h,x_l)代表一对LNP效能高低区分
-
对于每个batch种的每个LNP前向传播得到64个分数:LNP配方 → 编码 → Transformer → CLS → MLP → 预测分数 ŷ
-
计算损失:L = -log Sigmoid( ŷ_h - ŷ_l - λ·(y_h - y_l) ) 括号内为预测分数差-实验标签差。这个batch的总loss=2016个loss取平均 。 λ=0.01为作者定义的超参数
-
反向传播 → 计算所有参数的梯度。如果是多任务(DC2.4 + B16-F10同时训练): CAGrad检查两个任务的梯度方向 如果冲突 → 调整梯度方向(系数0.2) ;如果一致 → 正常更新;→Adam优化器更新权重 (Uni-Mol部分冻结,不更新)
-
验证:把训练和验证集合并 → 切分为5份;
Fold1: 模型1在 Fold2~5上训练,Fold1做验证 ;
Fold2: 模型2在 Fold1,3,4,5上训练,Fold2做验证 ;
...以此类推 -
得到5个独立模型,预测时: 各模型分数先 z-normalize (减均值除标准差) 再取平均 → 最终分数
以下为文献结果部分
结果1. LNP 配方参数对转染效能的影响规律
利用 LANCE 数据集的高通量实验数据,系统揭示脂质选择、合成参数、双可电离脂质搭配、细胞系特异性对 LNP 效能的调控规律,验证数据集的有效性,也为 COMET 模型提供了生物学规律支撑。
● 2a:脂质种类对 DC2.4 细胞效能的影响。CKK-E12/C12-200作为可电离脂质的效能显著优于经典 MC3/SM-102;辅助脂质 DOPE、固醇胆固醇、PEG 脂质 C14-PEG 为高效配方的核心组分。
● 2b/c:水 / 有机相比的影响依赖辅助脂质含量。高辅助脂质含量时,水 / 有机相比从 3:1 改为 1:1 会显著提升效能(2b);低辅助脂质含量时该影响减弱(2c),DSPC 基配方中此影响可忽略。
● 2d:脂质 - mRNA 重量比对效能无显著关联。不同重量比下 LNP 效能无明显差异,说明该参数并非 LNP 效能的核心调控因素。
● 2e:双可电离脂质的协同效应。强效可电离脂质(CKK-E12/C12-200)可显著增强弱效脂质(L319/MC3)的效能,且CKK-E12/L319 组合效能优于单一组分 / 双强效组合,25% 总可电离脂质含量为最优比例。
● 2f:LNP 效能的跨细胞系特异性。DC2.4 和 B16-F10 细胞仅有 772 种配方为双高效;SM102 适配 DC2.4、DC - 胆固醇适配 B16-F10,证实不同细胞系需针对性优化配方。


结果 2:COMET 模型预测性能验证与虚拟筛选体外实验
COMET 模型预测精度高,各定制化优化模块可显著提升性能;虚拟筛选能快速发现高效 LNP 配方,且先导优化可精准提升现有配方效能,大幅减少实验工作量。
- 3a:COMET 模型在不同测试集的预测性能。随机测试集上 Spearman 系数 0.873、Pearson 系数 0.866;模拟药物发现的 “命中测试集” 中仍保持 Spearman 0.725,且能 79.6% 精准将高效命中物排至前 50%。
- 3b/c:消融实验验证各模型模块的贡献。成对排序损失(PO)优于回归损失(RO);集成学习是性能提升最显著的模块,噪声增强、CAGrad、标签边际项均能小幅提升模型精度。
- 3d:COMET 虚拟筛选流程。分为探索性筛选(远离已知高效配方,筛选化学多样性命中物)和先导优化(围绕已知高效 LANCE 配方,微调比例 / 替换组分 / 调整 N/P 比)。
- 3e/f:探索性命中物体外验证。COMET 筛选的命中物在 DC2.4/B16-F10 细胞中效能显著优于 SM-102/MC3 等临床基准配方。
- 3g-l:先导优化物体验证。DC2.4 中 2/3 优化配方效能优于亲本,B16-F10 中 3/3 优化配方均优于亲本;仅 LA-580 因亲本效能已达天花板,优化无显著提升。



结果 3:COMET 模型的跨场景灵活适配性验证
验证 COMET 在新型材料(PBAE 聚合物)、新人源细胞系、新核酸载荷、冻干稳定性预测四大非经典场景的适配性,证实模型无需大幅修改架构,仅需少量数据即可实现精准预测。COMET 具备极强的场景泛化能力,无需重构架构,仅通过特征编码拓展 + 小数据集训练,即可适配非经典 LNP 配方、新型材料、新细胞系 / 载荷及稳定性预测,突破传统模型的应用边界。
- 4a/b:PBAE 聚合物的结构与 COMET 编码方式。将 PBAE 的二丙烯酸 - 胺重复单元 + 支化剂作为第五类组分,赋予专属嵌入编码,与脂质组分统一整合入模型。
- 4c/d:PBAE-LNP 预测性能。即使 PBAE 数据仅占训练集 13%,模型在 DC2.4/B16-F10 中仍保持 Spearman 0.767/0.756,预测精度优异。
- 4e:PBAE 训练数据量对性能的影响。仅 17 个 PBAE 样本即可实现 Spearman 0.660,数据量增至 352 个时达 0.824,证实模型低数据场景适配性强。
- 4f-i:PBAE-LNP 先导优化验证。优化配方在 DC2.4 中均优于亲本,B16-F10 中 1/2 优于亲本,证实模型可拓展至聚合物 - 脂质杂化体系。
- 4j-m:新人源细胞系 / 新载荷预测。Caco-2(肠道细胞)、HepG2(肝癌细胞,IL-15 mRNA 载荷)中,模型经小数据集训练后,集成学习下 Spearman 均达 0.7 以上,精准预测效能。
- 4n-o:冻干稳定性预测。仅 168 个样本训练后,模型可有效预测 LNP 冻干后的效能损失,集成学习后 Spearman 达 0.788,且发现冻干后高效配方的核心组分与常温不同(如 DC - 胆固醇更适配)。


结果 4:COMET 设计 LNP 的小鼠体内效能验证
将 COMET 虚拟筛选的高效命中物进行小鼠皮下给药体内实验,对比临床基准配方(SM-102/MC3)的效能、封装效率和细胞毒性,验证模型设计配方的体内实用性。COMET 设计的 LNP 还具备更高的 mRNA 封装效率和更低的细胞毒性,优于临床基准 SM-102,证实模型设计的配方兼具高效能与高安全性。
- 5a:小鼠体内 6h 生物发光成像。COMET 设计的 DE-4/BE-1/DO-388-1 等配方,生物发光信号显著强于 SM-102/MC3,说明体内转染效能更高。
- 5b:0-24h 总生物发光定量。COMET 设计配方的总发光量是 MC3 的 40 倍以上、SM-102 的 5 倍以上,体内效能提升显著。
- 5c/d:不同时间点的生物发光通量。COMET 设计配方的转染动力学更快,在早期时间点即可达到高发光值,且持续时间长,表现出更优的体内递送特性。

结果 5:COMET 模型的可解释性分析
通过t-SNE 特征可视化和集成梯度特征重要性分析,解析 COMET 的预测决策逻辑,避免 “黑箱模型” 问题,为实验人员的 LNP 配方优化提供定量 + 可视化的指导依据。COMET 并非黑箱模型,其预测基于可解释的生物学规律,特征重要性分析可直接为实验配方优化指明方向(如优先选择 C14-PEG/DOPE、控制离子 izable 脂质摩尔比 < 50%),实现模型预测与实验研发的双向指导。
- 6a-g:10000 个虚拟 LNP 的 t-SNE 可视化。高效 LNP 在特征空间形成明显的聚类分布,且存在双细胞系高效的通用聚类(绿色)、DC2.4 专属聚类(黄色)、B16-F10 专属聚类(蓝色);聚类与离子 izable 脂质选择、DC - 胆固醇含量、N/P 比(25-30 为优)、离子 izable 脂质摩尔比(<50% 为优)高度相关。
- 6h-j:DC2.4 细胞的特征重要性。脂质身份是最核心影响因素,其次是 N/P 比、摩尔比例;脂质类别中 PEG 脂质(C14-PEG 最优)、可电离脂质选择最重要,摩尔比例中离子 izable / 辅助脂质占比影响最大。
- 6k-m:B16-F10 细胞的特征重要性。规律与 DC2.4 基本一致,唯一差异为辅助脂质选择的重要性略高于可电离脂质,进一步证实 LNP 配方的细胞系特异性。


声明:本分享内容来自文献总结,不涉及公司机密内容。
浙公网安备 33010602011771号