gReLU:让DNA序列建模、解读与设计化繁为简的开源框架
分享一篇近期发表在Nature Methods上的文章:gReLU: a comprehensive framework for DNA sequence modeling and design。研究团队推出了一个全面的DNA模型软件框架 gReLU,可实现数据预处理、建模、评估、解释、变异效应预测和调控元件设计等高级序列建模流程。
背景与意义
● • 研究背景
○ • 深度学习模型能够从DNA序列中预测细胞类型特异性的调控活性,揭示顺式调控规律,优先排序遗传变异,并设计合成DNA。
○ • 然而,当前领域面临诸多挑战,包括模型训练复杂、易出错,不同研究组开发的模型和软件缺乏互操作性,以及缺乏支持现代架构(如Transformer)和复杂任务(如序列设计)的统一框架。
● • 研究意义
○ • 为克服上述挑战,作者开发了gReLU,一个综合性的开源Python框架,旨在统一序列建模流程,降低模型构建和应用的门槛,促进模型共享与比较,推动调控序列建模与设计领域的发展。
方法
● • 框架设计
○ • gReLU整合了从数据预处理、模型构建、训练、评估到解释、变异效应预测和序列设计的全流程。
○ • 支持多种输入格式(如FASTA、BED、BigWig),提供PyTorch数据集类,支持数据增强、标准化等预处理操作。
○ • 提供可定制的模型架构,从卷积神经网络到Transformer模型,支持单任务/多任务回归、分类、分割等训练目标。
○ • 集成PyTorch Lightning和Weights & Biases,支持模型训练、日志记录和超参数调优,保存包含完整元数据的模型检查点,确保可重复性。
● • 关键功能:
○ • 序列解释:采用多种方法(如ISM、DeepLift/SHAP、梯度法)评估序列重要性,扫描已知转录因子结合位点(PWM),识别学习到的基序(TF-MoDISco)。
○ • 变异效应预测:对遗传变异进行评分,比较参考序列和变异序列的预测差异,提供统计检验和基序分析,增强预测稳健性。
○ • 序列设计:支持定向进化和梯度优化方法,允许用户定义设计目标、编辑约束和序列偏好,设计具有特定功能的DNA序列。
○ • 预测变换层:引入灵活的变换层,支持对模型输出进行自定义变换,以适应多任务、长序列和轮廓模型等复杂场景。
○ • 模型动物园:提供预训练模型(如Enformer、Borzoi)的集中存储库,包含模型检查点、代码、数据集和训练日志,支持程序化搜索和下载。
结果
● • 变异效应预测案例
○ • 利用gReLU训练卷积回归模型预测GM12878细胞的DNase-seq信号,对28,274个单核苷酸变异(包括574个已知的dsQTL)进行效应预测。
○ • 模型在区分dsQTL与对照变异方面表现优于随机预测器和已发表的gkmSVM模型(AUPRC分别为0.27 vs. 0.025 vs. 0.193)。
○ • 使用Enformer模型(来自gReLU模型库)进行同样分析,获得更高的AUPRC(0.60),表明长序列输入、轮廓建模和多物种训练的优势。
○ • 基序分析显示,dsQTL显著更可能破坏或创建转录因子结合基序(Fisher精确检验,OR=20,P<2×10^-16),例如rs10804244变异削弱了干扰素调控因子(IRF)结合位点。
● • 序列设计案例
○ • 应用Borzoi模型预测人类PPIF基因的RNA-seq表达,预测结果与实验数据高度一致,准确反映了单核细胞与T细胞间的表达差异。
○ • 可视化模型注意力矩阵,识别出PPIF基因与其上游61.7 kb处的已知增强子之间存在强关联。
○ • 模拟增强子区域的5-bp平铺突变,预测其对PPIF表达的影响,预测结果与实验测量的表达变化显著相关(Spearman ρ=0.58),准确识别出增强子中对扰动敏感的核心区域。
○ • 利用定向进化方法优化增强子序列,经过20轮碱基编辑,成功设计出在单核细胞中表达增加41.76%,而在T细胞中仅增加16.75%的增强子,实现细胞类型特异性表达调控。
○ • 基序分析揭示,优化后的增强子中新出现了CEBP转录因子结合基序,与实验观察到的CEBPA转录因子在THP-1与Jurkat细胞间的差异表达一致,进一步验证了设计结果的生物学合理性。
结论
● • gReLU作为一个统一、灵活且功能全面的开源框架,显著降低了DNA序列建模与设计的复杂性,支持从基础研究到应用设计的多种任务。
● • 通过实际案例验证,gReLU在变异效应预测和序列设计方面表现出色,能够有效整合现代深度学习模型与生物学知识,推动调控序列研究的深入发展。
● • 未来,gReLU有望进一步扩展支持更长序列建模、多物种数据训练、更高效的设计算法以及个体化基因组建模等前沿方向,持续为基因组学与合成生物学研究提供强有力的工具支持。
全基因组选择&智能设计育种全面升级
中国农业科学院领军人才《数量遗传学》高端视频课程|金秋限时特惠
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/19167308。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。

浙公网安备 33010602011771号