王旭彤/关跃峰合作开发AI模型GenoRetriever:解码植物基因组中转录起始调控的序列基础及其应用

2025年4月24日,bioRxiv在线发表了华中农业大学王旭彤教授团队与广州大学关跃峰教授团队合作的最新研究成果:Deciphering the Sequence Basis and Application of Transcriptional Initiation Regulation in Plant Genomes Through Deep Learning,该研究在植物基因表达调控领域取得重大突破。他们开发的可解释深度学习模型"GenoRetriever"(基因检索器)首次系统解析了植物基因组中转录起始调控的序列基础,为精准作物改良提供了强大工具。

图片

研究背景

背景介绍

这篇文章的研究背景是转录起始是基因表达的一个关键调控步骤,但其具体调控机制在植物中仍然不完全清楚。精确调控基因表达对于提高作物性状具有重要意义。

研究内容

该问题的研究内容包括开发一个名为GenoRetriever的可解释深度学习模型,用于解析植物基因组中转录起始调控的序列基础,并预测转录起始位点(TSS)的位置和使用水平。

文献综述

该问题的相关工作包括Cap Analysis Gene Expression (CAGE)、nanoCAGE和STRIPE-seq等高通量实验方法,以及Basenji和Enformer等基于人工智能的模型,这些方法在提高基因表达预测方面取得了显著进展,但仍存在局限性。

研究方法

这篇论文提出了GenoRetriever,一个用于解析植物基因组中转录起始调控的可解释深度学习模型。具体来说:

模型架构

GenoRetriever由三个模块组成:motif consensus network(基序共识网络)、supplementary effect consensus network(补充效应共识网络)和feature prediction network(特征预测网络)。基序共识网络用于提取序列特征,补充效应共识网络用于捕捉额外的补充效应,特征预测网络则用于预测TSS的位置和使用水平。

数据处理

研究人员重新分析了之前验证过的STRIPE-seq数据,提取了包含主导TSS的4,650 bp序列,并使用这些数据训练GenoRetriever模型。

训练策略

模型通过人工知识蒸馏和卷积核相关性分析来识别稳健的序列特征,并在多个组织的数据上进行训练以提高模型的泛化能力。

实验设计

数据收集

研究人员使用了来自16个大豆组织和六个其他作物物种的STRIPE-seq数据,包括野生大豆和栽培大豆,以及棉花、油菜、番茄、玉米和小麦。

样本选择

选择了八个大豆组织(五个营养组织和三个生殖组织)进行详细分析,每个组织约40,000个可靠的TSS区域被注释。

参数配置

模型的训练使用了L1 Pseudo Poisson Kullback-Leibler (KL)损失函数和余弦退火学习率调度器,以平衡稀疏性和计数分布的真实性。

结果与分析

基序识别

GenoRetriever模型识别出27个核心序列基序,包括九个已知基序和九个未知基序,显著推进了对植物转录起始机制的理解。

预测准确性

模型在测试集上的平均Pearson相关系数为75.25%,表明其在预测TSS表达水平方面具有较高的准确性。

基序效应

通过虚拟基序插入和单核苷酸饱和突变验证了基序对TSS信号强度和位置的影响,发现不同基序具有不同的作用模式,如TCP20促进转录,而DREB1E则主要作为抑制因子。

自然变异影响

在大豆驯化过程中,31.85%的自然变异导致启动子基序使用的变化,揭示了驯化过程中基序调控的变化。

图片

结论

这篇论文开发了GenoRetriever,一个可解释的深度学习模型,用于解析植物基因组中转录起始调控的序列基础。模型识别出27个核心序列基序,并验证了其在预测TSS位置和使用水平方面的准确性。研究还揭示了自然变异对启动子基序使用的影响,并展示了GenoRetriever在作物改良和功能基因组学中的应用潜力。为植物转录起始调控机制的研究提供了新的工具和方法,具有重要的理论和应用价值。

欢迎加入星球交流,现在加入可领优惠劵。

图片

图片

posted @ 2025-06-15 21:24  生物信息与育种  阅读(174)  评论(0)    收藏  举报