Advanced Science | 植物功能基因组学智能问答系统PlantGPT

近日,华南农业大学农学院、未来作物精准育种基础研究卓越中心、亚热带农业生物资源保护与利用国家重点实验室和岭南现代农业科学与技术广东省实验室刘耀光院士/祝钦泷研究员团队联合清华大学在Advanced Science在线发表了题为"PlantGPT: An Arabidopsis-based Intelligent Agent That Answers Questions About Plant Functional Genomics"的研究论文。该研究开发了一个基于拟南芥的植物功能基因组学智能问答系统PlantGPT(http://www.plantgpt.icu),通过结合检索增强生成(RAG)技术和大语言模型(LLM)微调,能够准确回答植物功能基因组学领域的专业问题,为植物科学研究提供了新的人工智能工具。

图片

在全球农作物产量提升的研究中,功能基因组学扮演着至关重要的角色。现代分子生物学研究已经在提高作物产量、营养成分、病虫害抗性和逆境耐受性方面做出了重要贡献。然而,传统的计算生物学方法在分析和预测复杂的生物系统调控行为以及处理多组学数据方面面临挑战。此外,现有的数据库如TAIR(The Arabidopsis Information Resource)虽然储存了大量数据,但其交互性较低,需要研究者知道确切的性状名称或基因名称才能进行有效检索。

为解决这些挑战,研究团队开发了PlantGPT——一个基于拟南芥的植物功能基因组学专家系统。该系统通过建立包含超过60,000篇植物研究文章摘要的向量数据库,并使用语言学数据进行微调,实现了更准确和高效的专业知识问答。

图片

图1. PlantGPT的技术工作流程图

创新特征

1. 高质量知识库构建

研究团队从PubMed数据库检索了超过70,000篇包含"拟南芥"关键词的文献(1992-2024年),通过系统的期刊选择标准,筛选出60,429篇高质量研究文章作为知识库。为确保数据高效检索,团队实施了严格的期刊选择标准,包括JCR排名Q1-Q3分位以及植物科学领域排名前60%的期刊。

2. 优化的文本分割策略

通过系统比较七种不同的文本分割策略,研究团队确定了最佳的分割方案——50个词长度且30个词重叠(50-30策略)。该策略在科学准确性、信息覆盖、逻辑连贯性、上下文保存和响应效率等五个维度上均表现优异,达到了80.9分(满分100分)的最高平均成绩。

3. 先进的RAG增强机制

研究团队评估了不同的RAG检索量对不同规模LLM的影响。实验表明,RAG-Tan(检索所有相似度拐点之前的向量)+ Claude Opus组合达到了最佳性能(74.9分),而不同规模的模型对RAG输入量有不同的最优选择:GPT-3.5-turbo-0125在RAG10时表现最佳,而GPT-4o随着RAG输入量增加持续改进。

4. 微调优化性能

研究团队使用13,993个拟南芥表型和23,323个基因功能的语言数据构建了超过101,000个问答对,用于微调Meta Llama3 8B开源模型。结果显示,微调后的Llama3模型在回答专业问题时表现优异(69.3分),超越了Claude Opus(68.45分)和GPT-3.5-turbo等商业模型。

5. 跨物种知识迁移能力

评估结果表明,PlantGPT在将拟南芥知识迁移到水稻、小麦和玉米等主要作物方面表现出色,总体评分分别达到75.1、75.2和71.4分(满分100分)。特别是在知识转移维度上,三个物种的得分均为6.1分(满分10分),显示出稳定的跨物种应用能力。

图片

图2. PlantGPT的跨物种评估性能

应用前景

该研究成功解决了大语言模型在植物学专业领域应用中的"幻觉"问题,通过RAG技术和微调的双重优化,显著提高了模型在专业领域的准确性。相比传统数据库,PlantGPT提供了更加自然的交互方式,研究人员可以使用自然语言提问,无需知道确切的基因名称或性状描述。

PlantGPT目前通过免费在线服务(http://www.plantgpt.icu)为研究人员提供访问,无需注册即可使用。该系统不仅能帮助科学家快速进入植物基因组学研究的新领域,还能为调控网络绘制和作物功能基因组研究提供参考。未来,研究团队计划将该系统扩展到更广泛的作物物种,特别是合成生物学以及与产量相关的性状和抗逆性研究,这对农业进展至关重要。

华南农业大学博士生张瑞祥,清华大学博士生王昱和博士生杨威杨为该论文的共同第一作者,祝钦泷研究员、刘耀光院士和清华大学自动化系谷淼博士为论文的共同通讯作者。该研究得到了国家自然科学基金、生物育种-国家科技重大专项、广东省未来作物精准育种基础研究卓越中心重大项目和广东省种业振兴项目的资助。

感谢新疆维吾尔自治区农业科学院农业质量标准与检测技术研究所李彬彬博士、浙江大学杭州国际科技创新中心博士后台莉、西北工业大学生态环境学院博士研究生许晓敬、西北农林科技大学生命科学学院硕士研究生张云飞和华南农业大学生命科学学院本科生郑星磊等对论文完善的热情帮助。

原文链接:

http://doi.org/10.1002/advs.202503926

欢迎加入星球交流,现在加入可领优惠劵。

图片

图片

posted @ 2025-06-15 22:22  生物信息与育种  阅读(290)  评论(0)    收藏  举报