小麦育种多模态大语言模型:智能育种的新探索

无人机遥感技术已成为作物育种中的一项关键技术,可实现作物表型数据的高通量、无损采集。然而,育种的多学科性质给知识挖掘带来了技术壁垒和效率挑战。因此,开发一种智能育种目标工具对跨域多模态数据的挖掘具有重要意义。基于Qwen-VL、InternVL、Deepseek-VL等不同的预训练开源多模态大型语言模型(MLLMs),采用监督微调(supervised fine-tuning,SFT)、检索增强生成(retrieval-augmented generation,RAG)和人类反馈强化学习(reinforcement learning from human feedback,RLHF)等技术,将跨领域知识注入MLLMs,构建小麦育种多模态大型语言模型(large language models for wheat breeding,WBLMs))。上述WBLM采用本研究新建立的评价基准进行评价。结果表明,采用SFT、RAG和RLHF技术和InternVL2-8B构建的WBLM具有领先的性能。然后,使用WBLM进行后续实验。消融实验表明,SFT、RAG和RLHF技术的结合可以提高整体生成性能,提高生成质量,平衡生成答案的时效性和适应性,减少幻觉和偏差。WBLM同时利用遥感、表型、天气、种质等多域数据进行小麦产量预测的效果最好,R2和RMSE分别为0.821和489.254 kg/ha。此外,WBLM还可以为表型估计、环境胁迫评估、目标种质筛选、栽培技术推荐和种子价格查询等任务提供专业的决策支持答案。本研究旨在为实现小麦育种目标提供智能化、集成化的解决方案,帮助育种工作高效开展,加快良种选育进程,为实现农业可持续发展和保障粮食安全提供科学依据和技术支撑。

图片

图1  (a)实验场址。(b)多源数据采集。

图片

图2  小麦育种多模态大语言模型的构建与应用。(a)多源数据集构建。(b)外部领域知识库建设。(c)使用监督微调、检索增强生成和基于人类反馈的强化学习来构建具有领域知识的WBLM。(d)将用户的问题(图文)发送到WBLM。(e)野生动植物保护组织回答这个问题。

图片

图3  不同MLLMs在评价基准(准确率)上的比较。

图片

图4  不同MLLMs在评价基准(稳定性)上的比较。

图片

图5  不同MLLMs在评价基准(推理)上的比较。该图显示了单个MLLM多次测试后的总推理分数占所有分数的比例。

图片

图6  不同领域知识技术组合方法对不同任务的预测性能。

图片

图7  实测与预测小麦产量的交叉验证散点图。黑色实线表示1:1关系。紫色虚线右侧的蓝色点代表小麦产量超过4230.2 kg ha-1的种质。

图片

图8  不同MLLMs的表型(产量)估计示例。

图片

图9  不同MLLMs的目标种质筛选实例。

图片

图10  不同MLLMs的环境胁迫评估举例。

图片

图片

图11  不同MLLMs的栽培技术推荐实例。

图片

图12  不同MLLMs的查询种子价格的例子。

来 源

Yang, Guofeng, Yu Li, Yong He, Zhenjiang Zhou, Lingzhen Ye, Hui Fang, Yiqi Luo and Xuping Feng. (2024) Multimodal large language model for wheat breeding: a new exploration of smart breeding.

编辑:王春颖

图片

posted @ 2025-04-22 22:58  生物信息与育种  阅读(90)  评论(0)    收藏  举报