小麦育种多模态大语言模型:智能育种的新探索
无人机遥感技术已成为作物育种中的一项关键技术,可实现作物表型数据的高通量、无损采集。然而,育种的多学科性质给知识挖掘带来了技术壁垒和效率挑战。因此,开发一种智能育种目标工具对跨域多模态数据的挖掘具有重要意义。基于Qwen-VL、InternVL、Deepseek-VL等不同的预训练开源多模态大型语言模型(MLLMs),采用监督微调(supervised fine-tuning,SFT)、检索增强生成(retrieval-augmented generation,RAG)和人类反馈强化学习(reinforcement learning from human feedback,RLHF)等技术,将跨领域知识注入MLLMs,构建小麦育种多模态大型语言模型(large language models for wheat breeding,WBLMs))。上述WBLM采用本研究新建立的评价基准进行评价。结果表明,采用SFT、RAG和RLHF技术和InternVL2-8B构建的WBLM具有领先的性能。然后,使用WBLM进行后续实验。消融实验表明,SFT、RAG和RLHF技术的结合可以提高整体生成性能,提高生成质量,平衡生成答案的时效性和适应性,减少幻觉和偏差。WBLM同时利用遥感、表型、天气、种质等多域数据进行小麦产量预测的效果最好,R2和RMSE分别为0.821和489.254 kg/ha。此外,WBLM还可以为表型估计、环境胁迫评估、目标种质筛选、栽培技术推荐和种子价格查询等任务提供专业的决策支持答案。本研究旨在为实现小麦育种目标提供智能化、集成化的解决方案,帮助育种工作高效开展,加快良种选育进程,为实现农业可持续发展和保障粮食安全提供科学依据和技术支撑。
图1 (a)实验场址。(b)多源数据采集。
图2 小麦育种多模态大语言模型的构建与应用。(a)多源数据集构建。(b)外部领域知识库建设。(c)使用监督微调、检索增强生成和基于人类反馈的强化学习来构建具有领域知识的WBLM。(d)将用户的问题(图文)发送到WBLM。(e)野生动植物保护组织回答这个问题。
图3 不同MLLMs在评价基准(准确率)上的比较。
图4 不同MLLMs在评价基准(稳定性)上的比较。
图5 不同MLLMs在评价基准(推理)上的比较。该图显示了单个MLLM多次测试后的总推理分数占所有分数的比例。
图6 不同领域知识技术组合方法对不同任务的预测性能。
图7 实测与预测小麦产量的交叉验证散点图。黑色实线表示1:1关系。紫色虚线右侧的蓝色点代表小麦产量超过4230.2 kg ha-1的种质。
图8 不同MLLMs的表型(产量)估计示例。
图9 不同MLLMs的目标种质筛选实例。
图10 不同MLLMs的环境胁迫评估举例。
图11 不同MLLMs的栽培技术推荐实例。
图12 不同MLLMs的查询种子价格的例子。
来 源
Yang, Guofeng, Yu Li, Yong He, Zhenjiang Zhou, Lingzhen Ye, Hui Fang, Yiqi Luo and Xuping Feng. (2024) Multimodal large language model for wheat breeding: a new exploration of smart breeding.
编辑:王春颖
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18841895。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。

浙公网安备 33010602011771号