农业垂直领域大语言模型构建流程和技术展望

摘要

随着互联网的普及,农业知识和信息的获取变得更加便捷,但信息大多固定且通用,无法针对具体情况提供定制化的 解决方案。在此背景下,大语言模型(Large Language Models,LLMs)作为一种高效的人工智能工具,逐渐在农业领域中获得关注和应用。目前,LLMs 技术在农业领域大模型的相关综述中只是简单描述,并没有系统地介绍LLMs 构建流程。本文重点介绍了农业垂直领域大语言模型构建流程,包括数据采集和预处理、选择适当的LLMs 基模型、微调训练、检索增强生成 (Retrieval Augmented Generation,RAG)技术、评估过程。以及介绍了LangChain 框架在农业问答系统中的构建。最后,总结出当前构建农业垂直领域大语言模型的一些挑战,包括数据安全挑战、模型遗忘挑战和模型幻觉挑战,以及提出了未来农业垂直领域大语言的发展方向,包括多模态数据融合、强时效数据更新、多语言知识表达和微调成本优化,以进一步提高农业生产的智能化和现代化水平。

图片

1 引言

随着互联网的普及,农业知识和信息的获取变得更加便捷。然而,网络上的农业信息大多是固定且通用的,无法针对具体情况提供定制化的解决方案。这个问题在实际应用中尤其突出。例如,在应对突发病虫害或极端气候条件时,固定且通用的答案往往不足以解决实际中的生产问题。

在此背景下,大语言模型(Large Language Models,LLMs)作为一种高效的人工智能工具,逐渐在农业领域中获得关注和应用。例如,LLMs 可以通过农业知识问答系统提供实时、可靠的信息支持,涵盖作物种植、农业技术、病虫害防治等方面。这些模型能够通过自然语言处理和语义理解技术,将用户的问题转化为语义表示,生成准确的答案反馈给用户。

目前,LLMs 技术在农业领域大模型的相关综述中有所提及,而构建流程的部分技术尚未研究。本文将重点针对 LLMs 技术,系统介绍 LLMs 在农业领域中的构建流程、技术挑战以及发展趋势,以期为今后农业垂直领域大语言模型的研究和应用提供理论依据作为参考。

2 大语言模型

LLMs 是基于强大的 Transformers 架构,用海量文本数据训练,用来理解和生成人类语言的模型。LLMs 通过数十亿甚至数百亿的参数捕获语言的复杂性,在自然语言处理任务中表现卓越。随着技术的发展和硬件设备的提升,特别是 OpenAI 发布了 GPT 系列之后,LLMs 成为人工智能领域的研究和应用热点。

在实际应用方面,LLMs 已经在不同任务中显示出其价值,包括但不限于摘要生成、机器翻译、情感分析等。这些应用展示了 LLMs 强大的语言理解和生成能力,极大地提高了这些领域的自动化和智能化水平。

2.1 垂直领域大语言模型

针对 LLMs 处理任务的能力,LLMs 分为通用 LLMs 和垂直领域 LLMs。通用 LLMs 能够处理多种语言理解任务;垂直领域 LLMs 使用大量的垂直领域文本数据在 LLMs 基模型上进行训练以便为特定行业,例如:法律、医疗或农业等领域提供定制化的解决方案。一些典型的垂直领域 LLMs,见表 1。同时在农业领域中也出现一些 LLMs 的构建工作,例如:果蔬农技知识大语言模型、“后稷”、“神农”等。这些模型不仅提升了特定领域的操作效率,还可以针对具体情况提供定制化的解决方案。

表 1 垂直领域 LLMs

|
模型名称

|

发布组织

|

LLMs 基模型

|

领域

|
| --- | --- | --- | --- |
|

AlpaCare

|

加州大学、中国医学科学院等

|

LLaMA

|

医疗

|
|

HuatuoGPT

|

深圳市大数据研究院等

|

Baichuan

|

医疗

|
|

Lawyer LLaMA

|

北京大学

|

LLaMA

|

法律

|
|

OpenBioMed

|

清华大学人工智能产业研究院等

|

LLaMA2

|

生物

|
|

FinGPT

|

哥伦比亚大学、纽约大学(上海)

|

ChatGLM2

|

金融

|
|

EcomGPT

|

阿里巴巴

|

BLOOMZ

|

电商

|

2.2 农业垂直领域大语言模型

随着垂直领域 LLMs 研究越来越广泛,越来越多的研究者也开始探索 LLMs 在农业领域的潜力,以更好地满足农业领域的特定需求并优化决策过程。例如:王婷等人开发了基于人工智能大语言模型技术的果蔬农技知识智能问答系统,通过采用 Low-Rank Adaptation(Lora)微调和 Prompt-tuning(P-tuning)微调对 LLMs 基模型进行微调,从而实现了系统能够高精度地生成无歧义的答案。此外,系统利用检索增强生成(Retrieval Augmented Generation,RAG)技术进行模型优化,结合外部知识源构建知识库,通过向量检索等方法实现了知识的快速搜索。这些技术手段使得该系统能够支持复杂的多轮对话,为果蔬农技领域提供了高效的知识服务和交流平台。

Xianjun Yang 等人开发的 PLLaMa 模型,采用了基于大型语料库的 LLMs 基模型,通过训练和微调,使模型具备了对植物和农业科学方面的知识的基本理解和应用能力。团队使用 Llama2 作为 LLMs 基模型,在训练过程中,采用 flash-attention 和 bf16 等方法来提高训练效率,并利用 zero-stage-3 和全切片数据并行(Fully Sharded Data Parallel,FSDP)实现了分布式训练。此外,通过引入指令调整过程,进一步优化了模型对特定指令的理解和响应能力。

Biao Zhao 等人的研究采用了 ChatGPT 模型,并结合农业领域的专业知识,构建了“ChatAgri”,以实现农业文本的自动分类和理解。在构建“ChatAgri”的过程中,引导 ChatGPT 正确地理解和分类农业相关的文本,并在问答推理阶段让 ChatGPT 生成响应。最后,通过答案规范化或对齐阶段,将 ChatGPT 生成的自然语言响应转换为预定义的分类标签,确保模型的输出与预期的分类体系相一致。这一系列步骤为实现农业垂直领域大语言模型的构建提供了关键技术支持。

Angels Balaguer 等人使用 RAG 技术和微调技术,有效地在农业数据集上构建一个框架,专注于从复杂和非结构化的 PDF 文档中提取信息,并生成问题答案。该框架的设计不仅涉及基本的信息提取,还包括通过精确解析文本内容、表格和视觉信息,恢复文档的底层结构。此外,通过 RAG 技术,该系统能结合先进的检索和生成机制,针对特定问题生成高质量的答案,从而增强问答系统的实用性和响应质量。

Bruno Silva 等人通过结合 GPT-4 与 RAG 技术和集成优化(Ensemble Refinement, ER)技术,构建农业领域 LLMs,并评估了该模型在解答农业相关问题和生成作物管理指南等方面的能力。研究过程中,首先通过手动或自动化脚本从书籍、文章和在线资源中收集数据,然后将数据转换为 JSON 格式的选择题或开放性问题格式,并进行数据清洗以删除不适合 LLMs 处理的问题。接着,创建包含背景知识的提示来引导 LLMs 生成高质量的答案。在 LLMs 调用 RAG 和 ER 技术生成响应后,最终通过专家对比和 LLMs 辅助检查评估答案的准确性和相关性。

3 构建流程

在基于微调 LLMs 构建农业知识问答系统过程中,首先进行数据采集工作,数据来源包括但不限于书籍、学术文献、网络资源和行业文章,确保农业知识数据的广泛性和专业性。随后,对数据进行清洗等操作,进一步确保所获数据质量。利用合适的 LLMs,将数据转换成微调所需的问答语料数据。根据任务性质、数据特点、资源可用性等需求选择适合的 LLMs 基模型。LLMs 微调训练阶段利用数据,采用合适的微调策略对 LLMs 基模型进行训练,逐渐调整参数以提升精确度。在训练过程中,定期对模型进行评估和调优,在确保语言理解能力的前提下提高 LLMs 在垂直领域的专业能力。利用 LangChain 框架,将微调好的农业 LLMs 和向量知识库部署到实际应用中,进一步优化和调整以满足实际需求,农业问答系统框架流程见图 1。

图片

3.1 准备数据

微调 LLMs 的基础是利用大规模的语料库进行微调,通常这些语料库是公开的或者经过授权的私有数据。然而,农业领域的语料库少而分散,因此需要保证法律允许的前提下来获取数据,例如:中国农业信息网、百度百科、新闻、学术文献等。其次,进行数据清洗并利用 LLMs 将数据处理为满足微调要求的问答语料数据,生成问答语料数据的框架有:Self-instruct、Self-QA、Self-KG,见表 2。

表 2 构建问答语料数据的三种常用框架

|
框架名称

|

处理数据

|

生成数据

|
| --- | --- | --- |
|

Self-instruct

|

单轮或者多轮的种子数据

|

单轮或者多轮的指令微调数据

|
|

Self-QA

|

文档、新闻、论文等非结构化数据

|

基于数据构建的微调数据

|
|

Self-KG

|

知识图谱

|

基于数据构建的微调数据

|

Self-Instruct 框架通过利用编写的种子微调数据,结合 LLMs 模型,生成更多符合要求的微调数据。首先,从种子数据中随机选择指令,通过 LLMs 生成一系列新指令。其次,判断指令类别属于“分类”问题还是“生成”问题,并采用不同的策略生成答案。经过上述步骤生成的微调数据需要过滤与已有数据高相似度和低质量的问答语料数据。过滤后的微调数据继续与“种子数据”结合,形成循环过程,不断地生成新的微调数据。

图片

Self-QA 框架由三个阶段组成:知识引导指令生成、模型阅读理解、过滤和裁剪。知识引导指令生成阶段为 LLMs 模型提供一些指导,利用 LLMs 基于非结构化农业知识数据进行无监督的文本指令生成。模型阅读理解是指 LLMs 根据所提供的农业知识进行理解,并回答第一阶段生成的指令。最后,对生成的问题进行过滤和裁剪,剔除那些不符合预期、违反规则或含有明显错误的文本。

图片

Self-KG 框架基于知识图谱来构建问答语料数据,常见的农业知识图谱有:苹果病虫害知识图谱、草莓种植管理知识图谱、大豆育种知识图谱等。Self-KG 由三个技术组件组成:相对相似性度量、自负采样以及多个负队列。相对相似性度量:将未对齐的实体推得更远,从而避免使用正对的监督。自负采样:为了缓解无监督实体对齐中的碰撞问题,通过从同一知识图谱中排除实体,避免其作为负样本,提高对齐准确性。负队列:维护负队列来存储先前编码的批次作为已编码的负样本,从而以有限的成本容纳数千个已编码的负样本。

3.2 选择 LLMs 基模型

选择适合的 LLMs 基模型进行微调时,需要综合考虑多个因素以确保选择的 LLMs 基模型能够满足需求。首先,评估现有的硬件设备,包括 CPU 和 GPU 的内存等方面的配置,以确保所选 LLMs 基模型参数大小与硬件设备兼容并能够有效地运行。其次,不同的 LLMs 基模型对不同语言的处理效果有所不同,因此需要选择适合微调数据语言特点的 LLMs 基模型,以提高微调效果。部分开源 LLMs 基模型见表 3。

表 3 开源 LLMs 基模型

|
LLMs 基模型

|

发布组织

|

参数大小(B 指 Billion)

|

发布时间

|

处理语言

|
| --- | --- | --- | --- | --- |
|

Llama

|

Meta

|

7B、13B、33B、65B

|

2023 年 02 月

|

英文

|
|

Llama2

|

Meta

|

7B、13B、34B、70B

|

2023 年 07 月

|

英文

|
|

Bloom

|

BigScience

|

560M、1.1B、1.7B、3B 等

|

2022 年 11 月

|

英文

|
|

GLaM

|

Google

|

64B

|

2022 年 08 月

|

英文

|
|

PaLM

|

Google

|

8B,62B,540B

|

2022 年 10 月

|

英文

|
|

Qwen

|

阿里云

|

1.5B、1.8B、7B 等

|

2024 年 02 月

|

中文

|
|

ChatGLM

|

智谱

|

6B

|

2023 年 01 月

|

中文

|
|

Baichuan2

|

百川智能

|

7B、13B

|

2023 年 06 月

|

中文

|

3.3 微调模型

基于农业问答语料数据训练 LLMs 是有效地将 LLMs 适用于下游任务。常见方法是监督微调(Supervised Fine-Tuning,SFT)。通过 SFT,能够将 LLMs 基模型与特定任务的需求对齐,从而提高模型在这些任务上的表现。

尽管监督微调在改善模型性能方面取得了显著成效,但也面临着一些挑战。尤其是模型的参数越来越多,传统的 SFT 微调方法可能不适用于现在的 LLMs。除了要保证微调的效果还要减少微调所投入的成本,所以涌现出了一些高效的微调方法,微调方法见表 4。

表 4 微调方法

|
微调方法

|

原理

|
| --- | --- |
|

Freeze

|

微调 Transformer 模型的深层特征全连接层参数,可以在保证微调效率的前提下,最大限度地发挥模型的微调作用

|
|

Lora

|

通过冻结模型的参数,并向模型中添加可训练的低秩分解层,仅训练新增层的参数,从而实现模型性能的提升

|
|

Prefix-Tuning

|

在模型输入之前添加一系列任务特定的连续向量,称为前缀,来引导模型生成更符合特定任务要求的文本输出

|
|

P-tuning v1

|

固定模型前馈层参数,仅仅更新部分 embedding 参数即可实现低成本微调大模型

|
|

P-tuning v2

|

将可训练的连续提示独立添加到每个 transformer 层的输入中,删除带有 LM 头的 verbalizers,以增强通用性

|

Lora(Low-Rank Adaptation) 基本原理是通过冻结 LLMs 基模型参数的同时,向 LLMs 基模型中添加可训练的低秩分解层。低秩分解层通过将 LLMs 基模型的权重矩阵进行低秩分解,实现对 LLMs 基模型的微调。Lora 微调通过减少微调参数量,降低了微调的成本和计算资源需求,提高了微调效率。其次,冻结的 LLMs 基模型参数可以被共享,从而降低了多个任务切换的成本。此外,在部署到生产环境中时,Lora 微调方法不引入额外的推理延迟,具有良好的实用性。

图片

检索增强生成(Retrieval Augmented Generation,RAG) 将获取的农业数据处理为文本数据,并以不同的粒度进行文本分割并转换成向量矩阵并存入到向量数据库中。在用户的提问时,通过高效的检索方法,查找并返回与提问最相关的知识,并融入 Prompt 中;大模型参考当前用户的上下文和相关知识,生成相应的答案。

图片

3.4 评估

3.4.1 评估基准

评估基准分为两种类型:通用任务的基准和垂直任务的基准。

通用任务的基准评估 LLMs 在多任务知识理解方面的表现,它们涵盖了多个领域的任务和主题,从数学和计算机科学到人文和社会科学等不同范畴,包括了各种任务的难度级别,从基础到高级。这些基准的目标是通过系统评估 LLMs 在不同任务上的性能,以便比较不同模型之间的表现,并且促进对 LLMs 的进一步研究和发展,以便改进这些模型的性能,并推动它们在各个领域的应用。常见的通用评估基准有:MMLU、BIG-bench、HELM、Chatbot Arena 等。

垂直任务的基准由专业领域的知识组成,并且要比模型微调所训练的知识更先进,用于评估 LLMs 在垂直领域中的表现。垂直任务的基准有:中文医学语言理解评测基准 CBLUE、中国法律体系的法律评测基准 LawBench、多领域知识评测基准 Xiezhi 等。

在构建农业 LLM 时,不仅需要考虑模型对农业知识的掌握能力,还要考虑到模型对语言理解的能力。由复旦大学肖仰华团队构建的多领域知识评测基准 Xiezhi 包含了 516 门学科、13 学科门类、240w 条数据。其中农业领域包括:作物科学、兽医学、农业资源利用、园艺、林业、植物保护、水产养殖、畜牧业、草药学等。

3.4.2 人工评估

人工评估指通过人类参与者对 LLMs 的性能进行主观评价和分析的过程。这种评估通常涉及让人类参与者完成特定的任务或者针对特定的语言模型输出提供反馈。人类评估员通常是一些领域专家来评估 LLMs 生成的答案质量。评估员通常采用成对比较或为答案打分两种方法。在成对比较中,评估员需要比较两个来自不同 LLMs 的答案,以确定被评估的 LLMs 生成答案的质量;而在单一答案评分中,只需要对目标评估 LLMs 生成的答案进行评分。其中,农业领域评估的指标一般为:准确性、可理解性、安全性。给出相应的打分标准,求得平均评估得分。

3.4.3 自动评估

自动评估是指向 LLMs 提供完全相同的问题、待评估的样本和用于进行评估的指标和得分等要求,要求 LLMs 对这些问题做出回应。例如:Yang Liu 等人以 GPT-4 为骨干模型,采用链式思维(Chain-of-thought, CoT)和填充范式,用于评估 LLMs 生成摘要任务的性能。

3.5 系统搭建

在构建基于微调 LLMs 构建农业知识问答系统中,LangChain 框架简化和加速由 LLMs 支持的应用程序的开发过程。此框架通过提供通用接口和集中式开发环境,使开发人员能够轻松地构建和集成复杂的应用程序。在农业问答系统的具体实现中,LangChain 的六个主要组成部分起着至关重要的作用。

  1. 模型输入/输出(Model I/O):作为与 LLMs 交互的入口和出口,处理所有进出模型的数据流,确保用户查询和模型响应的准确传递。

  2. 检索(Search):检索功能确保从大量农业知识中提取准确信息,确保 LLMs 生成的答案的准确性。

  3. 链(Chains):通过特定逻辑顺序连接多个提示,处理复杂的农业任务,如综合分析作物健康状况或优化种植策略。

  4. 记忆(Memory):存储与过往作物种植历史相关的数据,以便在提供新的建议时利用历史上下文。

  5. 代理(Agents):由语言模型和提示驱动,负责决定下一步采取什么动作。

  6. 回调(Callbacks):便于在 LLMs 处理过程中进行实时记录、监控,确保数据流动性和可操作性。

通过整合这些组件,LangChain 不仅提高了农业问答系统的构建效率,也提高了这些系统的性能和可靠性。这种集成化的方法使得农业问答系统能够更好地服务于农业工作者,提供精确、及时的技术支持和决策辅助,从而推动智慧农业的发展。

图片

4 技术挑战与发展趋势

4.1 技术挑战

4.1.1 数据安全挑战

进行知识获取时,必须特别关注隐私安全和信息安全问题。首先,需要确保所采集的信息符合法律法规的规定,不能侵犯他人的隐私权或泄露敏感信息,以免触犯相关法律法规并承担相应责任。除了隐私和信息安全外,还需重视数据的专业准确性。在农业领域,数据会涉及专业知识,如农药使用、环境保护等。因此,必须确保所采集的数据来源可靠、准确,避免可能会出现偏见的农业数据。例如,一些国内禁止使用但在国外允许使用的农药,若未经筛选直接被收录,可能会对不同地区农业生产和环境造成不良影响,甚至危害公众健康。

4.1.2 模型遗忘挑战

灾难性遗忘问题指在 LLMs 学习新知识后忘记了之前学习的任务。这一问题在模型持续学习场景下尤为突出,限制了 LLMs 在实际应用中的能力。当 LLMs 学习新知识时,新的权重会完全覆盖旧知识相关的权重。例如,如果在基于病虫害数据训练的 LLMs 上继续训练猪病害数据,会导致权重文件发生变化。这种情况下,病虫害相关知识的理解能力相比之前会显著降低。这一问题影响了 LLMs 在多任务学习和持续学习环境下的应用,需要通过合适的方法来缓解或解决,例如:新旧知识混合训练。

4.1.3 模型幻觉挑战

幻觉是指 LLMs 生成无意义的文本,或者与提供的源输入内容不符合。通常情况下有三种情况:输入相冲突的幻觉,指 LLMs 生成的内容偏离用户提供的源输入;上下文相冲突的幻觉,指 LLMs 生成的内容与自身先前生成的信息相冲突;事实相冲突的幻觉,指 LLMs 生成的内容与已知的世界知识不符。这种现象的原因有两种:来自数据的幻觉和来自训练和推理的幻觉。在数据收集过程中,当大量数据中含有错误信息或重复信息时,就会增加模仿虚假信息的风险。当一个具有缺陷的理解能力的 LLMs 接受训练时可能会加深幻觉的程度,它们可能会无意中放大这些误导性,从而产生事实不正确的幻觉。例如,关于“草莓农残超标会致癌”的说法实际上是一种误解,长期以来被广泛传播。如果 LLMs 在这种有歧义的数据上接受训练,可能会产生错误的输出,进而会影响到农业发展。

4.2 发展趋势

4.2.1 多模态数据融合

农业领域数据模态多样,除了文本、还有视频、图片、遥感影像等。这种数据形式的运用可以弥补单一数据类型在描述问题上的不足,提供更全面、更丰富的信息,有助于提高模型的理解和表达能力。在农业领域,用户提出的问题可能会存在描述模糊的情况。例如,他们可能描述一个病害或虫害的特征,但是有些病害或虫害的特征相似,从用户的主观描述中,文字描述可能不够清晰,难以准确表达问题。然而,通过结合文字描述和相关的图片或视频,用户就能更直观、更清晰地展示问题,从而帮助模型更好地理解并给出准确的答案。将 LLMs 的自然语言理解能力与擅长图像识别和分类的大模型的优势相结合在农业垂直领域大语言的建设中,多模态数据的利用至关重要。多模态数据的运用可以提高模型对用户问题的理解能力,能够更精准地解决实际生产中的问题,为农业工作者提供更准确的指导和建议。

4.2.2 时序性数据更新

LLMs 在解决农业生产实际问题方面的应用,离不开时序数据的支持。在农业生产过程中,及时获取和分析各种时序数据,例如遥感时序数据、作物生长数据、气象监测数据等纳入人工智能助手中是至关重要的。这些时序数据可以确保 LLMs 的预测结果更加实时和可靠,从而帮助农业从业者及时调整生产活动,降低可能的风险损失。

4.2.3 多语言知识表达

农业垂直领域大语言模型的用户群体不仅包括专业领域的专家,更多的是农民和农场主,他们希望能够利用这些模型来解决实际生产中的问题。考虑到用户的文化程度和地域的多样性,用户不一定使用统一的语言进行交流,而更多地使用地方方言或行业术语。因此,在构建农业垂直领域大语言时,需要特别关注用户的语言差异,确保模型能够理解和处理不同的语言和方言。这可能涉及对地方方言的语音识别和自然语言处理技术的支持,以确保模型能够准确地理解用户的需求并提供相应的解决方案。

4.2.4 微调成本优化

在 LLMs 的发展过程中,保证 LLMs 性能的同时如何减少成本成为一个显著的趋势。通过这些策略,LLMs 可以在减少成本的同时保证性能,使得更多的领域和用户能够利用大语言模型的优势,推动各行业的智能化发展。特别是在农业垂直领域,通过降低微调成本,可以更快地开发出适合农民和农场主需求的智能化解决方案,促进农业生产的现代化和智能化进程。

5 结语

本文中详细讨论了 LLMs 在农业领域垂直大语言模型构建中的各个关键阶段,包括数据采集、数据预处理、LLMs 基模型选择、微调训练及部署。这些阶段的精确处理对于构建有效的农业垂直领域大语言模型至关重要。此外,还介绍了 LangChain 框架,这一框架通过其各个组件的优化协同作用,显著提高了农业问答系统的构建效率和系统性能。通过 LangChain 框架,可以更加灵活和高效地处理和整合农业数据,从而加快响应时间并提高信息准确性。在讨论构建过程中的技术挑战时,特别指出了数据安全性问题、模型遗忘问题以及模型生成幻觉的风险。这些挑战不仅影响模型的性能,还可能威胁到模型在实际操作中的稳定性和可靠性。解决这些问题是确保模型有效运行的前提。期望通过本文能够更好地理解如何利用 LLMs 来推动农业的智能化和信息化进程,最终促进农业生产的现代化和持续发展。

欢迎加入星球交流,现在加入可领优惠劵。

图片

图片

图片

posted @ 2025-06-15 21:20  生物信息与育种  阅读(216)  评论(0)    收藏  举报