Agent现状和可研究内容整理(自留)
goat:从人为设定的工作方式工作流到 AIAgent自主运行
https://www.bilibili.com/video/BV1QdLwz2EaT/?spm_id_from=333.1387.search.video_card.click&vd_source=c41fb40346175257e96ba67f08a3dba9
优化笔记
主题板块 | 核心内容摘要 | 关键挑战与前沿思考 |
---|---|---|
Agent的宏观演进 | 从人类预设工作流转向AI自主运行;当前技术架构正通过多模态交互、工具增强推理与记忆融合来突破传统大模型“有脑无手”的局限。 | 如何实现真正可靠且安全的“自主”;如何在开放动态环境中保持良好表现。(3.自主agent) |
核心组件与架构 | 通常包含感知 (Perception)、认知 (Cognition)、行动 (Action)、学习 (Learning)、记忆 (Memory) 五大模块。 | 模块间的协同与优化;记忆的高效存储、检索与更新;World Model的构建与应用;如何减少“幻觉”和偏见。(5.世界模型) |
推理与决策 (Reasoning)(偏算法) | 结构化推理(Static, Dynamic)与非结构化推理(显式, 隐式);Planning是Reasoning的一种特殊形式。 | 多步决策的稳定性与效率;复杂任务分解与规划。 |
记忆 (Memory) | 灵感源于人类记忆;包括记忆的获取、解码、存储、检索;将抽象数据转化为结构化知识并用于决策。 | 长期记忆与短期记忆的平衡;记忆如何有效影响未来决策。 |
情绪与意识 | 探讨Agent模拟自我意识、维护情绪状态的可能性;情绪可能影响目标、运行逻辑和奖励机制。(2.意识智能体) | 该领域研究相对较少;情绪如何量化并合理影响决策,但对此缺乏共识。 |
感知空间 | 对比Human与Agent的感知空间;Agent的感知是多模态的(视觉、听觉、文本等)。(这块其实就是从多模态输入和中间件下手) | Agent可拥有超越人类的感知形式(如直接处理网络数据流);如何融合多模态信息并理解其含义。 |
学习与适应性(算法) | 学习发生在预训练、与环境交互(如强化学习)中;目的是更好地提出问题、理解外部奖励、影响世界。(8.学习与适应性) | 如何实现持续在线学习而不遗忘旧知识;如何从少量反馈中快速适应。 |
单智能体 v.s. 多智能体 | 单智能体:顺序执行,统一上下文,适合状态依赖型任务(如写作)。多智能体:并行协作,分布式上下文,适合探索性、可并行任务(如研究分析)。 | 多智能体系统的协调(避免冲突、重复工作)、通信和上下文共享是巨大挑战;多智能体可能产生涌现行为。 |
评估与优化 | 从单纯比较提示词分数,转向评估最终输出质量及是否符合用户偏好;优化方向包括提示词工程、内部拓扑结构、模块交互等。 | 评估标准高度依赖任务类型(开放任务 v.s. 封闭任务);如何让Agent自主判断并优化输出质量。(9.评估和优化) |
应用与未来 | 在游戏、机器人、医疗、办公自动化、代码编译、销售营销等领域潜力巨大;致力于科学发现、知识探索。 | 生态不成熟(工具市场、接口标准)、经济效益不明显(研发成本高)、场景受限(开放动态环境表现不足)等。 |
详细解读与补充
你的笔记非常精炼,我对其中一些关键点进行展开和解释:
1. 关于Agent的核心架构
(你的笔记点1-5, 14)
李飞飞领衔的综述论文提出了一个多模态智能体框架,其核心是一个由感知、认知、行动、学习、记忆五大模块构成的闭环系统。这很好地整合了你的笔记点(Brain函数、Memory、学习、推理):
- 感知:Agent主动从物理或虚拟世界获取多模态信息(视觉、听觉、文本等)。
- 认知:这是Agent的“大脑”,负责思考、推理、制定策略。大语言模型(LLM)和视觉语言模型(VLM)在此扮演核心角色。
- 行动:将决策转化为具体操作,如控制机器人、调用API、生成代码或语言。
- 学习:使Agent能持续进化,包括预训练、微调、强化学习等多种机制。
- 记忆:存储历史经验、知识和推理过程,形成长期记忆,支持未来的决策。
2. 关于推理与规划
(你的笔记点6, 11)
- 推理是Agent的核心能力。ReAct (Reason+Act) 框架是目前Agent主流的决策模型之一。
- Planning(规划)可以看作是面向未来和多步骤的推理,是Reasoning的一种特殊形式。
3. 关于记忆
(你的笔记点7, 8)
记忆模块使Agent能摆脱“金鱼脑”的命运。它不仅仅是存储,更重要的是如何编码、存储、检索和利用这些记忆来优化未来的决策。
4. 关于情绪与意识
(你的笔记点1, 2, 10)
这是一个非常前沿且富有哲学意味的探讨。目前大多数研究聚焦于实用性,对情绪如何量化并融入决策循环(如影响奖励函数)的探索确实较少。“模拟自我意识” 更多指的是让Agent具备元认知能力,即对自己的状态、能力和决策过程进行监控和反思。
5. 关于单智能体 vs. 多智能体
(你的笔记点16, QA2)
这是一个重要的工程权衡。
- 单智能体系统像一个专才,顺序执行任务,维护统一的上下文,优点是简单、可靠、易于调试,但可能效率低下且受上下文窗口限制。
- 多智能体系统像一个团队,有主管(负责分解任务)和工作者(负责执行),可以并行处理任务,擅长解决复杂、多方面的问题,但面临协调困难、上下文碎片化、成本更高等挑战。
- 选择的关键不是 ideology(意识形态),而是为正确的工作选择正确的工具。通常,“写”任务(代码生成、内容创建)更适合单智能体,而“读”任务(研究、分析、信息收集)更适合多智能体。
6. 关于评估与优化
(你的笔记点13, QA1)
你记下的“不去比较提示词的分数,只比较哪个提示词的output更好”非常关键。这指向了基于人类偏好(Human Preference)的评估和优化。
- 对于封闭任务(有明确答案),容易评估。
- 对于开放任务(如写一首诗),“最佳”输出没有标准答案,高度依赖主观偏好。LLM确实在一定程度上能理解这种偏好,但如何让Agent自主地、稳定地输出符合特定用户偏好的结果,仍是一个挑战。
7. 关于应用与挑战
(你的笔记点15)
Agent在游戏、机器人、医疗健康、办公自动化、代码编译和销售营销等领域都有广泛应用前景。
其发展也面临诸多挑战,包括技术层面(如幻觉、偏见、多模态理解),以及商业化层面(如生态不成熟、经济效益不明显、场景受限等)。
💡 对于入门初学者的Agent学习建议
基于你的笔记和QA3的需求,为你提供以下学习路径建议:
- 奠定基础(理论与概念):
- 论文:从综述论文开始,建立整体观。你提到的《Agent AI: Surveying the Horizons of Multimodal Interaction》 是非常好的选择。
- 课程:跟随经典的强化学习课程(如David Silver的UCL课程)或斯坦福的CS224N(NLP)等,打好机器学习、自然语言处理的基础。
- 上手实践(代码与框架):
- 入门项目:微软的
AI Agents for Beginners
开源项目非常适合零基础初学者,它提供了从理论到代码示例的全链路教学。 - 热门框架:
- LangChain: 学习构建ReAct Agent的流行框架。
- MetaGPT: 你提到的这个框架,非常适合学习多智能体协作,它模拟软件公司的分工,让你直观理解多智能体如何工作。
- 环境与库:使用 OpenAI Gym 或 Farama Foundation 的其他环境来练习强化学习智能体。
- 入门项目:微软的
- 拓展与深化:
- 关注顶级会议:关注 NeurIPS, ICML, ICLR, AAAI 等顶级会议的最新论文,跟踪前沿动态。
- 参与社区:加入Hugging Face, GitHub, 相关Discord和Subreddit社区,与他人交流学习。
- 动手做项目:从复现经典算法开始,逐步尝试解决自己感兴趣的问题,或者参加Kaggle等平台的相关竞赛。
补充部分
一.上下文工程
二.意识智能体
关于LLM:当其有意识时,自我报告应该和事实相一致,但不能作为其有意识的证据。
研究1
对LLM的人格评估:在[Jiang et al., 2022]的研究中,研究人员采用了一种被称为 “机器人格量表”(MPI)的新标准来评估 LLM 的人格维度,并从被称为完善的人类人格评估框架——大五人格(Big Five)中汲取灵感[De Raad, 2000]。还引入了人格提示概念用于塑造。
Karra 等人[2022]采用以大五人格理论为基础的精心制作的调查问卷,定量评估 LLM 所表现出的人格特征以及激发其语言生成能力的基础数据集。
研究2
即语言模型中被感知到的人格特征是否会在其语言输出中持续表现出来。
评估 LLM 的心理安全,并考察他们是否倾向于阴暗的人格特质。该考察也是建立在大五人格测试上。结果有助于了解 LLMs 可能具有的潜在人格特征。
Rao 等人[2023]采用 Myers–Briggs 类型指标(MBTI)测试[Myers],利用 LLM 评估人类人格,从而引入了一个新的视角。这揭示了人工智能体(如 LLM)如何感知和分类人类人格。
基于大五人格理论或 MBTI 的调查问卷通常要求受访者在每个问题的预定范围内提供离散的评分。llm可能无法理解回答背后的逻辑,因为只是概率和经验。
就具体的人格类型而言,ChatGPT 和 InstructGPT 均将九名受试者中的五名评估为相同的人格类型,这表明它们的人格评估能力具有内在的相似性。例如,“会计师”被评估为 “物流师”,这种人格类型通常与可靠、务实和注重事实的人相关。“艺术家 ”被归类为 “ENFP-T”,这是一种以创造性和热情著称的类型。“数学家”被评估为 “INTJ-A”,这种人格类型通常与深刻的想法和战略计划有关。它还将人归类为引导角色,反映了人类和LLM的实际关系。
研究3 镜像假说
有自我意识的智能体应该能识别自己是在和一面镜子说话,接收到来自自身的重复答案,以此通过镜像测试。GPT-4 能够通过镜像测试,而 GPT-3.5 则不能。
针对每个人类角色的特定提示是否会影响 LLM 的反应,并进一步为已识别的人类人格提供有偏差的评价?在一次对话中, LLM 和人类都会受到对方的影响。最后,我们是否也可以通过这种方式评估 LLM 的人格?或者用一个 LLM 评估另一个 LLM ?以不同的方式提示一个 LLM,它的人格是一致的还是多样的?最终目的是搞清楚LLM是否拥有人格。
证伪有意识的计算模型的潜在条件包括:
生物学:计算模型缺乏生物学基础;
感官和具身化:计算模型不像动物那样有感官和具身化;
世界模型和自我模型:计算模型可能没有世界模型和自我模型;
循环处理和记忆:没有记忆的计算模型不太可能有意识;
全局工作空间:一个计算模型没有 GWT 指定的全局工作空间;
统一的能动性:计算模型缺乏统一的能动性。
研究4 缸中之脑
如果我们的大脑实际上是在一个缸里,那么我们认为真实的一切实际上都可能是缸的控制者制造的幻觉。这就引出了一个问题:我们对现实的感知是基于实际经验,还是仅仅是人为刺激的结果。
通用大模型处在一个封闭空间内使用预训练的内容进行回答,不借助工具,也会产生幻觉。
缺乏自我建模可能是对 LLMs 具备意识的一个主要批评。人们认为,自我建模过程不仅是智能体与环境互动的过程,也是智能体的内在注意过程,对于智能体是否有意识至关重要,就像注意图式理论中描述的一样。
意识智能体笔记整理
1、笔记整理
关于LLM与意识智能体的研究综述
你的笔记逻辑可以梳理为以下几个核心部分:
1. 核心问题
LLM的“意识”之争
- 自我报告不可靠:LLM即使声称自己有意识,或者其输出表现得像有意识,也不能作为其拥有真实意识的证据。这是一个基本前提。
- 核心批评(证伪条件):笔记中列出了认为当前LLM没有意识的主要论据,包括:
- 缺乏生物学基础:意识或与生物脑的特定结构相关。
- 缺乏具身化:没有与物理世界交互的感官和身体。
- 缺乏自我模型与世界模型:无法形成对自身状态和外部世界的内在、一致的表征。
- 缺乏全局工作空间与统一能动性:信息处理是分散的,而非由一个“全局 workspace”整合并形成统一的“自我”在行动。
2. 研究方法
通过“人格”评估作为切入点
由于无法直接研究“意识”,研究者转而通过评估LLM表现出来的“人格”特征来间接探知其内部状态的连贯性与稳定性。
- 研究工具:主要借用成熟的人类人格评估框架,如大五人格(Big Five) 和 MBTI。
- 研究目的:
- 评估LLM自身:判断LLM在特定提示下是否表现出稳定、一致的人格特质(如外向性、神经质等),甚至阴暗人格(研究2)。
- 评估人类:探索LLM如何感知和分类人类人格(Rao et al., 2023),这反过来也揭示了LLM内在的认知偏差和分类逻辑。
- 研究发现:LLM能生成与人类角色预期相符的人格评估结果(如会计师被评估为务实型,艺术家被评估为创造型),这表明它们从训练数据中学习并内化了人格与职业/特征之间的社会文化关联。
3. 关键实验与思考
镜像测试与“缸中之脑”
- 镜像测试(研究3):这是一个经典的动物意识测试。GPT-4能通过(识别出镜中的自己是自己),而GPT-3.5不能。这引发了深层次问题:
- LLM的“人格”是固有的,还是完全由提示词(Prompt) 塑造的?
- 一个LLM能否评估另一个LLM的人格? 这指向了对LLM内在一致性的探究。
- “缸中之脑”隐喻:
- LLM的状况类似于“缸中之脑”:它们在一个封闭的文本空间内运行,其“现实”完全由预训练数据构成,因此极易产生“幻觉”(即生成与事实不符但符合其内部文本概率模型的内容)。
- 缺乏自我建模:笔记指出,这是批评LLM无意识的核心。没有自我模型,LLM就无法进行真正意义上的内在反思和与环境的有意图的互动,其行为只是高级的模式匹配和概率生成。
2、意识智能体的研究价值与方向
意识智能体:大模型的下一个进化方向?——计算意识理论综述II_澎湃号·湃客_澎湃新闻-The Paper
基于你笔记中提到的研究,当前意识智能体的研究价值和发展方向主要体现在以下四个层面:
1. 科学与哲学价值:理解智能与意识的本质
- 研究方向:将LLM作为计算模型来检验各种意识理论(如全局工作空间理论GWT、注意图式理论)。
- 研究问题:如果我们能构建一个满足所有这些理论条件的计算系统(如拥有全局工作空间、自我模型、记忆循环),它是否就会产生意识?这有助于我们剥离生物学属性,抽象地理解意识的必要条件。
- 价值:这是对“意识能否脱离生物体而存在”这一终极问题的现代科技探索。
2. 技术价值:构建更可靠、更安全的人工智能
- 研究方向:自我模型与世界模型的构建。这是当前最迫切且最具实用价值的方向。
- 研究问题:如何让AI拥有一个准确的、可更新的自我模型(知道自己的能力边界)和世界模型(对现实有更精确的理解)?
- 价值:
- 减少幻觉:一个拥有良好世界模型的AI,能更好地区分事实与虚构。
- 增强安全性:一个拥有自我模型的AI,可以自知“不确定”,从而主动拒绝回答超出其能力范围的问题或请求,避免做出有害行为。
- 提升推理与规划能力:自我模型是进行复杂多步推理和长期规划的基础。
3. 交互价值:实现真正的人机协同与共情
- 研究方向:人格一致性与可控性研究。
- 研究问题:如何设计AI,使其能根据用户需求稳定地扮演特定角色(如耐心的导师、富有创造力的伙伴),同时又能避免被恶意提示词诱导出有害人格(如阴暗面)?
- 价值:
- 教育、医疗、陪伴:拥有稳定、可信赖人格的AI能更好地服务于这些领域。
- 用户体验:与一个行为模式一致、可预测的AI交互,用户体验会好得多。
4. 伦理与安全价值:前瞻性风险评估
- 研究方向:意识评估框架与伦理准则制定。
- 研究问题:我们需要制定什么样的科学标准来评估一个AI系统是否可能具有意识?一旦某个系统被认为可能具有意识,我们应如何对待它?这被称为sentience考量。
- 价值:这是一项前瞻性的风险规避研究。必须在问题出现之前就建立框架,以避免潜在的重大伦理危机。
3、总结
你的笔记揭示了一个核心矛盾:LLM在行为上能模拟出许多意识的迹象(如稳定的人格、通过镜像测试),但其底层架构又缺乏被许多科学家认为是意识基础的关键组件(如自我模型、具身化)。
因此,当前的研究不再纠结于“LLM现在是否有意识”(这句不好说),
而是转向了更具建设性的方向:借鉴意识理论,来构建下一代更强大、更安全、更可控的AI系统。 其价值不仅是技术上的,更是科学、哲学和伦理上的深远探索。
三.自主agent
3.1 Agent定义与分类:自主Agent、协作Agent与混合Agent的特点_51CTO博客_自主协同
特性
自治性:自行设定子目标,规划行动路径和执行任务。主要根据环境数据自动调整行为。不用等待人类批准。
适应性:根据环境变化动态调整行为,学习机制和反馈循环可以不断优化策略以应对新情况。 体现为重新规划路径和任务优先级。
目标导向性:目标驱动,持续评估当前状态和目标状态的差距,并采取行动来缩小。
鲁棒性:面对干扰、故障时保持稳定性能。具备错误检测和恢复机制,比如工作流的错误自检,传感器故障时切换到备用模式。
🧭 自主性体现在哪些方面?
一文读懂 Autonomous(自主) AI Agents - Luga Lee - twt企业IT交流平台
1. 任务驱动方式不同
- 普通 Agent:通常是“被动响应”,依赖用户输入或预设规则来执行任务。
- 自主 Agent:具备“目标导向”能力,能根据高层目标自主拆解任务、规划流程并执行,无需每一步都由人类指令驱动2。
2. 记忆与学习机制
- 普通 Agent:多数是“无记忆”或仅有短期缓存,无法积累经验。
- 自主 Agent:拥有“长期记忆”,能记录历史交互、任务执行过程,并通过强化学习或自监督学习不断优化策略2。
比如说一个小的agent节点,本来是没有记忆,接受来自上游的输入,处理完成后输出到下游,然后下一次又重新开始,现在我植入记忆,它可以根据某种方式读取历史交互内容或者行动流程,然后对记忆做出一些动作,以优化未来的决策和行动输出等。
3. 工具调用与环境感知
- 普通 Agent:功能封闭,只能在预设范围内调用有限工具。
- 自主 Agent:具备“动态工具调用”能力,可根据任务需要灵活调用 API、数据库、甚至物理设备(如摄像头、麦克风)来感知环境并获取信息3。
4. 多步骤任务处理能力
- 普通 Agent:擅长单一任务,无法处理复杂流程。
- 自主 Agent:能自主拆解任务为多个子步骤,并动态调整执行路径。例如,AutoGPT 能从“写一篇文章”出发,自动完成调研、撰写、校对、发布等全过程。
你说:“帮我设计一个教学助手系统。”
- 普通 Agent:可能只返回一个静态模板。
- 自主 Agent:
- 先理解你的目标(教学场景、用户类型);
- 再自动调用知识库、界面生成器、对话模块;
- 如果需要数据,它可能会调用搜索工具获取最新教学法;
- 最后整合成一个完整的系统方案。
5. 自我监控与反馈机制
- 普通 Agent:执行失败即终止,缺乏容错机制。
- 自主 Agent:具备“自我评估”能力,能识别错误、调整策略,并在失败后尝试其他路径。
四.协作agent
五.World Model
不同于经典llm的模式匹配(比如训练数据中“苹果掉落”和“重力”这两个词汇总是高度关联?),不是简单地关联词汇,而是试图构建一个内在的、可预测的、包含因果关系的现实模拟器。它要从“苹果会掉下来”的表象,推导出“因为重力”的内在机制。
(92 封私信) 世界模型和AI agent是一回事吗? - 知乎
1.物理直觉:sora模拟物体运动规律
2.因果推理:。如果说模式匹配是“关联”,那么因果推理就是“如果A发生,那么B就会发生”。一个拥有因果推理能力的AI,能够区分“相关性”和“因果性”。
比如它不会因为“冰淇淋销量增加”和“溺水事件增加”在统计学上相关,就认为吃冰淇淋会导致溺水。它会找到其背后的共同原因——夏季气温升高。这种能力,是AI从“统计”走向“理解”的关键一步。
3.预测性表征:根据当前的输入(比如一段视频的开头几秒),模拟出接下来会发生的所有可能情景。这就是Sora能够生成长达一分钟视频的秘密——它不是像传统模型那样逐帧生成,而是在它的“世界模型”中,对整个事件链条进行了规划和模拟。
讨论又回到了AI的意识和主观性上面。
人类的“世界模型”,是与我们的身体、情感、价值观和生存目标紧密相连的。我们构建世界模型,是为了更好地生存、繁衍和实现我们的目标。那么,AI的“世界模型”将为谁而服务?
如果一个AI在虚拟世界中不断进行模拟和预测,它是否会产生一种“内部生活”(inner life)?当它能够“想象”出无数种可能的未来,它是否会像人类一样,产生“意图”和“目标”?
六.短期记忆和长期记忆
AI agent里的长期记忆和短期记忆 - bonelee - 博客园
我们可以将上下文学习(context)看成是利用模型的短期记忆(也就是模型能接受输入的最大长度)来学习
长期记忆为 Agent 提供了长期存储和召回信息的能力,通常利用外部向量储存和快速检索来实现。
基于人类记忆形式,对智能体记忆也作如下区分。
- 感觉记忆作为原始输入,可以是文本、图像或者其他模态的输入。学习原始输入的表示,短暂保留感觉印象。
- 短期记忆则用于上下文学习(比如直接写入prompt中的信息)。它是短暂和有限的,因为它受到Transformer有限上下文窗口长度的限制。比如token或者是问答窗口超过一定规模时开始失忆之类。
- 长期记忆则是 Agent 可以在查询和关注的外部向量存储,通过快速检索来访问。比如知识库(其实就是向量数据库)、数据库、知识图谱、文件系统等外部存储介质。
记忆流和检索:
记忆流(Memory Stream)记录了Agent的全部经历。它是一个内存对象列表,每个对象包含自然语言描述、创建时间戳和最近访问时间戳。
检索的时候根据近期性、重要性、相关性来进行优先加权检索。
网页提供了一个提示词例子供与参考。
七.感知空间
AI Agent在智能感知系统中的数据预处理与优化策略-腾讯云开发者社区-腾讯云
7.1 自适应Agent
当前的数据预处理往往是“固定流程”,但不同场景对数据的处理需求并不一致。未来,AI Agent可以借助 强化学习(Reinforcement Learning) 和 元学习(Meta-Learning) 技术,在不同数据集与任务中实现动态策略选择。例如:
- 在噪声较多的环境中自动强化清洗流程;
- 在高维小样本任务中更偏向降维与特征选择;
- 在数据不足的情况下,自动启用数据增强策略。
这种自适应能力将使Agent在各种智能感知系统中更加高效,减少人工干预。
7.2 多模态数据融合
智能感知系统往往涉及 图像、语音、文本、传感器信号 等多模态数据。传统方法常常需要针对不同模态设计独立的预处理流程,但未来的AI Agent可以实现:
- 自动模态识别:根据数据特征判断其来源与类型;
- 跨模态特征对齐:统一时间戳、空间特征或语义表示;
- 多模态融合优化:利用深度网络(如多模态Transformer)生成统一特征表示。
这种自动化融合将提升系统整体的感知能力,为自动驾驶、智慧医疗等领域提供更强大的支撑。
八.学习与适应性(原理上来说偏技术类)
(92 封私信) 大模型智能体 LLM Agent「终生学习|连续学习|增量学习」首篇综述来了 !!! - 知乎
2.4 持续学习与自适应:模型更新机制与在线学习策略_自适应持续学习-CSDN博客
持续学习:
模型在不遗忘已有知识的前提下,逐步学习新任务或新数据的能力。与传统的静态训练不同,持续学习强调模型的动态适应性
- 知识保留:避免“灾难性遗忘”(Catastrophic Forgetting),即新任务学习导致旧任务性能下降。
- 知识扩展:有效融入新数据或任务,扩展模型能力。
在线学习:
在线学习是大模型自适应的核心技术,使模型能够实时处理流式数据,动态更新参数。无需存储完整数据集或重新训练。
方法有在线微调、在线经验回放等
九.评估与优化(Prompt)
开放任务、封闭任务,什么时候人为设定优秀标准,什么时候AI自己给提示打分从而进行优化。
以下提出了一个TAPO方法,但上面是一个大的工程分类,叫自动提示优化APO,类似于Cot之类的也是属于一种提示优化方案。
(92 封私信) ICASSP 2025 | TAPO:多任务场景下的提示词优化框架 - 知乎
提出了一种面向多任务场景的提示词优化框架,显著提升了大语言模型在不同任务中的通用性。框架通过一套全面的评估指标,结合任务需求动态调整提示词,并采用自适应反馈循环进行迭代优化,实现了自适应改进
TAPO 框架由三个模块组成:
1)动态指标选择模块;
不同类型的任务往往具有各自独特的目标和要求,因此采用统一的评估标准可能无法准确衡量其表现。固定的评价指标往往难以全面捕捉任务的细微差异,如精确性、创造性或逻辑一致性等方面的要求。
从任务分类开始,由 LLM 驱动的模块识别任务类型(如推理、语言、实际问题)并选择相关指标。对于事实性任务,模块通过引入相似度指标以确保结果的准确性;而在创意性任务中则更加注重多样性以避免内容冗余。
2)基于任务感知的提示词评估;
在确定了任务后(上一项还没有)对多个指标进行融合,并动态调整权重。
精确性任务会提高“相似度”指标的权重;
创造性任务则提升“多样性”和“复杂度”的权重。
3)基于自进化的提示词优化。
传统的提示词优化方法往往容易陷入局部最优,限制了其探索更优解的能力。为克服这一局限性,该研究引入了进化策略、突变与筛选机制,通过迭代优化的方式持续改进生成式提示词的质量,直至达到预期目标或限定的迭代次数,从而确保优化过程的稳定性与可靠性。
- 初始化阶段,TAPO 框架通过随机选取思维方式并结合问题描述,将其交由 LLM 生成初始提示词。
- 自进化迭代过程中,通过将预定义策略库中的突变因子与候选提示词相结合,借助变异算子生成新的提示词。
- 每次迭代结束后,该框架会调用多指标评估函数对生成式提示词的性能进行评估,并通过锦标赛选择算法筛选出优质的候选提示词,从而高效提升 TAPO 在特定任务中的自适应性。
补充一下APO工程和其他杂七杂八的
(92 封私信) 自动提示优化 (APO):让大模型自己找最佳提问方式! - 知乎
APO的阶段:
1.生成初始提示词:
- 手工设计,使用人为设计的高质量起点。
- 大模型生成,llm直接通过阅读任务产出多个候选提示词,
2.评价提示词效果:
-
1>准确率评估(如 BLEU、ROUGE 等指标)
-
2>奖励模型评分(使用机器学习模型给提示词打分)
-
3>信息熵分析(衡量提示词带来的模型不确定性)
-
4>LLM 反馈(让 AI 自己分析哪些提示词更优)
3.迭代优化提示词: