Agent在其最基本的形式上可以定义为一种应用程序,它通过观察世界并使用其可用的工具来尝试实现目标。Agents 是自主的,可以独立于人为干预进行操作,尤其是在提供了它们需要实现的适当目标或目标时。即使在没有明确的指令集的情况下,agent 也可以推理出下一步应该做什么以实现其最终目标。
模型:在agent的范围内,模型通常指的是语言模型(LM),它作为agent处理过程的集中决策者。模型能够遵循基于指令的推理和逻辑框架,例如ReAct、Chain-of-Thought或Tree-of-Thoughts。
工具:工具弥补了基础模型与外部世界交互的能力不足。工具可以采取多种形式,通常与常见的Web API方法(如GET、POST、PATCH和DELETE)对齐。例如,工具可以帮助agent获取实时信息或执行特定操作。
编排层:编排层描述了一个循环过程,管理agent如何接收信息、进行内部推理并使用这些推理来指导其下一步行动或决策。这个循环会持续进行,直到agent达到其目标或一个停止点。
通过这些组件的组合,agent能够自主地观察世界并使用其可用的工具来尝试实现目标,即使在没有明确指令集的情况下,agent也能推理出下一步应该做什么以实现其最终目标。
概括下:使用模型进行决策,借助工具与外部世界交互,通过编排层管理循环过程,并依赖认知架构来驱动行为和决策。
实时信息访问:例如,使用数据库检索工具访问特定信息,如客户的购买历史,以生成个性化的购物推荐。
API调用:生成API调用来发送电子邮件回复或完成金融交易。
数据存储与处理:使用数据存储来提供最新的信息,支持检索增强生成(RAG)应用程序,扩展模型的知识范围。
特定任务自动化:例如,帮助用户预订航班、更新智能家居设置、更新日历或根据特定指令发送电子邮件。
复杂任务执行:在客户服务、财务管理、旅游规划等领域,通过迭代处理信息、做出决策和执行下一步行动来完成复杂任务。
开发者工具:通过函数调用提供更细粒度的控制,使开发者能够管理数据流和系统执行。
具体示例包括:
旅行规划:例如,用户请求预订从奥斯汀到苏黎世的航班,Agent使用Google Flights API来获取航班信息。
客户服务:例如,用户查询某一产品的可用性,Agent使用数据库检索工具获取实时库存信息并提供给用户。
增强工具的复杂性和推理能力:随着工具变得更加复杂和推理能力的增强,agents将能够解决越来越复杂的问题。
agent链的战略方法:通过结合专门化的agents,每个agent在特定领域或任务中表现出色,创建一种“专家agent混合”的方法,能够在各个行业和问题领域中提供卓越的结果。
迭代方法构建复杂的agent架构:构建复杂的agent架构需要采用迭代方法。实验和改进是找到特定业务案例和组织需求解决方案的关键。
利用基础模型的优势:通过利用每个基础组件的优势,可以创建有影响力的应用程序,扩展语言模型的能力并驱动现实世界的价值。
https://mp.weixin.qq.com/s/-SrmbXBbejUqQvyu0fyKoQ