Ch.1 大模型应用发展及Agent前沿技术趋势【了解就好,讲的不够清晰】
ChatGPT
的问世。这一现象级的对话式应用直接改变了人们对智能应用的既有看法。在此之前,我们已经习惯了智能客服
的机械式回答和智能应用
的频繁出错,所以,当一个能够使用自然语言
(即人类的交流语言)理解情感、解决问题并且能即问即答的应用系统出现时,人们很难相信它背后不是真实的人类,而是一个由人类设计的机器模型。 下图中的对话来源于基于GPT-4.0
模型的对话式应用ChatGPT
👇

如上图所示,我们可以用最自然的对话方式让大模型帮助我们处理各种任务、解决问题、学习新知识,甚至在需要时提供安慰。它表现得像是一个无所不知、无所不能的朋友。每当你需要它扮演不同角色时,只需新建一个对话窗口,它便能化身为全新的伙伴。在它出现之前,人工智能的技术领域中无论是机器学习模型还是深度学习模型,它们都需要特定的数据先进行训练才能去执行具体任务,比如机器学习中的分类任务或深度学习的实体识别等。而大模型以其接近人类的交互特性,跨越了这些界限,用独立的个体直接去解决各种类型的问题,并且还表现得很好,直接把人工智能的热度推到了一个新的高度。
也正是这样的一种技术上的跨越,业内人会把2023年称为大模型的元年,因为它标志着人工智能迈上了一个新的台阶,而且,属于大模型的时代也才刚刚开始。所以我们作为技术人,肯定不是仅仅做一个“吃瓜群众”,看热闹的同时,更多的精力都在积极跟进大模型的发展,深入理解并掌握其背后的技术演进,以此来不断更新自身的技术视野。当然,我们要研究的并不是表面的应用ChatGPT
,而是其背后的强力基座模型-GPT
。
1. 大模型应用的快速迭代
比较有意思的是,如果有在2023年起就开始使用ChatGPT
类应用的非技术岗位的小伙伴,大概率都会有这样一些想法:大模型技术一年半以来的技术发展并未带来显著的产品变革,无非是界面美观了一些,功能增加了一些,例如现在支持上传图片、文件和构建插件等。但通过表象应用去看本质,会发现大模型技术的迭代速度是远远快于其他领域的。其快速发展的有两个核心方向:
- 大模型自身的能力在不断变强
- 大模型的对话效果在大幅提升
两个方向其背后的技术栈迭代,我们可以总结如下图所示 👇 :

- 大模型自身的能力在不断变强
大模型有两个关键概念:原生能力和涌现能力。
所谓原生能力,指的是大模型基于特定的神经网络架构,在训练过程中通过不断摄入数据来学习,最终具备解答特定领域问题的能力。这种能力就像是印在大模型“大脑”中的知识,是其能够独立解答问题的基础。就如同我们在大学学习三年后能够解决高等数学问题一样,这种能力是通过学习得来的,我们称之为原生能力。大模型的这种能力的提升在于:随着能获取到的数据量增加,开发者可以基于先前性能表现为其构建更优质的学习数据,结合学习方法的不断迭代优化(技术上称之为预训练技术或微调),大模型的原生能力就可以持续进化。这种进步的直观表现是模型的理解能力和回答质量的提升。
其次,我们还会重点关注大模型的涌现能力。这一能力指的是,尽管大模型可能没有直接学习过某些信息,但在与它对话时提供相关信息后,它能够类比和推理出解决方案。这类似于我们在准备高考时做过的“五年高考三年模拟”的题目,尽管高考题目不会与模拟题完全相同,但我们仍可以利用相同的思维模式解决考试试题。大模型的这部分能力提升主要体现在:我们通过给它构造各种函数调用、处理复杂问题的过程示例(Agent能力)等,在预训练或者微调阶段帮助它学习并强化这种能力。这样,大模型就能在其应用的第二个方向上——即实际问题解决中发挥更加重要的作用。
关于预训练和微调的原理和应用,我们将在本期视频的微调专栏中详细介绍。
- 大模型的对话效果在大幅提升
大模型的能力毋庸置疑,它在对话过程中能够回答和解决多种不同类型的任务,但存在着两个主要问题:知识库更新不及时和大模型幻觉问题。
首先,关于知识库更新问题,正如我们上面刚刚提到的,大模型是在预训练或者微调阶段获取和学习知识。这意味着,如果某些最新的信息未在训练数据中包含,大模型就无法提供相关答案。例如,如果你问它“今天的天气怎么样?”由于缺乏实时更新的数据,大模型无法给出正确的当前天气状况。

比较有意思的是:大模型的原生能力在不断的提升,它的对话效果好了,回答质量高了,但是我们的需求也变得越来越复杂了。 单纯的对话应用已无法满足需求。这就促使我们进入了大模型应用的第一个阶段——提示工程。
- Stage 1: 提示工程
虽然大语言模型非常强大,但要有效使用它们并非易事。在开发者急于探索如何像处理传统算法模型那样通过微调快速迭代更新大模型的内部知识时,一篇极具启发性的论文 👉 GPT-3 Language Models are Few-Shot Learners 提出了 In-Context Learning
的概念。该方法通过向模型提供少量标注的“输入-输出对”示例,在不需要大规模微调的情况下即可显著改善大模型的输出质量。这一发现开启了使用大模型的新方式 👇

当提出问题后,大模型能够以自然语言返回响应,这是生成式人工智能的一大优点。有些任务确实可以通过这种提示工程的方式引导大模型在对话过程中生成正确的回复,但这个过程最大的问题就是需要人工介入,正如上面的例子中涉及到的北京的天气信息:
{
"location": {
"city": "Beijing",
"country": "CN",
"timezone": "Asia/Shanghai",
"coordinates": {
"latitude": 39.9042,
"longitude": 116.4074
}
},
"current": {
"temperature": {
"value": 34,
"unit": "C"
},
"humidity": 55,
"pressure": {
"value": 1012,
"u "024-08-28T05:45:00+08:00",
"sunset": "2024-08-28T19:18:00+08:00"
}
}
对于试图将大模型的响应与其他应用程序连接起来的开发人员来说,这就是一场噩梦。开发人员通常使用正则表达式 (Regex) 或提示工程将输出转换为所需的格式,然后才能将其传递到另一个应用程序,也就是说,这个过程中如果不需要人工介入,还想让它自动拿到这些信息,怎么做?
搞过开发的小伙伴对这种JSON数据应该非常熟悉,我们可以调用某个天气平台的API,比如 👉 OpenWeather,输入一个城市的关键词, 就能得到该城市当前的天气信息数据,也就是如上所示的JSON形式,那么这样的信息,如何让大模型自动解析,就进入到了我们探索大模型应用的第二个阶段 - 函数调用。
- Stage 2:函数调用
2023 年 7 月,OpenAI 为其 GPT 模型引入了函数调用功能。大模型发展到现在,所有热门的大模型均已不同的形式让自己具备函数调用能力。通过函数调用,我们可以提供一个用户定义的 JSON 字符串,其中包含希望从大模型获取的响应结构,以及想要向大模型提出的问题。如下图所示,我们从概念上展示了其工作原理:

这里指的可以调用的函数,我们通常称之为 工具 ,在这个阶段,我们要做的是描述该工具是用来做什么的,然后让大模型智能地选择输出包含调用这些函数的参数的 JSON 对象。简而言之,它允许:
- 自主决策:大模型可以智能地选择工具来回答问题。
- 可靠的解析:响应采用 JSON 格式,而不是更典型的类似对话的响应。
乍一看似乎没什么,但这就是大模型能够连接到外部系统的原因,比如通过具有结构化输入的API,本地的数据库,自己编写的Python代码函数等等。有了这个功能,大模型在应用方面就开启了无限的可能性。比如:

当大模型被赋予函数调用的能力时,它会在每次回答问题之前先检查可以调用哪些工具,并评估用户的问题是否需要调用这些工具。如果需要,它便会调用相应的工具,并根据工具返回的结果来构筑答案。这整个过程都是大模型根据其自主判断的。所以在提升这一阶段不仅极大地扩展了大模型的应用范围,还在一定程度上解决了知识库更新不及时、无法获取实时信息及其带来的优势。
关于大模型的函数调用(Funcation Calling)功能,我们将在接下来的课程中详细介绍其理论并进行案例实践。
但是,在函数调用技术阶段趋于成熟的同时,我们仍然发现了另一个非常大的问题:大模型幻觉 👇

大模型直到现在依然普遍存在一个问题:当面对自己不了解的问题时,它们有时会产生不准确甚至荒谬的回答,这就是所谓的大模型幻觉问题。以上图中的例子为例,当大模型被询问关于公司制度的问题时,在没有任何技术手段介入的情况下,理想的回答应该是“我不知道”或“请提供一下你所入职公司的具体制度”等回答,而我们看到的却是大模型错误地从一个HR的角度进行了回复,这就会给用户带来混淆和误导。
在Stage 1:提示工程
中我们提到,大模型可以基于in-context learning
的提示思想,利用提供的背景信息来回答特定问题,直接引发了第一轮大模型应用落地的热潮,主要集中在本地知识库问答领域。因为无论是个人还是企业,都希望大模型能够根据其私有数据——如个人学习资料或公司规章制度等让大模型准确高效地回答问题,充当智能客服、智能助理这样的角色。然而,一个显著的挑战是数据量可能极大,从单个文件到数千G的文件系统不等,而大模型在对话处理上存在输入长度限制,无法将所有数据作为背景信息直接处理。
因此,面对本地知识库问答的挑战,并考虑到大模型的幻觉问题和长度限制问题,出现的解决方案就是:RAG(Retrieval-Augmented Generation),以此进入到了大模型应用的第三个阶段。
- Stage 3. Retrieval-Augmented Generation
通过人们不断地对大模型领域的探索,非常多的实验论文能够证明,当为大模型提供一定的上下文信息后,其输出会变得更稳定。那么,将知识库中的信息或掌握的信息先输送给大模型,再由大模型服务用户,就是大家普遍达成共识的一个结论和方法。传统的对话系统、搜索引擎等核心依赖于检索技术,如果将这一检索过程融入大模型应用的构建中,既可以充分利用大模型在内容生成上的能力,也能通过引入的上下文信息显著约束大模型的输出范围和结果,同时还实现了将私有数据融入大模型中的目的,达到了双赢的效果。
所以我们才看到RAG的实现是包括两个阶段的:检索阶段和生成阶段。在检索阶段,从知识库中找出与问题最相关的知识,为后续的答案生成提供素材。在生成阶段,RAG会将检索到的知识内容作为输入,与问题一起输入到语言模型中进行生成。这样,生成的答案不仅考虑了问题的语义信息,还考虑了相关私有数据的内容。比如我们《RAG企业级项目实战课》中实现的RAG流程 👇

RAG技术解决的两个关键的问题是:
-
如果用户提出的问题,其对应的答案出现在一篇文章中,去知识库中找到一篇与用户输入相关的文章是很容易的,但是我们将检索到的这整篇文章直接放入
Prompt
中并不是最优的选择,因为其中一定会包含非常多无关的信息,而无效信息越多,对大模型后续的推理影响越大。 -
任何一个大模型都存在最大输入的Token限制,一个流程中可能涉及多次检索,每次检索都会产生相应的上下文,无法容纳如此多的信息。
但事实上,如上面的流程图所示,大模型在整个RAG架构中占据的比例实际上非常小。我们主要依赖大模型结合背景信息进行推理的能力。在RAG的多个优化阶段中,检索策略的作用更为重要。此外,RAG的实际应用场景相对有限,无论是哪种形式的问答系统,都还未能达到我们所期望的通用人工智能(AGI)的水平。因此,现阶段进入到了AI Agent
的全面爆发,这项技术直接体现的是我们正在向期望的更复杂、更全面的技术方向发展。
那什么是通用人工智能?为什么AI Agent 能够做到通用人工智呢?
2. AI Agent 应用爆发
人工智能技术领域迄今为止唯一开发成功的人工智能类型是狭义人工智能(Artificial Narrow Intelligence,ANI),也称弱人工智能。它指的是在执行特定任务或一组密切相关的任务的人工智能系统。 ANI 并不复制人类智能,而是在有限的参数和上下文范围内模拟人类行为。例如图像生成和识别、自然语言处理、计算机视觉等。自动驾驶汽车中的人工智能系统、推荐引擎、Siri、Google Assistant 和 Alexa 都是狭义人工智能的形式。狭义人工智能取得了重大突破很大程度上归功于机器学习和深度学习的进步,由自然语言处理 (NLP) 提供支持,使其能够理解和处理人类语言。例如,人工智能系统现在在医学中用于高精度诊断癌症和其他疾病。
而我们现在期望做到的通用人工智能(AGI),是指具有相当于或超越人类能力的人工智能。它涵盖跨不同领域学习、理解和应用知识的能力。AGI也被称为强人工智能。
所以能够感受到,我们现阶段做到的人工智能和通用人工智能之间存在根本区别。像ChatGPT
这样的应用虽然掀起了新一轮的热潮,但本质上是它们也只是在做“预测”,通过大量数据的训练以达到生成准确响应的目的,但缺乏目标、身份或主动决策的概念。所以它们也只是复杂的文本生成器,没有目的或方向感。我们还没有完全做到AGI,因为现有的每个人工智能模型都只是模仿人类智能的某个方面。例如,大语言模型非常擅长理解和撰写文本,它们的能力常常超越人类在这些领域的表现。然而,当涉及到简单的算术任务时,LLMs就会经常出现问题。
那么让大模型能够自己解决更复杂的问题,现阶段提出的解决方案就是:AI Agent。
早在 2016 年,强化学习代理就被炒得沸沸扬扬,人们试图创建不同类型的强化学习代理来玩游戏,从而去评判这类代理的智能性。当时还没有人工智能代理的概念。 OpenAI 进行了一系列研究,包括探索强化学习 (RL) 在不同领域的应用,比如游戏和网页导航。其中,有一个名为“World of Bits”的项目,就是在训练人工智能代理在复杂的网络环境中执行任务,例如订购商品或服务。这个项目是对强化学习技术在现实世界任务中应用潜力的探索之一。论文:👉 World of Bits: An Open-Domain Platform for Web-Based Agents

如上图所示,这张论文中展示的多个网页界面中,每个界面都关联着一个特定的查询问题,用于展示不同类型的在线任务或服务。具体包括:
- 机票预订:从旧金山到纽约的航班预订。
- 餐馆搜索:寻找旧金山最好的韩国餐馆。
- 贷款计算器:计算$2000贷款两年期限的月付额。
- 产品价格查询:查询印第安纳州的iPhone 7 Plus价格。
- 单词搜索:使用字母“sycopthat”寻找9个字母的单词。
- 食谱搜索:寻找不含鸡肉但包含或执行相关的操作。
这些示例显示了人工智能如何帮助处理各种在线活动,从搜索信息到处理具体的请求,如购物或查询。这种技术的目的是通过自动化过程来简化用户的日常任务,提高效率,可能通过智能代理或特定的应用程序可以实现。此类系统通常会集成到网站或应用程序中,使用户可以通过自然语言查询来互动,系统则返回相关的答案或执行相关的操作。看似简单,但这并不像我们现在思考的那么简单。它就像自动驾驶汽车一样,很容易想到,很容易创建概念验证,但很难使其真正可用。
OpenAI 持续不断的研究一直得不到比较好的结果,我们认为主要的原因就是缺少了直到现在才出现的:大模型。
早在2023年中旬,OpenAI 作为在大模型整个行业的技术领航者,很早就推出了 GPT Plugins 商店,就是在借助大模型的力量,重新启动相关研究,并希望打造一个类似APP Store的生态系统,让每个人都能以极低的门槛创建自己的智能应用,无论是供个人使用还是为他人服务。然而,直到现在,GPT Plugins并未实现其初衷,使用率也未达预期。主要原因在于,如果把强化学习的一套方案移植到大模型,这种做法似乎并未产生立竿见影的效果。这直接导致了GPT Plugins虽然能开发智能应用,但这些应用还远未能满足我们对复杂度和功能性的高要求,也未能达到我们对人工智能应用预期的高度。同时,我会认为2023年的大模型,自身能力不足也是造成这种现状的根本原因。
人类具有非凡的能力,能够不断吸收信息、做出决定、采取行动、观察变化,然后做出下一个决定。我们的整个生活是一个永无休止的观察、思想和行动的链条。通过将复杂的问题分解为更小的、可管理的部分,并不断地借鉴前几代人的知识,我们人类已经取得了长足的进步。通用人工智能的最终形态就是:我们能够转移这个概念到大模型上,使其不断做出新的决策,从而逐步接近更复杂问题的解决方案。
至此,也就衍生出了 AI Agent (人工智能代理)的基本概念:一个感知环境、处理信息并采取行动以实现特定目标的软件程序或系统。现阶段我们会把单一的大模型作为AI Agent 的核心,而不是全部。它应该是一个超级好的大语言模型,能够解释问题、观察环境并据此做出决策。如果在AI Agent 构建流程中添加一些将语音转换为文本的模型、解释图像内容的模型,就可以构建自己的 Jarvis
所需的一切。(复仇者联盟电影中钢铁侠的私人虚拟助理)

如上图所示,描述了一个人工智能代理(AGI)如何处理用户询问的流程。用户通过语音向AGI提问,AGI首先解析并理解这个问题,然后搜索相关的存储文档或在线信息。基于搜索到的信息,AGI生成一个适当的回答,例如解释它无法找到与用户提问的问题相关的具体信息。最后,AGI将生成的文本回答转化为语音输出,以向用户提供回应。整个过程显示了AGI如何利用现有资源来理解和回应复杂的人类询问。从这个过程中,就可以很好的理解,AGI的实现过程中为什么要关注 AI Agents ,而不是单一的大模型。
很好解释,通过提示工程, 大模型可以生成更类似于人类的响应。但当我们应用代理的概念时,我们使用大模型不仅仅是回答问题,而是作为大脑处理它所看到的观察结果并决定下一步该做什么。人类处理问题就是这样:如果有一项任务需要解决,往往是去寻找能够帮助我们尽可能轻松地解决该任务的方法和工具。如果我们不给大模型配备足够的工具,即便它知道要做什么,但不具备调用工具的能力一切将会变为空谈。

从根本上讲,与严格遵守设定脚本或任务序列的传统自动化系统不同,人工智能代理具有感知、解释、学习和适应的能力。将它们视为数字助理,不仅执行任务,还不断评估周围环境,从不同的交互中学习,并做出决策以实现特定目标。它们可以采取多种形式,从执行单一任务的简单软件到管理复杂流程的复杂系统。人工智能代理在不可预测的环境中表现出色,其适应性和学习能力可以得到充分利用。从浏览互联网、与应用程序交互、处理大量数据到参与交易,这些任务都可以委托给人工智能代理。
3. AI Agent 背后的理论
人类的优势是能够吸收相对大量的信息,过滤掉不重要的细节,并根据关键信息做出决策。比如在处理一件事情之前,我们通常会先将大问题分解为一个个小的假设,然后尝试通过观察逐步支持或反驳这些假设。从这个现实的观点出发,启发 AI Agent 早期范式的一篇论文 👉 REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS 中使用“思维链提示”来模仿这个概念,它将多步骤问题分解为中间步骤:
- 发起一项行动,让大模型观察所选环境的反馈
- 在流程中收集所有信息并使用它来决定下一步采取什么合适的行动
- 迭代地执行此操作来解决更大、更复杂的任务,使用一种称为“推理跟踪”的方法,该方法涉及跟踪整个过程所经历的步骤或阶段以得出结论或解决方案
如下图所示,整个过程是一个动态循环。代理不断从环境中学习,通过其行动影响环境,然后根据环境的反馈继续调整其行动和策略。这种模式特别适用于那些需要理解和生成自然语言的应用场景,如聊天机器人、自动翻译系统或其他形式的自动化客户支持。

一个这是更加感官性的认知如下图所示:

如上图所示,展示了一个人工智能代理的基本架构,包括它与环境的互动、感知输入、大脑处理及其决策过程。具体来说:
- 环境(Environment): AI代理接收来自其周围环境的信息。环境可以是一个网站、数据库或任何其他类型的系统。
- 感知(Perception): 即输入。AI代理通过多种方式感知环境,如视觉(图像)、听觉(声音)、文本(文字信息)和其他传感器输入(如位置、温度等)。这些输入帮助代理理解当前的环境状态。
- 大脑(Brain):
- 存储(Storage):
- 记忆(Memory):存储先前的经验和数据,类似于人类的记忆。
- 知识(Knowledge):包括事实、信息和代理用于决策的程序。
- 决策制定(Decision Making):
- 总结(Summary)、回忆(Recall)、学习(Learn)、检索(Retrieve):这些功能帮助AI在需要时回顾和利用存储的知识。
- 规划/推理(Planning/Reasoning):基于当前输入和存储的知识,制定行动计划。
- 存储(Storage):
- 行动(Action):代理基于其感知和决策过程产生响应或行动。这可以是物理动作、发送API请求、生成文本或其他形式的输出。
所以从这个过程中,我们就可以抽象出 AI Agent 的最经典,同时也是目前任何一套Agent 框架的基本框架,如下图所示:

图片来源:https://lilianweng.github.io/posts/2023-06-23-agent/ , 强烈建议大家通篇阅读。
这套智能代理架构是指自主代理的结构化设计,自主代理是能够独立感知环境、做出决策并采取行动以实现特定目标的系统或实体。该架构描述了代理的各个组件如何交互以促进智能行为。该架构包含四个关键组件:
- 规划(Planning):该组件将代理置于动态环境中,使其能够根据其目标和收集的信息制定策略并规划未来的行动。
- 记忆(Memory):该组件使智能体能够回忆过去的行为、经历和结果,这对于学习和适应至关重要。
- 行动(Action):该组件将智能体的决策转化为具体的行动,执行计划的任务以达到预期的结果。
- 工具(Tools):拥有一名仅拥有LLM的代理人就像使用一台没有任何额外设备的计算机一样。工具让代理能够使用互联网、获取特殊知识或与擅长特定事物的几种不同的人工智能模型一起工作,从而使代理变得更加有用。
人工智能代理的特点是其主动性和决策能力。与被动工具不同,它们主动参与环境,做出选择并采取行动来实现其指定目标。在企业环境中,人工智能代理通过自动化日常任务和分析复杂数据来提高效率,从而使员工能够专注于战略和创造性工作。这些代理补充而不是取代人类的努力,促进提高劳动力的生产力和效率。
让我们想象一个中国市场销售经理李华和他的人工智能助理的场景。
李华的工作日以检查电子邮件开始。他收到了来自潜在客户张伟的邮件,张伟对他公司提供的高效解决方案感兴趣。李华的人工智能助手直接连接到他的电子邮件系统,并且实时监控这些互动。根据李华过去的回复习惯和公司提供的信息库,人工智能助手草拟了一封详细的回复。邮件中不仅总结了公司的高效解决方案及其优势,还根据张伟的需求定制了相关建议。
李华审阅了这份草稿邮件,加入了一些个人化的语句,以显得更加友好和专业,然后发送给了张伟。随后,人工智能建议的后续步骤包括安排与张伟的电话会议、发送一份详细的产品介绍手册,或者如果一周内没有得到回复,提醒李华进行跟进。李华同意了这些建议,人工智能助手随即整理他的日程,通过电子邮件发送产品手册,并在他的电子日历中设置了跟进提醒。通过让人工智能处理这些日常但关键的任务,李华可以将更多精力投入到其他重要的业务拓展活动中。
这个过程中AI Agent 展现出来的关键能力:
- AI Agent 利用大模型固有的语言理解能力来解释指令、上下文和目标。这使它们能够根据人类的提示自主或半自主地运作。
- AI Agent 可以使用各种工具(阅读邮件,计算器、搜索引擎等)来收集信息并采取行动来完成分配的任务。它们的能力超出了单纯的语言处理范围。
- AI Agent 能够展示复杂的推理技术,可以建立逻辑联系来得出结论和解决问题,而不仅仅是简单的文本理解。
- AI Agent 可以通过将上下文和目标集成到其语言生成能力中,生成用于特定目的的定制文本,例如电子邮件、报告和营销材料。
- AI Agent 代理可以完全自主或半自主运行,需要与用户进行不同级别的交互。
人工智能代理的好处不仅仅是效率。它们营造协作环境,降低人为错误的风险,并腾出宝贵的时间进行创造性和战略性思考。从本质上讲,人工智能代理不仅仅是工具,更是工具。他们是补充人类能力并推动创新的合作伙伴。
4. Agent 背后的 Agent
接下来需要明确的是,AI Agent能够连续执行正确的工具,不断观察结果,然后决定下一步需要哪种工具。这种函数的迭代执行是由 AgentExecutor
执行的。 AgentExecutor
指的是代理运行时,整个过程一遍又一遍地重复,直到达到预定义的终止标准。随着企业认识到即将到来的人工智能代理革命,解决方案提供商纷纷涌现,它们会提供工具和框架,使构建这些人工智能代理变得容易。从无代码、低代码到完整的 Python 库等等。框架和工具的列表简直是令人眼花缭乱。但最根本的区别,无非是基于Agent经典框架的扩展及不同的AgentExecutor
构建理念和流程。
每个AgentExecutor
都有自己的执行任务和制定决策的方法和方法。AgentExecutor
的选择主要取决于手头任务的具体要求、决策过程的复杂性以及希望代理展现的自主性或智能水平,不同的AgentExecutor
也就形成了多个不同的产品和工具,这里我们提供一个对AI Agent 工具总结整理较好的一个导航性网站:https://e2b.dev/ai-agents/open-source 👇

在上述框架中,我们的课程将会挑选热门且主流的AutoGPT、CrewAI、LangGraph等在后续的课程中详细的介绍其原理和应用技巧。同时,大家也可以根据导航网站中的项目列表选择最适合自己当前任务、工作需求的工具进行尝试。
人工智能代理代表了技术领域的变革力量。它们的能力,从简单的自动化到像 Devin 这样的系统所展示的独创性,都在迅速扩展。我们正在见证它们在客户服务和虚拟协助等日常任务中的成功,而这仅仅是开始。在日益复杂的大模型的支持下,新一代人工智能代理迎来了一个前所未有的效率和创新时代。而随着企业大规模采用人工智能代理,对熟练人员(能够设计、部署和管理这些系统的人员)的需求将会猛增。除了某些行业可能出现的工作岗位流失之外,人工智能还将创造令人兴奋的新职业。为了在这种不断变化的环境中蓬勃发展,我们必须具备适应能力和持续学习能力。
了解不同类型的人工智能代理、其核心工作流程步骤以及支持其创建的强大框架是关键。而我们的课程,也将按照这条稳扎稳打的技术路线逐步展开。