AI Agent基础一
什么是AI Agent
Agent = LLM(大脑) + Planning(规划) +Tool use (执行)+ Memory(记忆)
- LLM :作为核心推理机,负责理解意图、生成文本和逻辑判断
- Planning:将复杂的目标拆解为可执行的步骤
- Memory:记录对话历史(短期)和存储专业知识库(长期)
- Tool Use:能够根据需求去查谷歌、读取数据库、甚至跑代码
在学习Agent时,需要将思维转变为从对话框问答进化为目标驱动的任务执行
在学习AI Agent的过程中,我们会感受到,它像一个有自主性的员工,能够
- 理解任务目标:能够理解我们想要的结果是什么
- 制定计划:可以思考如何达成目标
- 使用工具:调用各种资源及API
- 自我调整:根据反馈优化策略
- 持续执行:直到完成任务或者遇到无法解决的问题
AI Agent组成
组成:
- 目标
- 逻辑
- 工具
运行方式:
- 接受用户输入
- 判断当前任务
- 调用对应工具
- 返回结果
- 保留必要的上下文
- 支持多轮连续操作
- 遇阻时调整执行步骤
什么是AI Agent
**Agent = LLM(大脑) + Planning(规划) +Tool use (执行)+ Memory(记忆) **
- LLM :作为核心推理机,负责理解意图、生成文本和逻辑判断
- Planning:将复杂的目标拆解为可执行的步骤
- Memory:记录对话历史(短期)和存储专业知识库(长期)
- Tool Use:能够根据需求去查谷歌、读取数据库、甚至跑代码
在学习Agent时,需要将思维转变为从对话框问答进化为目标驱动的任务执行
在学习AI Agent的过程中,我们会感受到,它像一个有自主性的员工,能够
- 理解任务目标:能够理解我们想要的结果是什么
- 制定计划:可以思考如何达成目标
- 使用工具:调用各种资源及API
- 自我调整:根据反馈优化策略
- 持续执行:直到完成任务或者遇到无法解决的问题
AI Agent组成
组成:
- 目标
- 逻辑
- 工具
运行方式:
- 接受用户输入
- 判断当前任务
- 调用对应工具
- 返回结果
- 保留必要的上下文
- 支持多轮连续操作
- 遇阻时调整执行步骤

我们在与Agent对话时,会发现,现有的大模型会有上下文限制、幻觉、安全等问题,并且目前暂时没有办法解决,只能不断的去优化,调整来解决。
AI Agent 与 普通大模型的区别:
普通大模型:生成文本
Agent:生成行动并执行行动,完成实际工作
接下来我们使用表格的方式进行展示:
| 维度 | 传统AI模型 | AI Agent |
|---|---|---|
| 交互方式 | 单次输入输出 | 输入输出、可持续交互 |
| 决策能力 | 基于输入直接推理 | 规划、反思、迭代优化 |
| 工具使用 | 无法主动调用外部工具 | 可调用搜索、计算器、API等 |
| 记忆机制 | 仅限当前对话上下文 | 短期+长期记忆 |
| 目标导向 | 完成单一预测任务 | 完成复杂目标 |
| 错误处理 | 输出及结束 | 可自我纠错、重试 |
核心模式:从prompt 到 Reasoning Loop
ReAct模式(Reason Act)目前最主流的Agent推理逻辑:
- Thought:模型描述当前要做什么,为什么要这么做
- Action:模型选择一个工具
- Observation:模型读取工具返回的结果
- Repeat:重复上述步骤,最终得到答案
AI Agent主要类型与应用场景
| 类型 | 特点 | 应用场景举例 |
|---|---|---|
| 单一任务Agent | 专注完成一件特定的事情,功能专一 | 智能客服机器人、自动数据录入助手、旅游攻略助手等 |
| 多模态Agent | 能够理解和处理文本、图像、语言等多种信息 | 根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要等 |
| 自主Agent | 拥有较高的自主性、可长期运行并主动管理复杂目标 | 自动驾驶汽车、自动化股票交易系统、智能游戏NPC(非玩家角色) |
| 模拟Agent | 在虚拟环境中进行模拟、测试和训练 | 训练机器人完成抓取任务、模拟城市交通流量优化、新药研发分子模拟 |
例如最简单的我在coze中生成的简单的[旅游攻略小帮手][https://www.coze.cn/store/agent/7606142653194928168?bot_id=true](单Agent模式),通过调用墨迹天气、高德地图提供的API,可以根据客户需求,生成对应的可执行的旅游计划表,具备条件时,可以继续执行操作。
大语言模型基础(LLM)
大语言模型(large language Model)是AI Agent的大脑,理解它是构建智能体Agent的基础。它本质上是基于统计的模式匹配系统,理解它的局限性,才能更好地利用它的能力
LLM之所以能和我们对话、写文章、编程,本质是它在根据你给出的文本(提示词),一个一个猜出最合理的下文。简单来说,LLM时一个经过海量数据训练的深度学习模型,能够理解和生成人类语言。
我们可以把它想象成一个学习极其用功、记忆力超群的学生:
- 学习阶段(训练)
- 应用阶段(推理)
LLM中的large主要体现在:参数规模大、训练数据大。
局限性:
| 能力 | 说明 | 局限性 |
|---|---|---|
| 知识截止 | 训练数据有截止日期 | 无法知道训练后的新信息 |
| 数学计算 | 能做简单计算 | 复杂计算容易出错 |
| 实时信息 | 需要外部工具辅助 | 本身无法获取实时数据 |
| 事实准确性 | 可能生成错误信息 | 需要事实核查 |
| 长文本处理 | 上下文长度有限制 | 超长文本会丢失信息 |
| 逻辑一致性 | 可能前后矛盾 | 需要仔细设计和验证 |

我们在与Agent对话时,会发现,现有的大模型会有上下文限制、幻觉、安全等问题,并且目前暂时没有办法解决,只能不断的去优化,调整来解决。
AI Agent 与 普通大模型的区别:
普通大模型:生成文本
Agent:生成行动并执行行动,完成实际工作
接下来我们使用表格的方式进行展示:
| 维度 | 传统AI模型 | AI Agent |
|---|---|---|
| 交互方式 | 单次输入输出 | 输入输出、可持续交互 |
| 决策能力 | 基于输入直接推理 | 规划、反思、迭代优化 |
| 工具使用 | 无法主动调用外部工具 | 可调用搜索、计算器、API等 |
| 记忆机制 | 仅限当前对话上下文 | 短期+长期记忆 |
| 目标导向 | 完成单一预测任务 | 完成复杂目标 |
| 错误处理 | 输出及结束 | 可自我纠错、重试 |
核心模式:从prompt 到 Reasoning Loop
ReAct模式(Reason Act) 目前最主流的Agent推理逻辑:
- Thought:模型描述当前要做什么,为什么要这么做
- Action:模型选择一个工具
- Observation:模型读取工具返回的结果
- Repeat:重复上述步骤,最终得到答案
AI Agent主要类型与应用场景
| 类型 | 特点 | 应用场景举例 |
|---|---|---|
| 单一任务Agent | 专注完成一件特定的事情,功能专一 | 智能客服机器人、自动数据录入助手、旅游攻略助手等 |
| 多模态Agent | 能够理解和处理文本、图像、语言等多种信息 | 根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要等 |
| 自主Agent | 拥有较高的自主性、可长期运行并主动管理复杂目标 | 自动驾驶汽车、自动化股票交易系统、智能游戏NPC(非玩家角色) |
| 模拟Agent | 在虚拟环境中进行模拟、测试和训练 | 训练机器人完成抓取任务、模拟城市交通流量优化、新药研发分子模拟 |
例如最简单的我在coze中生成的简单的[旅游攻略小帮手][https://www.coze.cn/store/agent/7606142653194928168?bot_id=true](单Agent模式),通过调用墨迹天气、高德地图提供的API,可以根据客户需求,生成对应的可执行的旅游计划表,具备条件时,可以继续执行操作。
大语言模型基础(LLM)
大语言模型(large language Model)是AI Agent的大脑,理解它是构建智能体Agent的基础。它本质上是基于统计的模式匹配系统,理解它的局限性,才能更好地利用它的能力
LLM之所以能和我们对话、写文章、编程,本质是它在根据你给出的文本(提示词),一个一个猜出最合理的下文。简单来说,LLM时一个经过海量数据训练的深度学习模型,能够理解和生成人类语言。
我们可以把它想象成一个学习极其用功、记忆力超群的学生:
- 学习阶段(训练)
- 应用阶段(推理)
LLM中的large主要体现在:参数规模大、训练数据大。
局限性:
| 能力 | 说明 | 局限性 |
|---|---|---|
| 知识截止 | 训练数据有截止日期 | 无法知道训练后的新信息 |
| 数学计算 | 能做简单计算 | 复杂计算容易出错 |
| 实时信息 | 需要外部工具辅助 | 本身无法获取实时数据 |
| 事实准确性 | 可能生成错误信息 | 需要事实核查 |
| 长文本处理 | 上下文长度有限制 | 超长文本会丢失信息 |
| 逻辑一致性 | 可能前后矛盾 | 需要仔细设计和验证 |
本文来自博客园,作者:前端加油站,转载请注明原文链接:https://www.cnblogs.com/bllx/p/19638784

浙公网安备 33010602011771号