AI Agent基础一

什么是AI Agent

Agent = LLM(大脑) + Planning(规划) +Tool use (执行)+ Memory(记忆)

LLM :作为核心推理机，负责理解意图、生成文本和逻辑判断
Planning：将复杂的目标拆解为可执行的步骤
Memory：记录对话历史（短期）和存储专业知识库（长期）
Tool Use：能够根据需求去查谷歌、读取数据库、甚至跑代码

在学习Agent时，需要将思维转变为从对话框问答进化为目标驱动的任务执行

在学习AI Agent的过程中，我们会感受到，它像一个有自主性的员工，能够

理解任务目标：能够理解我们想要的结果是什么
制定计划：可以思考如何达成目标
使用工具：调用各种资源及API
自我调整：根据反馈优化策略
持续执行：直到完成任务或者遇到无法解决的问题

AI Agent组成

组成：

目标
逻辑
工具

运行方式：

接受用户输入
判断当前任务
调用对应工具
返回结果
保留必要的上下文
支持多轮连续操作
遇阻时调整执行步骤

什么是AI Agent

**Agent = LLM(大脑) + Planning(规划) +Tool use (执行)+ Memory(记忆) **

LLM :作为核心推理机，负责理解意图、生成文本和逻辑判断
Planning：将复杂的目标拆解为可执行的步骤
Memory：记录对话历史（短期）和存储专业知识库（长期）
Tool Use：能够根据需求去查谷歌、读取数据库、甚至跑代码

在学习Agent时，需要将思维转变为从对话框问答进化为目标驱动的任务执行

在学习AI Agent的过程中，我们会感受到，它像一个有自主性的员工，能够

理解任务目标：能够理解我们想要的结果是什么
制定计划：可以思考如何达成目标
使用工具：调用各种资源及API
自我调整：根据反馈优化策略
持续执行：直到完成任务或者遇到无法解决的问题

AI Agent组成

组成：

目标
逻辑
工具

运行方式：

接受用户输入
判断当前任务
调用对应工具
返回结果
保留必要的上下文
支持多轮连续操作
遇阻时调整执行步骤

![image-20260225151634077](/Users/liyaru/Library/Application Support/typora-user-images/image-20260225151634077.png)

我们在与Agent对话时，会发现，现有的大模型会有上下文限制、幻觉、安全等问题，并且目前暂时没有办法解决，只能不断的去优化，调整来解决。

AI Agent 与普通大模型的区别：

普通大模型：生成文本

Agent：生成行动并执行行动，完成实际工作

接下来我们使用表格的方式进行展示：

维度	传统AI模型	AI Agent
交互方式	单次输入输出	输入输出、可持续交互
决策能力	基于输入直接推理	规划、反思、迭代优化
工具使用	无法主动调用外部工具	可调用搜索、计算器、API等
记忆机制	仅限当前对话上下文	短期+长期记忆
目标导向	完成单一预测任务	完成复杂目标
错误处理	输出及结束	可自我纠错、重试

核心模式：从prompt 到 Reasoning Loop

ReAct模式（Reason Act）目前最主流的Agent推理逻辑：

Thought：模型描述当前要做什么，为什么要这么做
Action：模型选择一个工具
Observation：模型读取工具返回的结果
Repeat：重复上述步骤，最终得到答案

AI Agent主要类型与应用场景

类型	特点	应用场景举例
单一任务Agent	专注完成一件特定的事情，功能专一	智能客服机器人、自动数据录入助手、旅游攻略助手等
多模态Agent	能够理解和处理文本、图像、语言等多种信息	根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要等
自主Agent	拥有较高的自主性、可长期运行并主动管理复杂目标	自动驾驶汽车、自动化股票交易系统、智能游戏NPC（非玩家角色）
模拟Agent	在虚拟环境中进行模拟、测试和训练	训练机器人完成抓取任务、模拟城市交通流量优化、新药研发分子模拟

例如最简单的我在coze中生成的简单的[旅游攻略小帮手][https://www.coze.cn/store/agent/7606142653194928168?bot_id=true]（单Agent模式），通过调用墨迹天气、高德地图提供的API，可以根据客户需求，生成对应的可执行的旅游计划表，具备条件时，可以继续执行操作。

大语言模型基础（LLM）

大语言模型（large language Model）是AI Agent的大脑，理解它是构建智能体Agent的基础。它本质上是基于统计的模式匹配系统，理解它的局限性，才能更好地利用它的能力

LLM之所以能和我们对话、写文章、编程，本质是它在根据你给出的文本（提示词），一个一个猜出最合理的下文。简单来说，LLM时一个经过海量数据训练的深度学习模型，能够理解和生成人类语言。

我们可以把它想象成一个学习极其用功、记忆力超群的学生：

学习阶段（训练）
应用阶段（推理）

LLM中的large主要体现在：参数规模大、训练数据大。

局限性：

能力	说明	局限性
知识截止	训练数据有截止日期	无法知道训练后的新信息
数学计算	能做简单计算	复杂计算容易出错
实时信息	需要外部工具辅助	本身无法获取实时数据
事实准确性	可能生成错误信息	需要事实核查
长文本处理	上下文长度有限制	超长文本会丢失信息
逻辑一致性	可能前后矛盾	需要仔细设计和验证

我们在与Agent对话时，会发现，现有的大模型会有上下文限制、幻觉、安全等问题，并且目前暂时没有办法解决，只能不断的去优化，调整来解决。

AI Agent 与普通大模型的区别：

普通大模型：生成文本

Agent：生成行动并执行行动，完成实际工作

接下来我们使用表格的方式进行展示：

维度	传统AI模型	AI Agent
交互方式	单次输入输出	输入输出、可持续交互
决策能力	基于输入直接推理	规划、反思、迭代优化
工具使用	无法主动调用外部工具	可调用搜索、计算器、API等
记忆机制	仅限当前对话上下文	短期+长期记忆
目标导向	完成单一预测任务	完成复杂目标
错误处理	输出及结束	可自我纠错、重试

核心模式：从prompt 到 Reasoning Loop

ReAct模式（Reason Act) 目前最主流的Agent推理逻辑：

Thought：模型描述当前要做什么，为什么要这么做
Action：模型选择一个工具
Observation：模型读取工具返回的结果
Repeat：重复上述步骤，最终得到答案

AI Agent主要类型与应用场景

类型	特点	应用场景举例
单一任务Agent	专注完成一件特定的事情，功能专一	智能客服机器人、自动数据录入助手、旅游攻略助手等
多模态Agent	能够理解和处理文本、图像、语言等多种信息	根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要等
自主Agent	拥有较高的自主性、可长期运行并主动管理复杂目标	自动驾驶汽车、自动化股票交易系统、智能游戏NPC（非玩家角色）
模拟Agent	在虚拟环境中进行模拟、测试和训练	训练机器人完成抓取任务、模拟城市交通流量优化、新药研发分子模拟

大语言模型基础（LLM）

我们可以把它想象成一个学习极其用功、记忆力超群的学生：

学习阶段（训练）
应用阶段（推理）

LLM中的large主要体现在：参数规模大、训练数据大。

局限性：

能力	说明	局限性
知识截止	训练数据有截止日期	无法知道训练后的新信息
数学计算	能做简单计算	复杂计算容易出错
实时信息	需要外部工具辅助	本身无法获取实时数据
事实准确性	可能生成错误信息	需要事实核查
长文本处理	上下文长度有限制	超长文本会丢失信息
逻辑一致性	可能前后矛盾	需要仔细设计和验证

posted @ 2026-02-25 21:23 前端加油站阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

前端加油站⛽️

AI Agent基础一

什么是AI Agent

AI Agent组成

什么是AI Agent

AI Agent组成

AI Agent主要类型与应用场景

大语言模型基础（LLM）

AI Agent主要类型与应用场景

大语言模型基础（LLM）