AI Agent基础一

什么是AI Agent

Agent = LLM(大脑) + Planning(规划) +Tool use (执行)+ Memory(记忆)

  • LLM :作为核心推理机,负责理解意图、生成文本和逻辑判断
  • Planning:将复杂的目标拆解为可执行的步骤
  • Memory:记录对话历史(短期)和存储专业知识库(长期)
  • Tool Use:能够根据需求去查谷歌、读取数据库、甚至跑代码

在学习Agent时,需要将思维转变为从对话框问答进化为目标驱动的任务执行

在学习AI Agent的过程中,我们会感受到,它像一个有自主性的员工,能够

  • 理解任务目标:能够理解我们想要的结果是什么
  • 制定计划:可以思考如何达成目标
  • 使用工具:调用各种资源及API
  • 自我调整:根据反馈优化策略
  • 持续执行:直到完成任务或者遇到无法解决的问题

AI Agent组成

组成:

  • 目标
  • 逻辑
  • 工具

运行方式:

  • 接受用户输入
  • 判断当前任务
  • 调用对应工具
  • 返回结果
  • 保留必要的上下文
  • 支持多轮连续操作
  • 遇阻时调整执行步骤

什么是AI Agent

**Agent = LLM(大脑) + Planning(规划) +Tool use (执行)+ Memory(记忆) **

  • LLM :作为核心推理机,负责理解意图、生成文本和逻辑判断
  • Planning:将复杂的目标拆解为可执行的步骤
  • Memory:记录对话历史(短期)和存储专业知识库(长期)
  • Tool Use:能够根据需求去查谷歌、读取数据库、甚至跑代码

在学习Agent时,需要将思维转变为从对话框问答进化为目标驱动的任务执行

在学习AI Agent的过程中,我们会感受到,它像一个有自主性的员工,能够

  • 理解任务目标:能够理解我们想要的结果是什么
  • 制定计划:可以思考如何达成目标
  • 使用工具:调用各种资源及API
  • 自我调整:根据反馈优化策略
  • 持续执行:直到完成任务或者遇到无法解决的问题

AI Agent组成

组成:

  • 目标
  • 逻辑
  • 工具

运行方式:

  • 接受用户输入
  • 判断当前任务
  • 调用对应工具
  • 返回结果
  • 保留必要的上下文
  • 支持多轮连续操作
  • 遇阻时调整执行步骤

![image-20260225151634077](/Users/liyaru/Library/Application Support/typora-user-images/image-20260225151634077.png)

我们在与Agent对话时,会发现,现有的大模型会有上下文限制、幻觉、安全等问题,并且目前暂时没有办法解决,只能不断的去优化,调整来解决。

AI Agent 与 普通大模型的区别:

普通大模型:生成文本

Agent:生成行动并执行行动,完成实际工作

接下来我们使用表格的方式进行展示:

维度 传统AI模型 AI Agent
交互方式 单次输入输出 输入输出、可持续交互
决策能力 基于输入直接推理 规划、反思、迭代优化
工具使用 无法主动调用外部工具 可调用搜索、计算器、API等
记忆机制 仅限当前对话上下文 短期+长期记忆
目标导向 完成单一预测任务 完成复杂目标
错误处理 输出及结束 可自我纠错、重试

核心模式:从prompt 到 Reasoning Loop

ReAct模式(Reason Act)目前最主流的Agent推理逻辑:

  1. Thought:模型描述当前要做什么,为什么要这么做
  2. Action:模型选择一个工具
  3. Observation:模型读取工具返回的结果
  4. Repeat:重复上述步骤,最终得到答案

AI Agent主要类型与应用场景

类型 特点 应用场景举例
单一任务Agent 专注完成一件特定的事情,功能专一 智能客服机器人、自动数据录入助手、旅游攻略助手等
多模态Agent 能够理解和处理文本、图像、语言等多种信息 根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要等
自主Agent 拥有较高的自主性、可长期运行并主动管理复杂目标 自动驾驶汽车、自动化股票交易系统、智能游戏NPC(非玩家角色)
模拟Agent 在虚拟环境中进行模拟、测试和训练 训练机器人完成抓取任务、模拟城市交通流量优化、新药研发分子模拟

例如最简单的我在coze中生成的简单的[旅游攻略小帮手][https://www.coze.cn/store/agent/7606142653194928168?bot_id=true](单Agent模式),通过调用墨迹天气、高德地图提供的API,可以根据客户需求,生成对应的可执行的旅游计划表,具备条件时,可以继续执行操作。

大语言模型基础(LLM)

大语言模型(large language Model)是AI Agent的大脑,理解它是构建智能体Agent的基础。它本质上是基于统计的模式匹配系统,理解它的局限性,才能更好地利用它的能力

LLM之所以能和我们对话、写文章、编程,本质是它在根据你给出的文本(提示词),一个一个猜出最合理的下文。简单来说,LLM时一个经过海量数据训练的深度学习模型,能够理解和生成人类语言。

我们可以把它想象成一个学习极其用功、记忆力超群的学生:

  • 学习阶段(训练)
  • 应用阶段(推理)

LLM中的large主要体现在:参数规模大、训练数据大。

局限性:

能力 说明 局限性
知识截止 训练数据有截止日期 无法知道训练后的新信息
数学计算 能做简单计算 复杂计算容易出错
实时信息 需要外部工具辅助 本身无法获取实时数据
事实准确性 可能生成错误信息 需要事实核查
长文本处理 上下文长度有限制 超长文本会丢失信息
逻辑一致性 可能前后矛盾 需要仔细设计和验证

image-20260225151634077

我们在与Agent对话时,会发现,现有的大模型会有上下文限制、幻觉、安全等问题,并且目前暂时没有办法解决,只能不断的去优化,调整来解决。

AI Agent 与 普通大模型的区别:

普通大模型:生成文本

Agent:生成行动并执行行动,完成实际工作

接下来我们使用表格的方式进行展示:

维度 传统AI模型 AI Agent
交互方式 单次输入输出 输入输出、可持续交互
决策能力 基于输入直接推理 规划、反思、迭代优化
工具使用 无法主动调用外部工具 可调用搜索、计算器、API等
记忆机制 仅限当前对话上下文 短期+长期记忆
目标导向 完成单一预测任务 完成复杂目标
错误处理 输出及结束 可自我纠错、重试

核心模式:从prompt 到 Reasoning Loop

ReAct模式(Reason Act) 目前最主流的Agent推理逻辑:

  1. Thought:模型描述当前要做什么,为什么要这么做
  2. Action:模型选择一个工具
  3. Observation:模型读取工具返回的结果
  4. Repeat:重复上述步骤,最终得到答案

AI Agent主要类型与应用场景

类型 特点 应用场景举例
单一任务Agent 专注完成一件特定的事情,功能专一 智能客服机器人、自动数据录入助手、旅游攻略助手等
多模态Agent 能够理解和处理文本、图像、语言等多种信息 根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要等
自主Agent 拥有较高的自主性、可长期运行并主动管理复杂目标 自动驾驶汽车、自动化股票交易系统、智能游戏NPC(非玩家角色)
模拟Agent 在虚拟环境中进行模拟、测试和训练 训练机器人完成抓取任务、模拟城市交通流量优化、新药研发分子模拟

例如最简单的我在coze中生成的简单的[旅游攻略小帮手][https://www.coze.cn/store/agent/7606142653194928168?bot_id=true](单Agent模式),通过调用墨迹天气、高德地图提供的API,可以根据客户需求,生成对应的可执行的旅游计划表,具备条件时,可以继续执行操作。

大语言模型基础(LLM)

大语言模型(large language Model)是AI Agent的大脑,理解它是构建智能体Agent的基础。它本质上是基于统计的模式匹配系统,理解它的局限性,才能更好地利用它的能力

LLM之所以能和我们对话、写文章、编程,本质是它在根据你给出的文本(提示词),一个一个猜出最合理的下文。简单来说,LLM时一个经过海量数据训练的深度学习模型,能够理解和生成人类语言。

我们可以把它想象成一个学习极其用功、记忆力超群的学生:

  • 学习阶段(训练)
  • 应用阶段(推理)

LLM中的large主要体现在:参数规模大、训练数据大。

局限性:

能力 说明 局限性
知识截止 训练数据有截止日期 无法知道训练后的新信息
数学计算 能做简单计算 复杂计算容易出错
实时信息 需要外部工具辅助 本身无法获取实时数据
事实准确性 可能生成错误信息 需要事实核查
长文本处理 上下文长度有限制 超长文本会丢失信息
逻辑一致性 可能前后矛盾 需要仔细设计和验证
posted @ 2026-02-25 21:23  前端加油站  阅读(6)  评论(0)    收藏  举报