摘要: 不要构建多智能体 大语言模型(LLM)智能体的框架一直令人意外地失望。我想根据我们自己的试错经验,提供一些构建智能体的原则,并解释为什么一些诱人的想法在实践中实际上相当糟糕。 上下文工程原理 我们将逐步遵循以下原则: 共享上下文 行动蕴含着隐含的决策 为什么要思考原则? HTML于1993年问世。2 阅读全文
posted @ 2025-08-02 16:37 颜子洛 阅读(27) 评论(0) 推荐(0)
摘要: 从0学习PPO算法 预备知识 首先我们先来准备一些基础知识,了解一些基础术语 这幅图有五个词,接下来我们一一介绍 Environment:环境。 Agent:智能体 State:状态 Action:动作 Reward:奖励 在大模型实际运行中,agent就是大模型本身,而environment就是除 阅读全文
posted @ 2025-05-04 01:28 颜子洛 阅读(171) 评论(0) 推荐(0)