颜子洛 - 博客园

2025年8月

摘要：不要构建多智能体大语言模型（LLM）智能体的框架一直令人意外地失望。我想根据我们自己的试错经验，提供一些构建智能体的原则，并解释为什么一些诱人的想法在实践中实际上相当糟糕。上下文工程原理我们将逐步遵循以下原则：共享上下文行动蕴含着隐含的决策为什么要思考原则？ HTML于1993年问世。2 阅读全文

posted @ 2025-08-02 16:37 颜子洛阅读(35) 评论(0) 推荐(0)

2025年5月

从0学习PPO算法

摘要：从0学习PPO算法预备知识首先我们先来准备一些基础知识，了解一些基础术语这幅图有五个词，接下来我们一一介绍 Environment:环境。 Agent:智能体 State:状态 Action:动作 Reward:奖励在大模型实际运行中，agent就是大模型本身，而environment就是除阅读全文

posted @ 2025-05-04 01:28 颜子洛阅读(211) 评论(0) 推荐(0)

公告