2025 年 2月 12 日随笔档案 - deephub

2025年2月12日

摘要：近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法，在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中，PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。 PPO属于在线策略梯阅读全文

posted @ 2025-02-12 15:17 deephub 阅读(151) 评论(0) 推荐(0)

deephub

overfit深度学习

公告