摘要: 强化学习中策略优化的核心目标函数之一,写作: \[\mathbb{E}_{\tau \sim P_\theta(\tau)}[R(\tau)] = \sum_{\tau} R(\tau) P_\theta(\tau) \]含义逐个解释: \(\tau\):表示一个完整的轨迹(trajectory), 阅读全文
posted @ 2025-04-20 15:12 不报异常的空指针 阅读(333) 评论(0) 推荐(0)