2025 年 9月 1 日随笔档案 - 亦可九天揽月

2025年9月1日

摘要： ok，从O开始，也就是策略开始，先了解策略优化的为什么，最基础的方法是什么，之后在进一步的深入下去通俗讲：方法是优化做法，然后得到更好的结果很好的逻辑，总不能我需要好的结果，然后不去动做法，这是不现实的基本要素是状态s 、动作a 、奖励r 之后会有自定义 \(G_t\) 奖励函数，之后有阅读全文

posted @ 2025-09-01 22:07 亦可九天揽月阅读(17) 评论(0) 推荐(0)

sunmk

公告