摘要: 1. TD learning of state values 公式1是用来根据\(s_t\)的state value来更新t+1的状态。 公式2是没有被访问的状态,下一刻的state value等于上一刻的。 1.1两个概念:TD target ,TD error TD target: TD err 阅读全文
posted @ 2025-03-19 11:46 penuel 阅读(31) 评论(0) 推荐(0)