2025 年 3月 19 日随笔档案 - penuel

2025年3月19日

摘要： 1. TD learning of state values 公式1是用来根据\(s_t\)的state value来更新t+1的状态。公式2是没有被访问的状态，下一刻的state value等于上一刻的。 1.1两个概念：TD target ，TD error TD target: TD err 阅读全文

posted @ 2025-03-19 11:46 penuel 阅读(31) 评论(0) 推荐(0)

penuel

公告