摘要: 19:35 2025.01.25 目的:阐述 DQN 算法原理 Q-learning 算法 bellman 方程 我们想解决一个马尔可夫过程的最优决策问题。 在这个问题中,状态序列是可以无限长的,因此我们定义一个状态序列的价值 \(V\) 为: \[V([s_0, a_0, s_1, ...])=\ 阅读全文
posted @ 2025-12-05 19:29 哼唧昂叽 阅读(7) 评论(0) 推荐(0)