2025 年 12月 5 日随笔档案 - 哼唧昂叽

2025年12月5日

摘要： 19:35 2025.01.25 目的：阐述 DQN 算法原理 Q-learning 算法 bellman 方程我们想解决一个马尔可夫过程的最优决策问题。在这个问题中，状态序列是可以无限长的，因此我们定义一个状态序列的价值 \(V\) 为： \[V([s_0, a_0, s_1, ...])=\ 阅读全文

posted @ 2025-12-05 19:29 哼唧昂叽阅读(7) 评论(0) 推荐(0)

fengjianming

公告