会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
fengjianming
博客园
首页
新随笔
联系
订阅
管理
2025年12月5日
南京大学 AI 导论 Cart-Pole V1 游戏(强化学习)
摘要: 19:35 2025.01.25 目的:阐述 DQN 算法原理 Q-learning 算法 bellman 方程 我们想解决一个马尔可夫过程的最优决策问题。 在这个问题中,状态序列是可以无限长的,因此我们定义一个状态序列的价值 \(V\) 为: \[V([s_0, a_0, s_1, ...])=\
阅读全文
posted @ 2025-12-05 19:29 哼唧昂叽
阅读(7)
评论(0)
推荐(0)
公告