会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
haohai9309
格物致知,知行合一!
博客园
首页
新随笔
联系
订阅
管理
2024年6月13日
马尔科夫决策过程MDP——Agent的强化学习逻辑
摘要: 马尔可夫决策过程最初是在 20 世纪 50 年代由 Richard Bellman 描述的。它们类似于马尔可夫链,但有一个连结:在状态转移的每一步中,一个智能体可以选择几种可能的动作中的一个,并且转移概率取决于所选择的动作。此外,一些状态转移返回一些奖励(正或负),智能体的目标是找到一个策略,随着时
阅读全文
posted @ 2024-06-13 11:58 郝hai
阅读(2123)
评论(0)
推荐(0)
公告