随笔档案「2024年6月13日」：马尔科夫决策过程MDP——Agent的强化学习逻辑 ... - 郝hai

2024年6月13日

摘要：马尔可夫决策过程最初是在 20 世纪 50 年代由 Richard Bellman 描述的。它们类似于马尔可夫链，但有一个连结：在状态转移的每一步中，一个智能体可以选择几种可能的动作中的一个，并且转移概率取决于所选择的动作。此外，一些状态转移返回一些奖励（正或负），智能体的目标是找到一个策略，随着时阅读全文

posted @ 2024-06-13 11:58 郝hai 阅读(2479) 评论(0) 推荐(0)

haohai9309

格物致知，知行合一！

公告