Zach_Yao

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 :: 管理 ::

2018年7月23日

摘要: 强化学习的故事 强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。 有限马尔卡夫决策过程 马尔卡夫决策过程理论定义了一个数学模型,可用于随机动 阅读全文
posted @ 2018-07-23 19:56 Zach_Yao 阅读(313) 评论(0) 推荐(0)