摘要:
强化学习的故事 强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。 有限马尔卡夫决策过程 马尔卡夫决策过程理论定义了一个数学模型,可用于随机动 阅读全文
posted @ 2018-07-23 19:56
Zach_Yao
阅读(313)
评论(0)
推荐(0)

浙公网安备 33010602011771号