摘要: Dictum: Is the true wisdom fortitude ambition. -- Napoleon 马尔可夫决策过程(Markov Decision Processes, MDPs)是一种对序列决策问题的解决工具,在这种问题中,决策者以序列方式与环境交互。 “智能体-环境”交互的过 阅读全文
posted @ 2020-04-12 23:13 Hugh_Cai 阅读(512) 评论(0) 推荐(1) 编辑