2020年12月28日

摘要: 摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract Q学习是一种技术,用于基于对使用非最优策略控制的系统的观察来计算受控马尔可夫链的最优策略。事实证明,它对于具有有限状态和动作空间的模型有效。本文建立了具有通用状态空间和通用动作空间的连续时间模型的Q学习与非线性控制 阅读全文
posted @ 2020-12-28 17:39 穷酸秀才大草包 阅读(622) 评论(0) 推荐(0)

导航