会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
芋圆院长
博客园
首页
新随笔
联系
订阅
管理
2021年5月22日
蒙特卡罗方法(Monte Carlo, MC)
摘要: 前言 在不了解环境动态特性或已知动态特性有时求解不同状态的概率也很困难的情况下使用MC方法更加合理。 蒙特卡罗算法通过平均样本的回报来解决强化学习问题。它主要利用的是经验,从真实的环境交互或环境交互的仿真中得到一个采样队列(状态、动作和奖励)【这决定了该方法主要针对分幕式任务,即任务在有限步内完成。
阅读全文
posted @ 2021-05-22 17:31 芋圆院长
阅读(526)
评论(0)
推荐(0)
公告