会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
行而上
To The Things Themselves
博客园
首页
新随笔
管理
2025年8月5日
强化学习02 蒙特卡洛方法
摘要: 本文介绍蒙特卡洛方法。当概率模型不是已知的时候,可以用采样代替建模,这就是蒙特卡洛方法。为了提高效率,可以在分配策略时采用epsilon-greedy的方法。最后我们介绍随机近似,引入RM算法和随机梯度下降,作为之后的强化学习算法的数学基础。
阅读全文
posted @ 2025-08-05 06:20 行而上
阅读(92)
评论(0)
推荐(0)