随笔档案「2025年8月5日」：强化学习02 蒙特卡洛方法 ... - 行而上

摘要：本文介绍蒙特卡洛方法。当概率模型不是已知的时候，可以用采样代替建模，这就是蒙特卡洛方法。为了提高效率，可以在分配策略时采用epsilon-greedy的方法。最后我们介绍随机近似，引入RM算法和随机梯度下降，作为之后的强化学习算法的数学基础。阅读全文

posted @ 2025-08-05 06:20 行而上阅读(123) 评论(0) 推荐(0)

行而上