摘要: 本文介绍蒙特卡洛方法。当概率模型不是已知的时候,可以用采样代替建模,这就是蒙特卡洛方法。为了提高效率,可以在分配策略时采用epsilon-greedy的方法。最后我们介绍随机近似,引入RM算法和随机梯度下降,作为之后的强化学习算法的数学基础。 阅读全文
posted @ 2025-08-05 06:20 行而上 阅读(92) 评论(0) 推荐(0)