随笔档案「2025年10月7日」：1.2 马尔可夫决策过程（Markov Decision Pr... - 55open

2025年10月7日

1.2 马尔可夫决策过程（Markov Decision Process, MDP）

摘要：定义强化学习（Reinforcement Learning, RL）方法适用于智能体（agent）以离散时间步与环境交互的问题。在时间 \(t\)，智能体处于状态 \(s_t\)，并决定执行一个动作 \(a_t\)。在下一时刻，它进入新的状态 \(s_{t+1}\)，并获得奖励 \(r_{t+1 阅读全文

posted @ 2025-10-07 20:17 55open 阅读(88) 评论(0) 推荐(0)

1.1 采样问题 Sampling and Bandits

摘要： n臂bandits（n-armed bandits） n臂bandits（multi-armed bandit）是最简单的试错式学习形式。学习与动作选择都发生在同一个状态中，在该状态下有 \(n\) 个可用动作，每个动作对应不同的奖励分布。目标是通过试错的方式找出哪个动作在平均意义上能获得最多的奖励阅读全文

posted @ 2025-10-07 20:10 55open 阅读(45) 评论(0) 推荐(0)

Hello World!

公告