摘要:
本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton 有限MDP 有限MDP在RL中一般就是指如下图的交互式学习框架。(为了方便起见,把它当成离散化的过程) 其“有限”的特点表现在:state、reward、action三者只 阅读全文
posted @ 2024-02-26 16:07
llllllgllllll
阅读(32)
评论(0)
推荐(0)
浙公网安备 33010602011771号