摘要:        
在这一章中,我们将正式介绍有限马尔可夫决策过程(有限MDP),这也是本书后面要试图解决的问题。这个问题既涉及"评估反馈"(如前面介绍的赌博机问题),又涉及"发散联想",即在不同情境下选择不同的动作。MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响后续的情况(又称状态)以及未来的    阅读全文
        
            posted @ 2021-02-01 21:22
穷酸秀才大草包
阅读(296)
评论(0)
推荐(0)
        
     
                    
                
 
 浙公网安备 33010602011771号
浙公网安备 33010602011771号