[第16集] 马尔可夫决策过程/增强学习

,前面的符号是数学上的映射

 

posted @ 2018-07-14 13:43  dgi  阅读(78)  评论(0)    收藏  举报