摘要: **发表时间:**2018 **文章要点:**这篇文章提出A0C算法,把AlphaZero做到连续动作空间上,主要使用的方式是progressive widening和continuous prior(就是continuous policy network)。具体的,progressive wide 阅读全文
posted @ 2022-05-23 23:05 initial_h 阅读(229) 评论(0) 推荐(0) 编辑