摘要:
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Published as a conference paper at ICLR 2020 ABSTRACT 在未知环境中权衡探索和开发是在学习过程中实现期望回报最大化的关键。贝叶斯最优策略不仅以环境状态为条件,而且以智能体对环境的不确定性 阅读全文
posted @ 2023-09-18 11:01
穷酸秀才大草包
阅读(234)
评论(0)
推荐(0)

浙公网安备 33010602011771号