摘要:
推荐阅读Why is there a Deadly Triad issue and how to handle it ? Bootstrapping Off-policy learning Function approximations 当上述三者结合在一起时,value function 可能表示 阅读全文
摘要:
前言 这次汇报的有四位老师,其中我比较感兴趣的是上海交通大学张伟楠老师、北京大学梁一韬老师和清华大学高宸老师的报告,其中张老师之前已经记录过,本文主要作为对梁一韬老师的分享的记录与思考。 CRAFT JARVIS: Towards Generalist Agents in an Open World 阅读全文