总结一下强化学习中的面试问题

1、PPO算法运用了clip函数限制取值范围，为什么还要加上min呢？

2、AC架构与PPO之间的区别？

3、什么是装饰器？

4、lamada函数？

5、什么是model-based与model-free？

6、python中map函数的用法？

7、准确率、精确率、召回率、F1score的意义？

8、PPO的上一个策略收集到的经验可以用多少次？

posted @ 2023-08-24 20:27 Halo辉Go 阅读(342) 评论(0) 收藏举报

刷新页面返回顶部