总结一下强化学习中的面试问题

1、PPO算法运用了clip函数限制取值范围,为什么还要加上min呢?

2、AC架构与PPO之间的区别?

3、什么是装饰器?

4、lamada函数?

5、什么是model-based与model-free?

6、python中map函数的用法?

7、准确率、精确率、召回率、F1score的意义?

8、PPO的上一个策略收集到的经验可以用多少次?

posted @ 2023-08-24 20:28  Halo辉Go  阅读(74)  评论(0编辑  收藏  举报