组会记录——强化学习 - 番茄炒蛋花花花汤 - 博客园

公告

组会记录——强化学习

※ 对数似然函数与一般似然函数的区别？

1、方便求导；

2、减少计算量；

3、不影响单调性。

※ 离散变量如何求导？指示函数如何求导？

※ 强化学习需要状态都是离散量吗？

状态空间S和动作空间A都必须使有限的？现在强化学习已经有处理连续变量的technique？

首先是由于功率控制是MDP问题，所以可以用强化学习。

※ Meta-learning

Support set 和 Query set

posted on 2022-07-13 22:59 番茄炒蛋花花花汤阅读(26) 评论(0) 收藏举报

刷新页面返回顶部