如何理解强化学习中policy iteration的算法里面参数 j, Π?

见下图:

这两个上下标分别有何区别?

简单的说,就是一个是外循环,一个是内循环。

 

 

 

posted @ 2025-04-13 12:03  AlphaGeek  阅读(1)  评论(0)    收藏  举报
编辑推荐:
· 一则复杂 SQL 改写后有感
· golang中写个字符串遍历谁不会?且看我如何提升 50 倍
· C# 代码如何影响 CPU 缓存速度?
· 智能桌面机器人:使用 .NET 为树莓派开发 Wifi 配网功能
· C# 模式匹配全解:原理、用法与易错点
阅读排行:
· 《程序员的底层思维》读后感
· 曾经风光无限的 Oracle DBA 已经落伍了吗?
· 一则复杂 SQL 改写后有感
· C# 锁机制全景与高效实践:从 Monitor 到 .NET 9 全新 Lock
· 接口被刷百万QPS,怎么防?
点击右上角即可分享
微信分享提示