会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大浪淘沙、
不积跬步无以至千里,不积小流无以成江海,骐骥一跃不能十步,驽马十驾功在不舍。
博客园
首页
新随笔
联系
订阅
管理
2020年5月14日
李宏毅的强化学习视频用于梳理翻阅(1)策略
摘要: 本文主要是整理策略迭代的部分,重在阐明原理。李宏毅的视频,见网上。 最终说明OpenAI的默认强化学习算法PPO的部分。(Proximal Policy Optimization) 蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的容易理解和表达,策略迭代更需要耐心、细心、思考。 优化目标 策略
阅读全文
posted @ 2020-05-14 13:38 大浪淘沙、
阅读(616)
评论(0)
推荐(0)
公告