会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wangssd
博客园
首页
新随笔
联系
订阅
管理
2025年10月11日
强化学习 动作空间(离散/连续)
摘要: 1. 离散动作空间的策略网络 在离散空间中,动作是可数的,例如:{左, 右, 上, 下} 或 {加速, 刹车}。 网络架构与处理方式 输出层:Softmax 策略网络的最后一层是一个 Softmax 层。 假设有 N 个可选动作,网络会输出一个长度为 N 的向量。 Softmax 函数确保这个向量的
阅读全文
posted @ 2025-10-11 13:42 wangssd
阅读(18)
评论(0)
推荐(0)
公告