摘要: 1. 离散动作空间的策略网络 在离散空间中,动作是可数的,例如:{左, 右, 上, 下} 或 {加速, 刹车}。 网络架构与处理方式 输出层:Softmax 策略网络的最后一层是一个 Softmax 层。 假设有 N 个可选动作,网络会输出一个长度为 N 的向量。 Softmax 函数确保这个向量的 阅读全文
posted @ 2025-10-11 13:42 wangssd 阅读(18) 评论(0) 推荐(0)