随笔档案「2025年10月11日」：强化学习动作空间(离散/连续) ... - wangssd

2025年10月11日

摘要： 1. 离散动作空间的策略网络在离散空间中，动作是可数的，例如：{左，右，上，下} 或 {加速，刹车}。网络架构与处理方式输出层：Softmax 策略网络的最后一层是一个 Softmax 层。假设有 N 个可选动作，网络会输出一个长度为 N 的向量。 Softmax 函数确保这个向量的阅读全文

posted @ 2025-10-11 13:42 wangssd 阅读(164) 评论(0) 推荐(0)

wangssd

公告