豆包AI —— 为什么不把离散的状态空间属性用one-shot方式编码而是直接归一化为0到1范围的属性值
相关:
dogfight问题中(UAV 无人机空战——狗斗)—— 状态空间设计
对雷达状态、武器状态这种有序、有语义的离散量,不做 One-Hot,而是直接归一化成 0~1,是为了强化学习更好训练、更稳定、更省参数量。





本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注处,如有侵权请与博主联系。
如果未特殊标注则为原创,遵循 CC 4.0 BY-SA 版权协议。
posted on 2026-06-27 16:43 Angry_Panda 阅读(4) 评论(0) 收藏 举报
浙公网安备 33010602011771号