豆包AI —— 为什么不把离散的状态空间属性用one-shot方式编码而是直接归一化为0到1范围的属性值

相关:

dogfight问题中(UAV 无人机空战——狗斗)—— 状态空间设计




对雷达状态、武器状态这种有序、有语义的离散量,不做 One-Hot,而是直接归一化成 0~1,是为了强化学习更好训练、更稳定、更省参数量。




image


image


image


image




image







posted on 2026-06-27 16:43  Angry_Panda  阅读(4)  评论(0)    收藏  举报

导航