摘要: 为 state space 训练一个紧凑的 embedding space,使得 embedding 间的距离与 temporal distance 相匹配,然后让 policy 尽可能覆盖 embedding space。 阅读全文
posted @ 2025-07-18 23:32 MoonOut 阅读(212) 评论(0) 推荐(0)