2025 年 10月 31 日随笔档案 - MoonOut

摘要： ① 用对比学习把参考轨迹的 embedding 尽可能拉远，② 使用 DIAYN reward 同时做模仿学习和 skill discovery。阅读全文

posted @ 2025-10-31 00:50 MoonOut 阅读(84) 评论(0) 推荐(1)

月出兮彩云归 🌙