摘要: 最近读了一些在多轮(multi-turn)任务上用 RL 微调 LLM 的文章,记录阅读笔记。 阅读全文
posted @ 2026-01-03 16:54 MoonOut 阅读(37) 评论(0) 推荐(0)