摘要: SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够 阅读全文
posted @ 2025-03-28 09:48 deephub 阅读(55) 评论(0) 推荐(0)