摘要: 目录LlamaFactory PPO 训练:拥抱自定义奖励函数,告别LLM-as-a-Judge实战演练 LlamaFactory PPO 训练:拥抱自定义奖励函数,告别LLM-as-a-Judge 在利用 LlamaFactory 进行近端策略优化(PPO)训练时,您完全可以摆脱对大型语言模型(L 阅读全文
posted @ 2025-06-24 09:59 jack-chen666 阅读(627) 评论(1) 推荐(0)
摘要: 关于 vLLM "--chat-template" 参数的非常常见且重要的问题。简单来说,这个参数决定了 vLLM 如何将多轮对话(系统、用户、助手消息)格式化成一个单一的字符串,以便模型能够正确理解。 首选:不设置,让 vLLM 自动加载。 对于大多数发布在 Hugging Face Hub 上的 阅读全文
posted @ 2025-06-24 09:44 jack-chen666 阅读(918) 评论(0) 推荐(0)