2025 年 6月 24 日随笔档案 - jack-chen666

2025年6月24日

大模型-llamafactory ppo训练模型，不使用llm作为reward模型 -73

摘要：目录LlamaFactory PPO 训练：拥抱自定义奖励函数，告别LLM-as-a-Judge实战演练 LlamaFactory PPO 训练：拥抱自定义奖励函数，告别LLM-as-a-Judge 在利用 LlamaFactory 进行近端策略优化（PPO）训练时，您完全可以摆脱对大型语言模型（L 阅读全文

posted @ 2025-06-24 09:59 jack-chen666 阅读(807) 评论(1) 推荐(0)

大模型-vllm 启动参数 --chat-template -72

摘要：关于 vLLM "--chat-template" 参数的非常常见且重要的问题。简单来说，这个参数决定了 vLLM 如何将多轮对话（系统、用户、助手消息）格式化成一个单一的字符串，以便模型能够正确理解。首选：不设置，让 vLLM 自动加载。对于大多数发布在 Hugging Face Hub 上的阅读全文

posted @ 2025-06-24 09:44 jack-chen666 阅读(1248) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情