摘要: 前一阵子 qwen3 模型出来了,正好公司新的 GPU 资源也申请下来,就基于新的基座模型重新训练一下,实现性能飞跃嘿嘿。 1. 路径依赖篇 由于上一版的模型是基于 Qwen2.5-Coder:3b 训练的,服务器也只有 A100 80G * 2,所以在用 llamafactory 训练的时候没有考 阅读全文
posted @ 2025-05-25 19:49 zion03 阅读(854) 评论(0) 推荐(0)