2025 年 5月 25 日随笔档案 - zion03

2025年5月25日

增量预训练 (CPT, Continuous Pre-Training) llama-factory 训练配置

摘要：前一阵子 qwen3 模型出来了，正好公司新的 GPU 资源也申请下来，就基于新的基座模型重新训练一下，实现性能飞跃嘿嘿。 1. 路径依赖篇由于上一版的模型是基于 Qwen2.5-Coder:3b 训练的，服务器也只有 A100 80G * 2，所以在用 llamafactory 训练的时候没有考阅读全文

posted @ 2025-05-25 19:49 zion03 阅读(1075) 评论(0) 推荐(0)

CD Yang

公告