会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
CD Yang
博客园
首页
新随笔
联系
管理
订阅
2025年5月25日
增量预训练 (CPT, Continuous Pre-Training) llama-factory 训练配置
摘要: 前一阵子 qwen3 模型出来了,正好公司新的 GPU 资源也申请下来,就基于新的基座模型重新训练一下,实现性能飞跃嘿嘿。 1. 路径依赖篇 由于上一版的模型是基于 Qwen2.5-Coder:3b 训练的,服务器也只有 A100 80G * 2,所以在用 llamafactory 训练的时候没有考
阅读全文
posted @ 2025-05-25 19:49 zion03
阅读(854)
评论(0)
推荐(0)
公告