2025年3月27日

基于基础模型和TRL的奖励模型 训练过程加速与显存不足的解决方式

摘要: 终端 使用 accelerate config 命令对加速进行设置,主要设置显卡数和数据类型。 设置完成后使用以下命令在终端中运行 奖励模型文件: accelerate launch \ /root/autodl-tmp/reward_model_demo.py \ --model_name_or_ 阅读全文

posted @ 2025-03-27 21:05 明太宗朱棣 阅读(74) 评论(0) 推荐(0)

导航