2025 年 3月 27 日随笔档案 - 明太宗朱棣

2025年3月27日

基于基础模型和TRL的奖励模型训练过程加速与显存不足的解决方式

摘要：终端使用 accelerate config 命令对加速进行设置，主要设置显卡数和数据类型。设置完成后使用以下命令在终端中运行奖励模型文件： accelerate launch \ /root/autodl-tmp/reward_model_demo.py \ --model_name_or_ 阅读全文

posted @ 2025-03-27 21:05 明太宗朱棣阅读(85) 评论(0) 推荐(0)

为彩而殇

基于基础模型和TRL的奖励模型训练过程加速与显存不足的解决方式

导航

公告

为彩而殇

基于基础模型和TRL的奖励模型 训练过程加速与显存不足的解决方式

导航

公告

基于基础模型和TRL的奖励模型训练过程加速与显存不足的解决方式