openr1复现

virualenv创建虚拟环境：virtualenv myenv --python=/usr/bin/python3.11

grpo原理：https://huggingface.co/docs/trl/main/en/grpo_trainer
（https://mp.weixin.qq.com/s?__biz=MzU0MDA1MzI0Mw==&mid=2247499160&idx=1&sn=0ce2772d2339133b89812aec01c6849b&chksm=fb3da60ccc4a2f1a831f6780d64c3cb956b4edd46f02b6dfa9f3311baf57454c3ff0652856f7&cur_album_id=2928732186977992709&scene=189#wechat_redirect）

openr1复现
grpo部分：
num_machines=1，机器数为1（节点数）
num_processes设置为1，用于训练的gpu数，设置为1，总共4张卡，其它用于部署vllm，进行reward测试
report_to：设置none（pre设置为wandb，是一个用于机器学习实验跟踪、可视化和协作的平台，旨在帮助机器学习团队更好地组织、记录和共享实验过程和结果）
push_to_hub：false（pre设置为true，会上传到huggingface）

ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/zero2.yaml \
    --num_processes=1 src/open_r1/grpo.py \
    --config recipes/Qwen2.5-14B/grpo/config_demo.yaml

posted @ 2025-02-26 09:19 365/24/60 阅读(131) 评论(0) 收藏举报

刷新页面返回顶部

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

365/24/60

openr1复现