openr1复现
virualenv创建虚拟环境:virtualenv myenv --python=/usr/bin/python3.11
grpo原理:https://huggingface.co/docs/trl/main/en/grpo_trainer
(https://mp.weixin.qq.com/s?__biz=MzU0MDA1MzI0Mw==&mid=2247499160&idx=1&sn=0ce2772d2339133b89812aec01c6849b&chksm=fb3da60ccc4a2f1a831f6780d64c3cb956b4edd46f02b6dfa9f3311baf57454c3ff0652856f7&cur_album_id=2928732186977992709&scene=189#wechat_redirect)
openr1复现
grpo部分:
num_machines=1,机器数为1(节点数)
num_processes设置为1,用于训练的gpu数,设置为1,总共4张卡,其它用于部署vllm,进行reward测试
report_to:设置none(pre设置为wandb,是一个用于机器学习实验跟踪、可视化和协作的平台,旨在帮助机器学习团队更好地组织、记录和共享实验过程和结果)
push_to_hub:false(pre设置为true,会上传到huggingface)
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/zero2.yaml \
--num_processes=1 src/open_r1/grpo.py \
--config recipes/Qwen2.5-14B/grpo/config_demo.yaml

浙公网安备 33010602011771号