WorldPM: Scaling Human Preference Modeling 偏好模型复现过程以及代码实现
摘要:
偏好模型复现思路: 如上图所示,通过Stackexchange公开论坛数据集使用qwen系列模型进行全参数微调,训练目标是最小化BT loss,超参数等和论文保持一致 偏好模型预训练: 数据下载: StackExchange数据下载:https://www.modelscope.cn/dataset 阅读全文
posted @ 2025-07-08 11:24 limingqi 阅读(53) 评论(0) 推荐(0)
浙公网安备 33010602011771号