2025年7月8日

WorldPM: Scaling Human Preference Modeling 偏好模型复现过程以及代码实现

摘要: 偏好模型复现思路: 如上图所示,通过Stackexchange公开论坛数据集使用qwen系列模型进行全参数微调,训练目标是最小化BT loss,超参数等和论文保持一致 偏好模型预训练: 数据下载: StackExchange数据下载:https://www.modelscope.cn/dataset 阅读全文

posted @ 2025-07-08 11:24 limingqi 阅读(53) 评论(0) 推荐(0)

导航