2025 年 7月 8 日随笔档案 - limingqi

2025年7月8日

WorldPM: Scaling Human Preference Modeling 偏好模型复现过程以及代码实现

摘要：偏好模型复现思路：如上图所示，通过Stackexchange公开论坛数据集使用qwen系列模型进行全参数微调，训练目标是最小化BT loss，超参数等和论文保持一致偏好模型预训练：数据下载： StackExchange数据下载：https://www.modelscope.cn/dataset 阅读全文

posted @ 2025-07-08 11:24 limingqi 阅读(69) 评论(0) 推荐(0)

WorldPM: Scaling Human Preference Modeling 偏好模型复现过程以及代码实现

导航

公告