摘要: 模型经过海量数据预训练后,它拥有了广泛的知识,但其输出行为是“中性”的,它不知道人类更偏爱哪种风格的回答(例如:更有帮助、更无害、更简洁、更符合特定格式)。对齐微调 的目标就是缩小模型与人类偏好之间的差距。 对齐微调:利用人类偏好信号来指导模型的优化。 1. PPO(Proximal Policy 阅读全文
posted @ 2025-12-01 10:10 wangssd 阅读(63) 评论(0) 推荐(0)