2025 年 7月 22 日随笔档案 - limingqi

2025年7月22日

奖励模型训练数据的分布情况

摘要：奖励模型（Reward Model, RM）的训练数据通常是偏好数据（如包含prompt、chosen（优选响应）、rejected（非优选响应）的三元组），其分布情况直接影响模型的偏好学习和泛化能力。查看分布需从数据基本特征、文本内容特性、任务 / 元数据标签等多个维度分析，以下是具体方法和工具：阅读全文

posted @ 2025-07-22 14:05 limingqi 阅读(51) 评论(0) 推荐(0)

少量数据微调通用模型指标下降明显

摘要：用 Qwen2.5-3B 通用模型在少量数据集上微调后出现 “掉点”（性能下降），本质是模型在微调过程中未能有效学习目标任务模式，甚至破坏了预训练的通用能力，核心原因可从以下几个方面分析：一、数据层面：少量数据的固有缺陷过拟合风险剧增少量数据集（如几百到几千样本）难以覆盖目标任务的完整分布，模型阅读全文

posted @ 2025-07-22 11:39 limingqi 阅读(170) 评论(0) 推荐(0)

评估两个数据集的分布情况

摘要：评估两个数据集的分布差异，需要根据数据类型（如结构化数据、文本、图像）和分布特性（如单变量 / 多变量、连续 / 离散）选择合适的方法。以下是常用的评估方法，按 “直观性→量化性→复杂场景适配性” 排序：一、可视化方法（直观判断分布差异）通过可视化直接观察两个数据集的分布形态，适合快速定性分析。阅读全文

posted @ 2025-07-22 11:38 limingqi 阅读(340) 评论(0) 推荐(0)

奖励模型训练数据的分布情况

少量数据微调通用模型指标下降明显

评估两个数据集的分布情况

导航

公告