2025年7月22日

奖励模型训练数据的分布情况

摘要: 奖励模型(Reward Model, RM)的训练数据通常是偏好数据(如包含prompt、chosen(优选响应)、rejected(非优选响应)的三元组),其分布情况直接影响模型的偏好学习和泛化能力。查看分布需从数据基本特征、文本内容特性、任务 / 元数据标签等多个维度分析,以下是具体方法和工具: 阅读全文

posted @ 2025-07-22 14:05 limingqi 阅读(33) 评论(0) 推荐(0)

少量数据微调通用模型指标下降明显

摘要: 用 Qwen2.5-3B 通用模型在少量数据集上微调后出现 “掉点”(性能下降),本质是模型在微调过程中未能有效学习目标任务模式,甚至破坏了预训练的通用能力,核心原因可从以下几个方面分析: 一、数据层面:少量数据的固有缺陷 过拟合风险剧增少量数据集(如几百到几千样本)难以覆盖目标任务的完整分布,模型 阅读全文

posted @ 2025-07-22 11:39 limingqi 阅读(82) 评论(0) 推荐(0)

评估两个数据集的分布情况

摘要: 评估两个数据集的分布差异,需要根据数据类型(如结构化数据、文本、图像)和分布特性(如单变量 / 多变量、连续 / 离散)选择合适的方法。以下是常用的评估方法,按 “直观性→量化性→复杂场景适配性” 排序: 一、可视化方法(直观判断分布差异) 通过可视化直接观察两个数据集的分布形态,适合快速定性分析。 阅读全文

posted @ 2025-07-22 11:38 limingqi 阅读(234) 评论(0) 推荐(0)

导航