2025年7月14日

异常检测:四分位距法(IQR)

摘要: 一、IQR介绍 IQR(Interquartile Range)算法是一种用于检测异常值的统计方法,主要基于数据的四分位数。IQR 代表数据集中第 1 四分位数(Q1)和第 3 四分位数(Q3)之间的范围。 1.1 IQR 算法步骤 1)计算四分位数: Q1(下四分位数):数据中 25% 的值。Q3 阅读全文

posted @ 2025-07-14 20:38 limingqi 阅读(561) 评论(2) 推荐(1)

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy 论文概述

摘要: 一、研究背景与动机 在强化学习从人类反馈(RLHF)中,奖励模型(RMs)至关重要,它决定了模型对人类偏好的捕捉和对齐程度。但当下最先进的开源奖励模型,在多数现有评估基准上表现欠佳,难以有效捕捉人类偏好中细微、复杂的部分。即便运用先进训练技术,性能提升也不明显。经分析,问题主要源于偏好数据集的局限性 阅读全文

posted @ 2025-07-14 16:15 limingqi 阅读(57) 评论(0) 推荐(0)

WorldPM: Scaling Human Preference Modeling 偏好模型论文概述

摘要: 一、引言与背景 研究动机 大语言模型(LLM)偏好建模的现状:传统奖励模型(RM)依赖人工标注的 “小数据”(如 HelpSteer2、UltraFeedback 等),存在泛化能力弱、成本高、覆盖场景有限等问题。 核心痛点:如何让模型更高效地学习人类偏好,且能适配多样化的真实世界场景? World 阅读全文

posted @ 2025-07-14 14:40 limingqi 阅读(40) 评论(0) 推荐(0)

导航