08 2025 档案

成对比较(Pairwise Comparison)
摘要:“成对比较(Pairwise Comparison)” 的两大核心价值:一是在 “一致性(consistency)” 上的优越性(优于其他评估方法),二是可扩展性与灵活的选项模式(适配复杂评估场景),进一步完善了 LLM-as-a-Judge 中该评估范式的理论与实践框架。以下结合论文语境和研究引用 阅读全文

posted @ 2025-08-29 15:57 limingqi 阅读(143) 评论(0) 推荐(0)

qwen2.5-0.6B reranker模型 VS bge reranker模型
摘要:在实际应用中观察到 Qwen2.5-0.6B Reranker(即 Qwen3-Reranker-0.6B)排序效果不如 BGE Reranker,并非单一因素导致,而是由模型设计侧重、场景适配性、数据分布匹配度等多维度差异共同作用的结果。结合两类模型的核心特性与实际应用场景,可从以下角度拆解原因, 阅读全文

posted @ 2025-08-29 14:06 limingqi 阅读(321) 评论(0) 推荐(0)

大模型生成分数(Generating scores)深度解析
摘要:这部分内容聚焦 LLM-as-a-Judge 中 “以分数形式呈现评估结果” 的核心逻辑,从 “分数的本质特性” 到 “不同复杂度的评分设计方法” 展开,核心是解决 “如何让 LLM 输出既直观又符合评估目标的分数” 这一问题,以下分维度拆解: 一、核心前提:为什么用 “分数” 做评估? “It i 阅读全文

posted @ 2025-08-29 13:30 limingqi 阅读(185) 评论(0) 推荐(0)

上下文学习(In-Context Learning, ICL)
摘要:如何通过 “上下文学习(In-Context Learning, ICL)” 定义评估任务,明确了 ICL 方法的两大关键组成(输入设计、提示设计)及具体实践维度,本质是为 “让 LLM 理解‘评什么’‘怎么评’” 提供可操作的框架。以下从 “ICL 的核心作用→输入设计的 3 个维度→提示设计的 阅读全文

posted @ 2025-08-29 13:18 limingqi 阅读(158) 评论(0) 推荐(0)

A Survey on LLM-as-a-Judge
摘要:一、论文核心定位与背景 1.1 研究背景:评估体系的痛点与 LLM 的机遇 传统评估方法存在难以调和的矛盾: 专家驱动评估:优势是能整合全局推理和上下文理解(如学术同行评审),但成本高、难以规模化,且存在主观不一致性; 自动指标评估(如 BLEU、ROUGE):优势是可扩展性强、一致性高,但仅依赖表 阅读全文

posted @ 2025-08-28 17:46 limingqi 阅读(212) 评论(0) 推荐(0)

A Minimaximalist Approach to Reinforcement Learning from Human Feedback
摘要:基于强化学习的 SPO(Self-Play Preference Optimization,自博弈偏好优化),该论文针对传统从人类反馈强化学习(RLHF/PbRL)方法的缺陷,提出自博弈偏好优化(Self-Play Preference Optimization, SPO) 算法,核心思想可概括为 阅读全文

posted @ 2025-08-26 18:18 limingqi 阅读(24) 评论(0) 推荐(0)

奖励模型场景适配以及效率优化
摘要:要解决 “奖励方法的场景适配” 与 “在线 RL 评估效率优化” 问题,需先明确在线 RL(实时交互、策略动态更新)与离线评测(依赖固定数据集、评估静态策略)的核心差异,再针对性拆解奖励方法的适配逻辑,以及评估效率的瓶颈解决方案。 一、常见奖励方法的在线 RL / 离线评测适配性 不同奖励方法的设计 阅读全文

posted @ 2025-08-26 18:15 limingqi 阅读(51) 评论(0) 推荐(0)

自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?
摘要:自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(94) 评论(0) 推荐(0)

程序员的结构化表达课程大纲
摘要:以下是针对程序员的结构化表达课程体系大纲,结合技术场景特点(逻辑严谨性、受众多样性、内容技术性)设计,分为「基础逻辑层」「技术场景层」「实战深化层」三个递进模块,兼顾口头表达与书面表达能力: 课程总目标 帮助程序员掌握「技术内容结构化传递」的核心能力,实现: 口头表达:清晰传递技术方案、需求、故障等 阅读全文

posted @ 2025-08-21 10:38 limingqi 阅读(61) 评论(0) 推荐(0)

数据并行真能 “瘦身” 内存?
摘要:数据并行(Data Parallelism)** 不能减少单卡的内存占用 ,反而可能略微增加总内存消耗。但它能通过分摊计算压力 **,让大模型或大批次训练在有限显存的 GPU 上可行。以下是具体分析: 一、数据并行的原理与内存关系 数据并行的核心逻辑是: 每个 GPU 保存 ** 完整的模型副本 * 阅读全文

posted @ 2025-08-19 10:36 limingqi 阅读(33) 评论(0) 推荐(0)

Qwen2.5-3B 奖励模型显存瘦身术:轻量运行,性能不减
摘要:要优化 Qwen2.5-3B 奖励模型的显存占用,需从模型加载、数据处理、训练策略三个维度综合优化。以下是具体可落地的方案,按显存节省效果排序: 一、缩短序列长度(显存优化最显著) Qwen2.5-3B 在 8192 tokens 时显存需求极高,优先缩短序列长度: python运行 # 在toke 阅读全文

posted @ 2025-08-19 10:20 limingqi 阅读(160) 评论(0) 推荐(0)

从 “工具” 到 “共生”:GPT-5 藏着哪些颠覆认知的新可能?
摘要:概要 从GPT-5来看,通用LLM的性能逼近上限,Scaling Law在失灵; 从头部企业来看,MoE取代Dense架构成为了LLM的主流架构; OpenAI开源模型 8 月 6 日,OpenAI 宣布推出两款开源模型 GPT-oss-120b 和 GPT-oss-20b,这是自 2020 年发布 阅读全文

posted @ 2025-08-18 11:56 limingqi 阅读(93) 评论(0) 推荐(0)

大模型训练中max_length参数设置的技巧
摘要:max_length 的设置需要结合具体场景(如任务类型、模型能力、输入输出长度需求等),没有固定的 “标准值”,但有一些常见的设置范围和参考原则,以下是详细说明: 一、常见的 max_length 设置范围 基础场景(短文本交互) 范围:512 到 1024 适用场景:聊天对话(单轮短句)、关键词 阅读全文

posted @ 2025-08-18 11:42 limingqi 阅读(496) 评论(0) 推荐(0)

奖励模型评估指标
摘要:奖励模型(Reward Model, RM)的核心作用是对文本(如对话回复、生成内容)的质量或偏好进行打分,其评估指标需围绕 “打分是否准确反映真实偏好”“模型稳定性”“泛化能力” 等核心目标设计。以下是常见的奖励模型评估指标,按应用场景和评估维度分类说明: 一、偏好对齐指标(核心指标) 这类指标衡 阅读全文

posted @ 2025-08-14 16:37 limingqi 阅读(183) 评论(0) 推荐(0)

Qwen2.5-3B 模型加速优化
摘要:对微调后的 Qwen2.5-3B 模型进行加速优化(如蒸馏、量化等),核心目标是在保持精度的前提下提升推理速度(降低延迟、提高吞吐量)。以下是经过实践验证的解决方案,涵盖知识蒸馏、量化、剪枝、结构优化等技术,并附具体实施思路: 一、知识蒸馏:通过师生模型传递知识 知识蒸馏是将大模型(教师)的 “知识 阅读全文

posted @ 2025-08-13 16:35 limingqi 阅读(236) 评论(0) 推荐(0)

Qwen3-0.6B训练的奖励模型 VS Qwen3-Reranker-0.6B VS Qwen3-Embedding-0.6B
摘要:Qwen3-0.6B 系列的奖励模型、Reranker 和 Embedding 模型虽共享相同的 0.6B 参数基座(基于 Qwen3 的 Transformer 架构),但因任务目标不同,在模型结构、损失函数、输入输出形式和应用场景上存在显著差异,具体对比如下: 一、核心任务目标与应用场景 模型类 阅读全文

posted @ 2025-08-09 09:11 limingqi 阅读(444) 评论(0) 推荐(0)

奖励模型worldPM VS 排序模型Qwen3-Reranker-0.6B
摘要:以下是 WorldPM(奖励模型)与 Qwen3-Reranker-0.6B(排序模型)的核心差异对比,聚焦模型设计与实践特性: 一、核心目标与定位 WorldPM(奖励模型) 专注于评估生成内容质量,为强化学习(RLHF)提供细粒度奖励信号,核心是对齐人类偏好(如回答相关性、安全性、事实性)。 Q 阅读全文

posted @ 2025-08-09 08:58 limingqi 阅读(110) 评论(0) 推荐(0)

导航