limingqi - 博客园

HelpSteer2 与 StackExchange 谁是偏好建模的 “最佳拍档”？

摘要： 1.数据基础对比对比纬度StackExchangeHelpSteer2 数据来源基于 Stack Overflow、Server Fault 等多个问答社区的真实用户互动内容。主要来自客户支持场景（如企业客服对话、帮助中心问答），聚焦服务导向的交互数据。数据数量 500w+ 9k 内容主题阅读全文

posted @ 2025-07-30 12:03 limingqi 阅读(47) 评论(0) 推荐(0)

NDCG指标

摘要：一、开场：为什么需要 NDCG？—— 从 “排序结果的评估难题” 切入先抛问题引发共鸣：推荐系统、搜索引擎返回的结果，怎么判断 “排得好不好”？人工评估（如 “这个结果是否相关”）能直观判断，但面对成千上万的排序结果，效率极低，有没有自动化指标能精准衡量？引出 NDCG 的定位： NDCG（阅读全文

posted @ 2025-07-29 22:55 limingqi 阅读(476) 评论(0) 推荐(0)

ROUGE指标

摘要：一、开场：为什么需要 ROUGE？—— 从 “文本摘要的评估困境” 切入先抛问题引发共鸣：自动文本摘要模型生成的摘要，怎么判断它是否抓住了核心信息？人工评估（如专家打分）能判断 “是否全面、是否简洁”，但耗时且成本高，有没有自动化指标能替代？引出 ROUGE 的定位： ROUGE（Recal 阅读全文

posted @ 2025-07-29 22:50 limingqi 阅读(186) 评论(0) 推荐(0)

BLEU指标

摘要：关于 BLEU（Bilingual Evaluation Understudy）指标的技术分享，从 “是什么→为什么重要→怎么算→怎么用→有什么坑” 的逻辑展开，兼顾基础理解与实践价值。以下是具体分享框架和内容要点，结合案例和通俗解释，让听众（无论新手还是有经验者）都能快速掌握核心：一、为什么需要阅读全文

posted @ 2025-07-29 22:47 limingqi 阅读(633) 评论(0) 推荐(0)

数据分布差异鉴定指南

摘要：分析两个数据集（如 HelpSteer2 和 StackExchange）的分布差异性，需要从多个维度系统拆解它们在数据特征、内容属性、结构模式等方面的不同。一、基本统计特征分布从最基础的数值特征入手，反映数据集的 “规模” 和 “形态” 差异：样本数量与规模分布总样本量：两个数据集的样本总阅读全文

posted @ 2025-07-28 15:42 limingqi 阅读(146) 评论(0) 推荐(0)

模型“瘦身术”——模型量化

摘要：一、什么是模型量化？模型量化的核心是将模型中高精度的参数（如 32 位浮点数，FP32）转换为低精度格式（如 16 位浮点数 FP16、8 位整数 INT8，甚至 4 位 INT4、2 位 INT2 等）。高精度参数虽能保证模型精度，但占用内存 / 显存大、计算耗时，尤其在边缘设备（如手机、嵌入阅读全文

posted @ 2025-07-28 14:06 limingqi 阅读(210) 评论(0) 推荐(0)

3分钟看懂模型好坏，关键评估指标干货速递

摘要：评估模型性能需要结合模型类型（如分类 / 回归模型、生成式模型、大语言模型等）和业务目标（如准确率、效率、安全性等），选择针对性的指标。以下是不同场景下的核心评估指标，涵盖主流模型类型：一、传统机器学习模型（分类 / 回归 / 聚类） 1. 分类模型（如图像识别、垃圾邮件检测）核心指标：准确率阅读全文

posted @ 2025-07-28 10:51 limingqi 阅读(576) 评论(0) 推荐(0)

DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清

摘要： DeepSeek 发布的 V3、R1-Zero、R1 三大模型，代表了一条从通用基座到专用推理的完整技术路径。许多读者对三者的关系存在困惑，本文将通过流程图解、差异对比、训练逻辑拆解三大模块，彻底厘清它们的定位与联系。一、模型定位与技术差异维度 DeepSeek-V3 R1-Zero DeepS 阅读全文

posted @ 2025-07-26 23:45 limingqi 阅读(648) 评论(0) 推荐(0)

手把手带你从零推导旋转位置编码RoPE

摘要： RNN每个step的隐状态都取决于上一个step的输出，这种连续的状态转移方式使得RNN天然带有位置信息。而Transformer仅依靠Attention机制来关注序列中不同token之间的相关性，如果只使用token embedding就无法获得句子中字与字之间的位置信息，也就是说如果没有位置编码阅读全文

posted @ 2025-07-26 13:26 limingqi 阅读(233) 评论(0) 推荐(0)

Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要：一、研究背景强化学习（RL）在大型语言模型（LLMs）的训练中至关重要，其成功取决于奖励模型（RM）提供精确稳定反馈的能力。传统奖励模型依赖标注的偏好对训练，存在可扩展性和泛化性问题，前者受限于获取大量高质量标注对的难度，后者因建模人类偏好的主观性易受奖励攻击。规则基验证器虽能提供准确奖励信号阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(87) 评论(0) 推荐(0)