上一页 1 2 3 4 5 6 7 8 ··· 15 下一页

2025年7月29日

BLEU指标

摘要: 关于 BLEU(Bilingual Evaluation Understudy)指标的技术分享,从 “是什么→为什么重要→怎么算→怎么用→有什么坑” 的逻辑展开,兼顾基础理解与实践价值。以下是具体分享框架和内容要点,结合案例和通俗解释,让听众(无论新手还是有经验者)都能快速掌握核心: 一、为什么需要 阅读全文

posted @ 2025-07-29 22:47 limingqi 阅读(323) 评论(0) 推荐(0)

2025年7月28日

数据分布差异鉴定指南

摘要: 分析两个数据集(如 HelpSteer2 和 StackExchange)的分布差异性,需要从多个维度系统拆解它们在数据特征、内容属性、结构模式等方面的不同。 一、基本统计特征分布 从最基础的数值特征入手,反映数据集的 “规模” 和 “形态” 差异: 样本数量与规模分布 总样本量:两个数据集的样本总 阅读全文

posted @ 2025-07-28 15:42 limingqi 阅读(107) 评论(0) 推荐(0)

模型“瘦身术”——模型量化

摘要: 一、什么是模型量化? 模型量化的核心是将模型中高精度的参数(如 32 位浮点数,FP32)转换为低精度格式(如 16 位浮点数 FP16、8 位整数 INT8,甚至 4 位 INT4、2 位 INT2 等)。 高精度参数虽能保证模型精度,但占用内存 / 显存大、计算耗时,尤其在边缘设备(如手机、嵌入 阅读全文

posted @ 2025-07-28 14:06 limingqi 阅读(162) 评论(0) 推荐(0)

3分钟看懂模型好坏,关键评估指标干货速递

摘要: 评估模型性能需要结合模型类型(如分类 / 回归模型、生成式模型、大语言模型等)和业务目标(如准确率、效率、安全性等),选择针对性的指标。以下是不同场景下的核心评估指标,涵盖主流模型类型: 一、传统机器学习模型(分类 / 回归 / 聚类) 1. 分类模型(如图像识别、垃圾邮件检测) 核心指标: 准确率 阅读全文

posted @ 2025-07-28 10:51 limingqi 阅读(354) 评论(0) 推荐(0)

2025年7月26日

DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清

摘要: DeepSeek 发布的 V3、R1-Zero、R1 三大模型,代表了一条从通用基座到专用推理的完整技术路径。许多读者对三者的关系存在困惑,本文将通过流程图解、差异对比、训练逻辑拆解三大模块,彻底厘清它们的定位与联系。 一、模型定位与技术差异 维度 DeepSeek-V3 R1-Zero DeepS 阅读全文

posted @ 2025-07-26 23:45 limingqi 阅读(535) 评论(0) 推荐(0)

手把手带你从零推导旋转位置编码RoPE

摘要: RNN每个step的隐状态都取决于上一个step的输出,这种连续的状态转移方式使得RNN天然带有位置信息。而Transformer仅依靠Attention机制来关注序列中不同token之间的相关性,如果只使用token embedding就无法获得句子中字与字之间的位置信息,也就是说如果没有位置编码 阅读全文

posted @ 2025-07-26 13:26 limingqi 阅读(171) 评论(0) 推荐(0)

Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(66) 评论(0) 推荐(0)

2025年7月24日

RM-Bench评估方式

摘要: 数据格式: { "id": // unique identifier of the sample, "prompt": // the prompt given to the model, "chosen": [ "resp_1", // the chosen response with concis 阅读全文

posted @ 2025-07-24 17:49 limingqi 阅读(11) 评论(0) 推荐(0)

2025年7月23日

RM-Bench 和 reward_bench 评估指标的优化

摘要: RM-Bench 和 RewardBench 的指标可以同时优化,但需要系统性地解决数据设计、模型架构和训练策略中的核心矛盾。以下结合最新研究进展和工业级实践,从数据增强、模型校准、训练范式、评估创新四个维度提出可落地的优化方案: 一、数据增强:构建对抗性混合数据集 1. 金标准锚定 + 银标准扩展 阅读全文

posted @ 2025-07-23 15:02 limingqi 阅读(62) 评论(0) 推荐(0)

RM-Bench 和 reward_bench 评估相互抑制

摘要: RM-Bench 和 RewardBench 的指标确实存在相互抑制的现象,且这种抑制性在当前主流奖励模型中普遍存在。以下从数据设计差异、评估逻辑冲突、模型优化路径三个维度展开分析,并结合最新研究案例说明其内在机制: 一、数据设计差异导致的天然对立 RM-Bench 的「去形式化」设计RM-Benc 阅读全文

posted @ 2025-07-23 14:52 limingqi 阅读(20) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 8 ··· 15 下一页

导航