上一页 1 2 3 4 5 6 7 ··· 15 下一页

2025年8月19日

Qwen2.5-3B 奖励模型显存瘦身术:轻量运行,性能不减

摘要: 要优化 Qwen2.5-3B 奖励模型的显存占用,需从模型加载、数据处理、训练策略三个维度综合优化。以下是具体可落地的方案,按显存节省效果排序: 一、缩短序列长度(显存优化最显著) Qwen2.5-3B 在 8192 tokens 时显存需求极高,优先缩短序列长度: python运行 # 在toke 阅读全文

posted @ 2025-08-19 10:20 limingqi 阅读(95) 评论(0) 推荐(0)

2025年8月18日

从 “工具” 到 “共生”:GPT-5 藏着哪些颠覆认知的新可能?

摘要: 概要 从GPT-5来看,通用LLM的性能逼近上限,Scaling Law在失灵; 从头部企业来看,MoE取代Dense架构成为了LLM的主流架构; OpenAI开源模型 8 月 6 日,OpenAI 宣布推出两款开源模型 GPT-oss-120b 和 GPT-oss-20b,这是自 2020 年发布 阅读全文

posted @ 2025-08-18 11:56 limingqi 阅读(69) 评论(0) 推荐(0)

大模型训练中max_length参数设置的技巧

摘要: max_length 的设置需要结合具体场景(如任务类型、模型能力、输入输出长度需求等),没有固定的 “标准值”,但有一些常见的设置范围和参考原则,以下是详细说明: 一、常见的 max_length 设置范围 基础场景(短文本交互) 范围:512 到 1024 适用场景:聊天对话(单轮短句)、关键词 阅读全文

posted @ 2025-08-18 11:42 limingqi 阅读(199) 评论(0) 推荐(0)

2025年8月14日

奖励模型评估指标

摘要: 奖励模型(Reward Model, RM)的核心作用是对文本(如对话回复、生成内容)的质量或偏好进行打分,其评估指标需围绕 “打分是否准确反映真实偏好”“模型稳定性”“泛化能力” 等核心目标设计。以下是常见的奖励模型评估指标,按应用场景和评估维度分类说明: 一、偏好对齐指标(核心指标) 这类指标衡 阅读全文

posted @ 2025-08-14 16:37 limingqi 阅读(89) 评论(0) 推荐(0)

2025年8月13日

Qwen2.5-3B 模型加速优化

摘要: 对微调后的 Qwen2.5-3B 模型进行加速优化(如蒸馏、量化等),核心目标是在保持精度的前提下提升推理速度(降低延迟、提高吞吐量)。以下是经过实践验证的解决方案,涵盖知识蒸馏、量化、剪枝、结构优化等技术,并附具体实施思路: 一、知识蒸馏:通过师生模型传递知识 知识蒸馏是将大模型(教师)的 “知识 阅读全文

posted @ 2025-08-13 16:35 limingqi 阅读(113) 评论(0) 推荐(0)

2025年8月9日

Qwen3-0.6B训练的奖励模型 VS Qwen3-Reranker-0.6B VS Qwen3-Embedding-0.6B

摘要: Qwen3-0.6B 系列的奖励模型、Reranker 和 Embedding 模型虽共享相同的 0.6B 参数基座(基于 Qwen3 的 Transformer 架构),但因任务目标不同,在模型结构、损失函数、输入输出形式和应用场景上存在显著差异,具体对比如下: 一、核心任务目标与应用场景 模型类 阅读全文

posted @ 2025-08-09 09:11 limingqi 阅读(294) 评论(0) 推荐(0)

奖励模型worldPM VS 排序模型Qwen3-Reranker-0.6B

摘要: 以下是 WorldPM(奖励模型)与 Qwen3-Reranker-0.6B(排序模型)的核心差异对比,聚焦模型设计与实践特性: 一、核心目标与定位 WorldPM(奖励模型) 专注于评估生成内容质量,为强化学习(RLHF)提供细粒度奖励信号,核心是对齐人类偏好(如回答相关性、安全性、事实性)。 Q 阅读全文

posted @ 2025-08-09 08:58 limingqi 阅读(54) 评论(0) 推荐(0)

2025年7月30日

HelpSteer2 与 StackExchange 谁是偏好建模的 “最佳拍档”?

摘要: 1.数据基础对比 对比纬度StackExchangeHelpSteer2 数据来源 基于 Stack Overflow、Server Fault 等多个问答社区的真实用户互动内容。 主要来自客户支持场景(如企业客服对话、帮助中心问答),聚焦服务导向的交互数据。 数据数量 500w+ 9k 内容主题 阅读全文

posted @ 2025-07-30 12:03 limingqi 阅读(29) 评论(0) 推荐(0)

2025年7月29日

NDCG指标

摘要: 一、开场:为什么需要 NDCG?—— 从 “排序结果的评估难题” 切入 先抛问题引发共鸣: 推荐系统、搜索引擎返回的结果,怎么判断 “排得好不好”? 人工评估(如 “这个结果是否相关”)能直观判断,但面对成千上万的排序结果,效率极低,有没有自动化指标能精准衡量? 引出 NDCG 的定位: NDCG( 阅读全文

posted @ 2025-07-29 22:55 limingqi 阅读(230) 评论(0) 推荐(0)

ROUGE指标

摘要: 一、开场:为什么需要 ROUGE?—— 从 “文本摘要的评估困境” 切入 先抛问题引发共鸣: 自动文本摘要模型生成的摘要,怎么判断它是否抓住了核心信息? 人工评估(如专家打分)能判断 “是否全面、是否简洁”,但耗时且成本高,有没有自动化指标能替代? 引出 ROUGE 的定位: ROUGE(Recal 阅读全文

posted @ 2025-07-29 22:50 limingqi 阅读(110) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 ··· 15 下一页

导航