limingqi - 博客园

自我博弈偏好优化（Self-Play Preference Optimization，SPO）能否奖励模型？

摘要：自我博弈偏好优化（Self-Play Preference Optimization, SPO）是一种通过自我博弈机制直接优化策略的方法，其核心特点是无需显式奖励模型，也不依赖对抗性训练。从技术本质来看，SPO 确实在特定场景下取代了奖励模型，但这一取代并非绝对，而是取决于任务类型和优化目标。以下从阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(82) 评论(0) 推荐(0)

程序员的结构化表达课程大纲

摘要：以下是针对程序员的结构化表达课程体系大纲，结合技术场景特点（逻辑严谨性、受众多样性、内容技术性）设计，分为「基础逻辑层」「技术场景层」「实战深化层」三个递进模块，兼顾口头表达与书面表达能力：课程总目标帮助程序员掌握「技术内容结构化传递」的核心能力，实现：口头表达：清晰传递技术方案、需求、故障等阅读全文

posted @ 2025-08-21 10:38 limingqi 阅读(53) 评论(0) 推荐(0)

数据并行真能 “瘦身” 内存？

摘要：数据并行（Data Parallelism）** 不能减少单卡的内存占用，反而可能略微增加总内存消耗。但它能通过分摊计算压力 **，让大模型或大批次训练在有限显存的 GPU 上可行。以下是具体分析：一、数据并行的原理与内存关系数据并行的核心逻辑是：每个 GPU 保存 ** 完整的模型副本 * 阅读全文

posted @ 2025-08-19 10:36 limingqi 阅读(30) 评论(0) 推荐(0)

Qwen2.5-3B 奖励模型显存瘦身术：轻量运行，性能不减

摘要：要优化 Qwen2.5-3B 奖励模型的显存占用，需从模型加载、数据处理、训练策略三个维度综合优化。以下是具体可落地的方案，按显存节省效果排序：一、缩短序列长度（显存优化最显著） Qwen2.5-3B 在 8192 tokens 时显存需求极高，优先缩短序列长度： python运行 # 在toke 阅读全文

posted @ 2025-08-19 10:20 limingqi 阅读(133) 评论(0) 推荐(0)

从 “工具” 到 “共生”：GPT-5 藏着哪些颠覆认知的新可能？

摘要：概要从GPT-5来看，通用LLM的性能逼近上限，Scaling Law在失灵；从头部企业来看，MoE取代Dense架构成为了LLM的主流架构； OpenAI开源模型 8 月 6 日，OpenAI 宣布推出两款开源模型 GPT-oss-120b 和 GPT-oss-20b，这是自 2020 年发布阅读全文

posted @ 2025-08-18 11:56 limingqi 阅读(88) 评论(0) 推荐(0)

大模型训练中max_length参数设置的技巧

摘要： max_length 的设置需要结合具体场景（如任务类型、模型能力、输入输出长度需求等），没有固定的 “标准值”，但有一些常见的设置范围和参考原则，以下是详细说明：一、常见的 max_length 设置范围基础场景（短文本交互）范围：512 到 1024 适用场景：聊天对话（单轮短句）、关键词阅读全文

posted @ 2025-08-18 11:42 limingqi 阅读(415) 评论(0) 推荐(0)

奖励模型评估指标

摘要：奖励模型（Reward Model, RM）的核心作用是对文本（如对话回复、生成内容）的质量或偏好进行打分，其评估指标需围绕 “打分是否准确反映真实偏好”“模型稳定性”“泛化能力” 等核心目标设计。以下是常见的奖励模型评估指标，按应用场景和评估维度分类说明：一、偏好对齐指标（核心指标）这类指标衡阅读全文

posted @ 2025-08-14 16:37 limingqi 阅读(159) 评论(0) 推荐(0)

Qwen2.5-3B 模型加速优化

摘要：对微调后的 Qwen2.5-3B 模型进行加速优化（如蒸馏、量化等），核心目标是在保持精度的前提下提升推理速度（降低延迟、提高吞吐量）。以下是经过实践验证的解决方案，涵盖知识蒸馏、量化、剪枝、结构优化等技术，并附具体实施思路：一、知识蒸馏：通过师生模型传递知识知识蒸馏是将大模型（教师）的 “知识阅读全文

posted @ 2025-08-13 16:35 limingqi 阅读(200) 评论(0) 推荐(0)

Qwen3-0.6B训练的奖励模型 VS Qwen3-Reranker-0.6B VS Qwen3-Embedding-0.6B

摘要： Qwen3-0.6B 系列的奖励模型、Reranker 和 Embedding 模型虽共享相同的 0.6B 参数基座（基于 Qwen3 的 Transformer 架构），但因任务目标不同，在模型结构、损失函数、输入输出形式和应用场景上存在显著差异，具体对比如下：一、核心任务目标与应用场景模型类阅读全文

posted @ 2025-08-09 09:11 limingqi 阅读(404) 评论(0) 推荐(0)

奖励模型worldPM VS 排序模型Qwen3-Reranker-0.6B

摘要：以下是 WorldPM（奖励模型）与 Qwen3-Reranker-0.6B（排序模型）的核心差异对比，聚焦模型设计与实践特性：一、核心目标与定位 WorldPM（奖励模型）专注于评估生成内容质量，为强化学习（RLHF）提供细粒度奖励信号，核心是对齐人类偏好（如回答相关性、安全性、事实性）。 Q 阅读全文

posted @ 2025-08-09 08:58 limingqi 阅读(88) 评论(0) 推荐(0)