1 2 3 4 5 ··· 15 下一页

[置顶] 自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?

摘要: 自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(34) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要: POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解: 一、核心目标 让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相 阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(32) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(66) 评论(0) 推荐(0)

2025年10月22日

计算机专利申请成功的核心关键

摘要: 计算机专利申请成功的核心关键是同时满足“三性”要求(新颖性、创造性、实用性) ,并通过清晰的技术方案撰写,让审查员理解发明的技术贡献。 一、核心前提:严格满足专利“三性” 1. 新颖性:确保发明在申请日之前,未在任何公开渠道(论文、专利、产品、会议等)出现过。- 关键动作:申请前必须做全面的专利和文 阅读全文

posted @ 2025-10-22 23:00 limingqi 阅读(4) 评论(0) 推荐(0)

计算机专利申请交底书核心写作技巧

摘要: 1. 核心原则:以“技术方案”为中心,说清“问题-方案-效果” - 避免仅描述功能或软件界面,必须拆解为可实现的技术步骤/硬件逻辑,例如将“实现数据加密”细化为“采用AES算法对传输数据包进行分块加密+RSA算法对密钥加密”。- 问题要具体:不说“现有系统效率低”,而说“现有系统处理10万条数据需1 阅读全文

posted @ 2025-10-22 23:00 limingqi 阅读(6) 评论(0) 推荐(0)

2025年10月18日

我做 AI 算法 8 年,见过最可惜的事:技术再牛,说不明白也是白搭

摘要: 大家好,我是李老师。 过去 5 年在互联网大厂做 AI 落地时,我见过不少 “技术大牛”—— 有人能把自然语言处理模型调得比行业均值精准 10%,有人能在风控系统里挖出别人看不到的漏洞,可他们偏偏卡在了 “说话” 上:给业务方讲方案,讲了半小时对方还没明白 “这能解决什么问题”;跟领导汇报进度,说了 阅读全文

posted @ 2025-10-18 20:10 limingqi 阅读(28) 评论(0) 推荐(0)

2025年10月17日

踏进 AI 世界--《零基础 Python 公开课》

摘要: 我在知名研究院做 AI 算法,这节能帮你踏进 AI 世界的课,很想送给你 大家好,我是李老师。 过去 5 年,我在互联网大厂扎进 AI 落地的一线战场。从让机器 “读懂” 人类语言的自然语言处理,到帮平台精准匹配需求的搜索广告,再到守护行业安全的风控系统,我亲手把这些技术敲进代码、落到实处 —— 它 阅读全文

posted @ 2025-10-17 20:58 limingqi 阅读(16) 评论(0) 推荐(0)

2025年10月11日

靶向培养 AIGC 复合型人才:硕士生个性化能力成长与职业适配方案

摘要: 一、培养目标 面向 AIGC 产业对 “技术研发 + 场景落地 + 伦理合规” 复合型人才的需求,培养具备以下核心能力的硕士生: 技术能力:掌握 AIGC 基础理论(生成模型原理、多模态融合等),具备 AIGC 模型开发(如大语言模型微调、扩散模型优化)、工程部署(模型压缩、推理加速)的实操能力; 阅读全文

posted @ 2025-10-11 11:01 limingqi 阅读(78) 评论(0) 推荐(0)

2025年9月11日

verl中的RL训练过程中评估指标

摘要: 在 Verl 框架的 RL 训练中,评估训练过程与结尾的核心指标需围绕 “训练稳定性”“策略收敛性”“任务效果”“资源效率” 四大维度展开,结合框架内置的日志、TensorBoard 监控及自定义验证逻辑实现。以下是具体的评估方法、关键指标解读及操作步骤: 一、核心评估维度与关键指标(过程 + 结尾 阅读全文

posted @ 2025-09-11 16:30 limingqi 阅读(247) 评论(0) 推荐(0)

2025年9月10日

Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering? 论文复现

摘要: 要复现 “Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering?” (以下简称 “GRPO - 泰国法律 QA 论文”),需围绕 “泰国法律 QA 任务特性” 与 “GRP 阅读全文

posted @ 2025-09-10 11:20 limingqi 阅读(10) 评论(0) 推荐(0)

2025年9月4日

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

摘要: 1. 一段话总结 为填补深度研究智能体(DRA)评估的空白,研究团队提出DeepResearch Bench基准,包含 100 个博士级研究任务(覆盖 22 个领域,50 中文 + 50 英文),基于 96,147 条真实用户查询统计设计;同时提出RACE(参考驱动的自适应标准评估框架)和FACT( 阅读全文

posted @ 2025-09-04 11:48 limingqi 阅读(88) 评论(0) 推荐(0)

2025年9月3日

verl中RL训练中需要关注那些训练指标

摘要: 在 VERL(可能是指基于强化学习的视觉 - 语言或多模态任务训练框架)的 RL 训练中,需要关注的核心指标可分为训练过程指标和任务性能指标两类。结合你提供的日志信息(包含policy_loss、kl_loss、reward等),具体说明如下: 一、核心训练过程指标(从日志中可见) 策略损失(pol 阅读全文

posted @ 2025-09-03 18:14 limingqi 阅读(124) 评论(0) 推荐(0)

2025年9月2日

强化学习基础知识

摘要: 强化学习的理解:https://www.bilibili.com/video/BV1Tg94Y8Eoq?spm_id_from=333.788.videopod.sections 阅读全文

posted @ 2025-09-02 17:52 limingqi 阅读(9) 评论(0) 推荐(0)

1 2 3 4 5 ··· 15 下一页

导航