1 2 3 4 5 ··· 15 下一页

[置顶] 自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?

摘要: 自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(94) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要: POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解: 一、核心目标 让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相 阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(55) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(97) 评论(0) 推荐(0)

2026年1月15日

多轮对话评估方法

摘要: MT-Bench-101 通过「三级能力分层 + 任务专属标准 + 精准评估机制」实现多轮对话的细粒度评估,核心逻辑是 “从能力到任务、从轮次到整体” 层层拆解,每个环节都有明确的评估维度和打分规则,具体实现方式如下: 一、第一步:按 “三级能力体系” 拆解评估维度(先定 “评估什么”) 细粒度的核 阅读全文

posted @ 2026-01-15 17:23 limingqi 阅读(4) 评论(0) 推荐(0)

AI 智能体实战:意图识别提升之道

摘要: 概述 我们在构建AI智能体的过程中,意图识别和槽位抽取是自然语言理解(NLU)的两个关键部分,会直接影响智能体的交互质量和用户体验。 意图识别(Intent Detection)的核心作用在于准确判断用户的语义目的。系统能将用户输入映射到预定义的意图类别(如"查询天气"、"预订餐厅"),这一步骤决定 阅读全文

posted @ 2026-01-15 09:45 limingqi 阅读(11) 评论(0) 推荐(0)

2026年1月14日

大模型&智能体分享大纲

摘要: 课程总览 · 时长:40小时(含10小时实践项目)目标:掌握大模型全生命周期开发能力,具备独立优化和部署行业模型的能力 大模型篇 模块1:模型原理(5小时) 目标:掌握模型的基础原理更好的理解内容 1. Attention讲解(1h) 2. Self—Attention代码实现讲解(1h) 3. T 阅读全文

posted @ 2026-01-14 10:42 limingqi 阅读(7) 评论(0) 推荐(0)

2025年12月24日

归心于研:五年百度后的人生转向

摘要: 2020 年硕士毕业,我入职百度,一晃便是整整五年。这五年,是飞速成长的五年,也是见证行业浪潮、完成自我蜕变的五年。在百度的日子里,我见过太多熠熠生辉的人。清北出身的同事随处可见,身为浙大学子,有时也会在这样的群英荟萃中生出几分 “逊色感”。更令人感慨的是,身边不少人三十岁就实现了年薪百万,甚至有人 阅读全文

posted @ 2025-12-24 14:01 limingqi 阅读(1439) 评论(6) 推荐(22)

2025年10月24日

计算机硕士AIGC方向科研规划

摘要: 第一阶段:基础能力与交叉知识储备(第 1-6 个月) 核心目标 掌握大模型压缩与智能体的核心理论、工具链; 完成 2-3 个小实验,建立对领域痛点的直观认知; 确定具体研究方向(如压缩算法在智能体中的适配性、智能体任务驱动的动态压缩等)。 具体任务 模块 学习内容与实践要求 输出成果 大模型压缩基础 阅读全文

posted @ 2025-10-24 15:28 limingqi 阅读(148) 评论(0) 推荐(1)

计算机硕士AIGC方向学习内容规划

摘要: 大模型学习: 类型 学习主题 时间 学习内容 免费学习地址 基础篇 数据理解 2周 数据处理,理解,可视化(为了发论文做准备,关注可视化的python工具) https://www.sanjieke.cn/course/detail/sjk/8007473?utm_source=sjk&utm_me 阅读全文

posted @ 2025-10-24 15:24 limingqi 阅读(52) 评论(0) 推荐(0)

2025年10月22日

计算机专利申请成功的核心关键

摘要: 计算机专利申请成功的核心关键是同时满足“三性”要求(新颖性、创造性、实用性) ,并通过清晰的技术方案撰写,让审查员理解发明的技术贡献。 一、核心前提:严格满足专利“三性” 1. 新颖性:确保发明在申请日之前,未在任何公开渠道(论文、专利、产品、会议等)出现过。- 关键动作:申请前必须做全面的专利和文 阅读全文

posted @ 2025-10-22 23:00 limingqi 阅读(52) 评论(0) 推荐(0)

计算机专利申请交底书核心写作技巧

摘要: 1. 核心原则:以“技术方案”为中心,说清“问题-方案-效果” - 避免仅描述功能或软件界面,必须拆解为可实现的技术步骤/硬件逻辑,例如将“实现数据加密”细化为“采用AES算法对传输数据包进行分块加密+RSA算法对密钥加密”。- 问题要具体:不说“现有系统效率低”,而说“现有系统处理10万条数据需1 阅读全文

posted @ 2025-10-22 23:00 limingqi 阅读(73) 评论(0) 推荐(0)

2025年10月18日

我做 AI 算法 8 年,见过最可惜的事:技术再牛,说不明白也是白搭

摘要: 大家好,我是李老师。 过去 5 年在互联网大厂做 AI 落地时,我见过不少 “技术大牛”—— 有人能把自然语言处理模型调得比行业均值精准 10%,有人能在风控系统里挖出别人看不到的漏洞,可他们偏偏卡在了 “说话” 上:给业务方讲方案,讲了半小时对方还没明白 “这能解决什么问题”;跟领导汇报进度,说了 阅读全文

posted @ 2025-10-18 20:10 limingqi 阅读(95) 评论(0) 推荐(0)

2025年10月17日

踏进 AI 世界--《零基础 Python 公开课》

摘要: 我在知名研究院做 AI 算法,这节能帮你踏进 AI 世界的课,很想送给你 大家好,我是李老师。 过去 5 年,我在互联网大厂扎进 AI 落地的一线战场。从让机器 “读懂” 人类语言的自然语言处理,到帮平台精准匹配需求的搜索广告,再到守护行业安全的风控系统,我亲手把这些技术敲进代码、落到实处 —— 它 阅读全文

posted @ 2025-10-17 20:58 limingqi 阅读(57) 评论(0) 推荐(0)

1 2 3 4 5 ··· 15 下一页

导航