limingqi - 博客园

[置顶] openclaw 思考

摘要：一些建议 GUI or CLI 内部对龙虾的引入和使用，主要是 GUI的方式：绑定美信，安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。外部公司已经趋向CLI：钉钉已经彻底 CLI 化了、一键接入OpenClaw，谷歌开源CLI狂揽15k Stars，智能体接管Works 阅读全文

posted @ 2026-04-10 11:36 limingqi 阅读(229) 评论(0) 推荐(0)

[置顶] 自我博弈偏好优化（Self-Play Preference Optimization，SPO）能否奖励模型？

摘要：自我博弈偏好优化（Self-Play Preference Optimization, SPO）是一种通过自我博弈机制直接优化策略的方法，其核心特点是无需显式奖励模型，也不依赖对抗性训练。从技术本质来看，SPO 确实在特定场景下取代了奖励模型，但这一取代并非绝对，而是取决于任务类型和优化目标。以下从阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(211) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要： POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分，结合具体例子会更易理解：一、核心目标让奖励模型（RM）像 “策略侦探” 一样，学会判断两条轨迹（模型输出）是否来自同一个 “政策”（即同一个模型或相似行为模式的模型）。如果来自同一政策，就给它们更高的 “相阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(81) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要：一、研究背景强化学习（RL）在大型语言模型（LLMs）的训练中至关重要，其成功取决于奖励模型（RM）提供精确稳定反馈的能力。传统奖励模型依赖标注的偏好对训练，存在可扩展性和泛化性问题，前者受限于获取大量高质量标注对的难度，后者因建模人类偏好的主观性易受奖励攻击。规则基验证器虽能提供准确奖励信号阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(147) 评论(0) 推荐(0)

《AI Agent工程师面试指南》目录

摘要：本书定位面向已具备AI项目经验、正在准备AI Agent工程师技术面试的工程师。本书不从零讲授技术原理，而是以面试真题为线索，将读者已有的零散知识系统化，并精准补齐"知道但说不清"的面试盲区。核心目标：帮助读者在技术面试中做到"问得深、答得稳、追得住"。第一部分面试全景与求职准备第1章 AI 阅读全文

posted @ 2026-05-18 10:29 limingqi 阅读(24) 评论(0) 推荐(0)

AI 测试面试经验大纲

摘要：这份大纲覆盖面试全流程 + 核心模块 + 高频考点 + 避坑技巧，适配校招 / 社招，你可以直接照着准备，也能用来梳理简历、模拟面试。一、面试前准备（地基必打牢） 1. 简历 & 项目梳理（核心加分项）必须准备1-2 个完整的 AI 测试项目，按「业务背景→测试目标→方案设计→工具 / 方法→关阅读全文

posted @ 2026-05-07 13:48 limingqi 阅读(34) 评论(0) 推荐(0)

毕业生就业难的根源：商业认知缺失，高校与学生的双重困境

摘要：每年毕业季，“就业难”都会成为高频话题。本科生求职屡屡碰壁，硕士、博士陷入“高学历低就业”的尴尬，甚至不少AI专业的毕业生，手握扎实的技术功底，却迟迟找不到适配的高薪岗位，或入职后快速陷入职业瓶颈，难以突破薪资天花板。很多人将这一现象归咎于“学历贬值”“就业市场饱和”，但深耕AI职业规划多年，我发阅读全文

posted @ 2026-05-06 09:43 limingqi 阅读(28) 评论(0) 推荐(0)

面向复杂医疗场景的多模态具身智能体协同决策与可解释性研究--博士研究计划书

摘要：申请人：[姓名]申请院校：北京理工大学研究方向：人工智能、具身智能、医疗 AI指导教师：[导师姓名]日期：2026 年 4 月摘要随着医疗系统复杂性的激增和人工智能技术的快速发展，如何在高风险医疗场景中构建安全、可信赖、可解释的智能决策支持系统成为研究热点。本研究计划提出一种面向复杂医疗场景的阅读全文

posted @ 2026-05-04 17:53 limingqi 阅读(29) 评论(0) 推荐(0)

如何搭建端到端 AI 团队（洪亮劼专栏总结）

摘要：端到端 AI 团队的关键，不是简单堆砌研究员与工程师，而是搭建研究与产品的知识飞轮——让产品失败定义研究方向，让研究成果反哺产品迭代，靠“共同语言、共同目标、共同节奏”打破两者间的结构性鸿沟。一、行业痛点：AI 研究院的普遍困境过去十年，国内外头部企业（腾讯 AI Lab、百度大脑、Meta F 阅读全文

posted @ 2026-04-29 14:37 limingqi 阅读(23) 评论(0) 推荐(0)

WorldPM 偏好模型复现与企业场景落地

摘要：项目定位：大模型对齐 → 奖励模型 (RM) 训练 → 工业级评测 → 企业数据应用难度：中高级（适合有 Python/PyTorch/LLM 基础学生）周期：4 周，每周 1 个模块，可直接作为课程 / 实训 / 比赛项目一、项目总览项目背景大模型落地必须解决对齐人类偏好问题，奖励模型（阅读全文

posted @ 2026-04-15 17:41 limingqi 阅读(25) 评论(0) 推荐(0)

大模型 & 智能体（Agent）求职与面试手册

摘要：一、开篇：岗位认知（必写！小白必看）大模型 / Agent 到底招什么样的人产品岗 vs 算法岗 vs 应用岗区别通用底层能力逻辑思维沟通表达学习迭代能力问题解决能力 AI 专属底层能力模型认知能力提示工程思维 RAG 工程思维工具调用思维系统设计思维工程落地能力工程意识阅读全文

posted @ 2026-04-10 18:10 limingqi 阅读(240) 评论(0) 推荐(0)

行业导师自媒体破局说明书（小红书版）

摘要：一、认知篇（先把脑子统一） Q1：我为什么要做小红书？真的有用吗？ 👉 一句话答案：你不是在做自媒体，你是在做“求职入口”。 📌 本质逻辑：学生找工作 → 一定会搜索搜索 → 一定会看到内容内容 → 决定他信谁 👉 谁占住内容，谁就拿到用户 📌 你要理解的是：不是粉丝生意是“搜索阅读全文

posted @ 2026-04-10 10:23 limingqi 阅读(38) 评论(0) 推荐(0)

愿做一束光，照亮前路，温暖家国

摘要：常常有人问我，一路走来，支撑自己不断前行、感到真正幸福的来源是什么。于我而言，答案很朴素，也很坚定：一是能为国家多缴纳税收，尽一份公民的责任；二是能陪伴、培养一批又一批优秀的年轻人，看着他们从迷茫到清晰，从青涩到成熟，一步步走向更广阔的人生。我始终相信，个人的价值，从来不只在于自己走得多高、阅读全文

posted @ 2026-03-31 15:07 limingqi 阅读(29) 评论(0) 推荐(0)