limingqi - 博客园

[置顶] openclaw 思考

摘要：一些建议 GUI or CLI 内部对龙虾的引入和使用，主要是 GUI的方式：绑定美信，安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。外部公司已经趋向CLI：钉钉已经彻底 CLI 化了、一键接入OpenClaw，谷歌开源CLI狂揽15k Stars，智能体接管Works 阅读全文

posted @ 2026-04-10 11:36 limingqi 阅读(215) 评论(0) 推荐(0)

[置顶] 自我博弈偏好优化（Self-Play Preference Optimization，SPO）能否奖励模型？

摘要：自我博弈偏好优化（Self-Play Preference Optimization, SPO）是一种通过自我博弈机制直接优化策略的方法，其核心特点是无需显式奖励模型，也不依赖对抗性训练。从技术本质来看，SPO 确实在特定场景下取代了奖励模型，但这一取代并非绝对，而是取决于任务类型和优化目标。以下从阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(197) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要： POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分，结合具体例子会更易理解：一、核心目标让奖励模型（RM）像 “策略侦探” 一样，学会判断两条轨迹（模型输出）是否来自同一个 “政策”（即同一个模型或相似行为模式的模型）。如果来自同一政策，就给它们更高的 “相阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(79) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要：一、研究背景强化学习（RL）在大型语言模型（LLMs）的训练中至关重要，其成功取决于奖励模型（RM）提供精确稳定反馈的能力。传统奖励模型依赖标注的偏好对训练，存在可扩展性和泛化性问题，前者受限于获取大量高质量标注对的难度，后者因建模人类偏好的主观性易受奖励攻击。规则基验证器虽能提供准确奖励信号阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(142) 评论(0) 推荐(0)

毕业生就业难的根源：商业认知缺失，高校与学生的双重困境

摘要：每年毕业季，“就业难”都会成为高频话题。本科生求职屡屡碰壁，硕士、博士陷入“高学历低就业”的尴尬，甚至不少AI专业的毕业生，手握扎实的技术功底，却迟迟找不到适配的高薪岗位，或入职后快速陷入职业瓶颈，难以突破薪资天花板。很多人将这一现象归咎于“学历贬值”“就业市场饱和”，但深耕AI职业规划多年，我发阅读全文

posted @ 2026-05-06 09:43 limingqi 阅读(16) 评论(0) 推荐(0)

面向复杂医疗场景的多模态具身智能体协同决策与可解释性研究--博士研究计划书

摘要：申请人：[姓名]申请院校：北京理工大学研究方向：人工智能、具身智能、医疗 AI指导教师：[导师姓名]日期：2026 年 4 月摘要随着医疗系统复杂性的激增和人工智能技术的快速发展，如何在高风险医疗场景中构建安全、可信赖、可解释的智能决策支持系统成为研究热点。本研究计划提出一种面向复杂医疗场景的阅读全文

posted @ 2026-05-04 17:53 limingqi 阅读(11) 评论(0) 推荐(0)

如何搭建端到端 AI 团队（洪亮劼专栏总结）

摘要：端到端 AI 团队的关键，不是简单堆砌研究员与工程师，而是搭建研究与产品的知识飞轮——让产品失败定义研究方向，让研究成果反哺产品迭代，靠“共同语言、共同目标、共同节奏”打破两者间的结构性鸿沟。一、行业痛点：AI 研究院的普遍困境过去十年，国内外头部企业（腾讯 AI Lab、百度大脑、Meta F 阅读全文

posted @ 2026-04-29 14:37 limingqi 阅读(16) 评论(0) 推荐(0)

WorldPM 偏好模型复现与企业场景落地

摘要：项目定位：大模型对齐 → 奖励模型 (RM) 训练 → 工业级评测 → 企业数据应用难度：中高级（适合有 Python/PyTorch/LLM 基础学生）周期：4 周，每周 1 个模块，可直接作为课程 / 实训 / 比赛项目一、项目总览项目背景大模型落地必须解决对齐人类偏好问题，奖励模型（阅读全文

posted @ 2026-04-15 17:41 limingqi 阅读(19) 评论(0) 推荐(0)

大模型 & 智能体（Agent）求职与面试手册

摘要：一、开篇：岗位认知（必写！小白必看）大模型 / Agent 到底招什么样的人产品岗 vs 算法岗 vs 应用岗区别通用底层能力逻辑思维沟通表达学习迭代能力问题解决能力 AI 专属底层能力模型认知能力提示工程思维 RAG 工程思维工具调用思维系统设计思维工程落地能力工程意识阅读全文

posted @ 2026-04-10 18:10 limingqi 阅读(153) 评论(0) 推荐(0)

行业导师自媒体破局说明书（小红书版）

摘要：一、认知篇（先把脑子统一） Q1：我为什么要做小红书？真的有用吗？ 👉 一句话答案：你不是在做自媒体，你是在做“求职入口”。 📌 本质逻辑：学生找工作 → 一定会搜索搜索 → 一定会看到内容内容 → 决定他信谁 👉 谁占住内容，谁就拿到用户 📌 你要理解的是：不是粉丝生意是“搜索阅读全文

posted @ 2026-04-10 10:23 limingqi 阅读(27) 评论(0) 推荐(0)

愿做一束光，照亮前路，温暖家国

摘要：常常有人问我，一路走来，支撑自己不断前行、感到真正幸福的来源是什么。于我而言，答案很朴素，也很坚定：一是能为国家多缴纳税收，尽一份公民的责任；二是能陪伴、培养一批又一批优秀的年轻人，看着他们从迷茫到清晰，从青涩到成熟，一步步走向更广阔的人生。我始终相信，个人的价值，从来不只在于自己走得多高、阅读全文

posted @ 2026-03-31 15:07 limingqi 阅读(24) 评论(0) 推荐(0)

用 AI 思维管理生活：把日子过成 “高可用架构”，拒绝内耗与混乱

摘要：你有没有过这种时刻：电脑里的文件乱到找不到，待办事项堆成山却不知道先做哪件，学了一堆技能却总在 “半途而废”，明明没怎么休息却总觉得身心俱疲？其实我们的生活，和你熟悉的 AI 系统、代码架构本质上是一回事 ——都是 “输入 - 处理 - 输出” 的闭环。与其被生活推着走，不如用 AI 的逻辑重构生阅读全文

posted @ 2026-03-30 11:04 limingqi 阅读(48) 评论(0) 推荐(0)

新书上线｜从零玩转智能体，靠OpenClaw思路打造专属AI助手，解放你的双手

摘要：大家好，今天想和大家分享一个我筹备了很久的好消息——我的新书《玩转智能体打造个性化AI》正式上线了！写这本书的初衷，源于身边太多朋友的困惑：看着AI智能体火遍全网，想上手却无从下手，要么被复杂的理论吓退，要么学了Prompt却不知道怎么落地，更不知道如何打造真正适配自己工作、学习的专属AI助手。阅读全文

posted @ 2026-03-27 14:06 limingqi 阅读(44) 评论(0) 推荐(0)