[置顶] openclaw 思考

摘要: 一些建议 GUI or CLI 内部对龙虾的引入和使用,主要是 GUI的方式:绑定美信,安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。 外部公司已经趋向CLI:钉钉已经彻底 CLI 化了、一键接入OpenClaw,谷歌开源CLI狂揽15k Stars,智能体接管Works 阅读全文

posted @ 2026-04-10 11:36 limingqi 阅读(215) 评论(0) 推荐(0)

[置顶] 自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?

摘要: 自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(197) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要: POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解: 一、核心目标 让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相 阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(79) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(142) 评论(0) 推荐(0)

2026年5月6日

毕业生就业难的根源:商业认知缺失,高校与学生的双重困境

摘要: 每年毕业季,“就业难”都会成为高频话题。本科生求职屡屡碰壁,硕士、博士陷入“高学历低就业”的尴尬,甚至不少AI专业的毕业生,手握扎实的技术功底,却迟迟找不到适配的高薪岗位,或入职后快速陷入职业瓶颈,难以突破薪资天花板。 很多人将这一现象归咎于“学历贬值”“就业市场饱和”,但深耕AI职业规划多年,我发 阅读全文

posted @ 2026-05-06 09:43 limingqi 阅读(16) 评论(0) 推荐(0)

2026年5月4日

面向复杂医疗场景的多模态具身智能体协同决策与可解释性研究--博士研究计划书

摘要: 申请人:[姓名]申请院校:北京理工大学研究方向:人工智能、具身智能、医疗 AI指导教师:[导师姓名]日期:2026 年 4 月 摘要 随着医疗系统复杂性的激增和人工智能技术的快速发展,如何在高风险医疗场景中构建安全、可信赖、可解释的智能决策支持系统成为研究热点。 本研究计划提出一种面向复杂医疗场景的 阅读全文

posted @ 2026-05-04 17:53 limingqi 阅读(11) 评论(0) 推荐(0)

2026年4月29日

如何搭建端到端 AI 团队(洪亮劼专栏总结)

摘要: 端到端 AI 团队的关键,不是简单堆砌研究员与工程师,而是搭建研究与产品的知识飞轮——让产品失败定义研究方向,让研究成果反哺产品迭代,靠“共同语言、共同目标、共同节奏”打破两者间的结构性鸿沟。 一、行业痛点:AI 研究院的普遍困境 过去十年,国内外头部企业(腾讯 AI Lab、百度大脑、Meta F 阅读全文

posted @ 2026-04-29 14:37 limingqi 阅读(16) 评论(0) 推荐(0)

2026年4月15日

WorldPM 偏好模型复现与企业场景落地

摘要: 项目定位:大模型对齐 → 奖励模型 (RM) 训练 → 工业级评测 → 企业数据应用 难度:中高级(适合有 Python/PyTorch/LLM 基础学生) 周期:4 周,每周 1 个模块,可直接作为课程 / 实训 / 比赛项目 一、项目总览 项目背景 大模型落地必须解决对齐人类偏好问题,奖励模型( 阅读全文

posted @ 2026-04-15 17:41 limingqi 阅读(19) 评论(0) 推荐(0)

2026年4月10日

大模型 & 智能体(Agent)求职与面试手册

摘要: 一、开篇:岗位认知(必写!小白必看) 大模型 / Agent 到底招什么样的人 产品岗 vs 算法岗 vs 应用岗 区别 通用底层能力 逻辑思维 沟通表达 学习迭代能力 问题解决能力 AI 专属底层能力 模型认知能力 提示工程思维 RAG 工程思维 工具调用思维 系统设计思维 工程落地能力 工程意识 阅读全文

posted @ 2026-04-10 18:10 limingqi 阅读(153) 评论(0) 推荐(0)

行业导师自媒体破局说明书(小红书版)

摘要: 一、认知篇(先把脑子统一) Q1:我为什么要做小红书?真的有用吗? 👉 一句话答案: 你不是在做自媒体,你是在做“求职入口”。 📌 本质逻辑: 学生找工作 → 一定会搜索 搜索 → 一定会看到内容 内容 → 决定他信谁 👉 谁占住内容,谁就拿到用户 📌 你要理解的是: 不是粉丝生意 是“搜索 阅读全文

posted @ 2026-04-10 10:23 limingqi 阅读(27) 评论(0) 推荐(0)

2026年3月31日

愿做一束光,照亮前路,温暖家国

摘要: 常常有人问我,一路走来,支撑自己不断前行、感到真正幸福的来源是什么。 于我而言,答案很朴素,也很坚定: 一是能为国家多缴纳税收,尽一份公民的责任; 二是能陪伴、培养一批又一批优秀的年轻人,看着他们从迷茫到清晰,从青涩到成熟,一步步走向更广阔的人生。 我始终相信,个人的价值,从来不只在于自己走得多高、 阅读全文

posted @ 2026-03-31 15:07 limingqi 阅读(24) 评论(0) 推荐(0)

2026年3月30日

用 AI 思维管理生活:把日子过成 “高可用架构”,拒绝内耗与混乱

摘要: 你有没有过这种时刻:电脑里的文件乱到找不到,待办事项堆成山却不知道先做哪件,学了一堆技能却总在 “半途而废”,明明没怎么休息却总觉得身心俱疲? 其实我们的生活,和你熟悉的 AI 系统、代码架构本质上是一回事 ——都是 “输入 - 处理 - 输出” 的闭环。与其被生活推着走,不如用 AI 的逻辑重构生 阅读全文

posted @ 2026-03-30 11:04 limingqi 阅读(48) 评论(0) 推荐(0)

2026年3月27日

新书上线|从零玩转智能体,靠OpenClaw思路打造专属AI助手,解放你的双手

摘要: 大家好,今天想和大家分享一个我筹备了很久的好消息——我的新书《玩转智能体 打造个性化AI》正式上线了! 写这本书的初衷,源于身边太多朋友的困惑:看着AI智能体火遍全网,想上手却无从下手,要么被复杂的理论吓退,要么学了Prompt却不知道怎么落地,更不知道如何打造真正适配自己工作、学习的专属AI助手。 阅读全文

posted @ 2026-03-27 14:06 limingqi 阅读(44) 评论(0) 推荐(0)

导航