1 2 3 4 5 ··· 19 下一页

[置顶] openclaw 思考

摘要: 一些建议 GUI or CLI 内部对龙虾的引入和使用,主要是 GUI的方式:绑定美信,安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。 外部公司已经趋向CLI:钉钉已经彻底 CLI 化了、一键接入OpenClaw,谷歌开源CLI狂揽15k Stars,智能体接管Works 阅读全文

posted @ 2026-04-10 11:36 limingqi 阅读(229) 评论(0) 推荐(0)

[置顶] 自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?

摘要: 自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(211) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要: POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解: 一、核心目标 让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相 阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(81) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(147) 评论(0) 推荐(0)

2026年5月18日

《AI Agent工程师面试指南》目录

摘要: 本书定位 面向已具备AI项目经验、正在准备AI Agent工程师技术面试的工程师。本书不从零讲授技术原理,而是以面试真题为线索,将读者已有的零散知识系统化,并精准补齐"知道但说不清"的面试盲区。核心目标:帮助读者在技术面试中做到"问得深、答得稳、追得住"。 第一部分 面试全景与求职准备 第1章 AI 阅读全文

posted @ 2026-05-18 10:29 limingqi 阅读(24) 评论(0) 推荐(0)

2026年5月7日

AI 测试面试经验大纲

摘要: 这份大纲覆盖面试全流程 + 核心模块 + 高频考点 + 避坑技巧,适配校招 / 社招,你可以直接照着准备,也能用来梳理简历、模拟面试。 一、面试前准备(地基必打牢) 1. 简历 & 项目梳理(核心加分项) 必须准备1-2 个完整的 AI 测试项目,按「业务背景→测试目标→方案设计→工具 / 方法→关 阅读全文

posted @ 2026-05-07 13:48 limingqi 阅读(34) 评论(0) 推荐(0)

2026年5月6日

毕业生就业难的根源:商业认知缺失,高校与学生的双重困境

摘要: 每年毕业季,“就业难”都会成为高频话题。本科生求职屡屡碰壁,硕士、博士陷入“高学历低就业”的尴尬,甚至不少AI专业的毕业生,手握扎实的技术功底,却迟迟找不到适配的高薪岗位,或入职后快速陷入职业瓶颈,难以突破薪资天花板。 很多人将这一现象归咎于“学历贬值”“就业市场饱和”,但深耕AI职业规划多年,我发 阅读全文

posted @ 2026-05-06 09:43 limingqi 阅读(28) 评论(0) 推荐(0)

2026年5月4日

面向复杂医疗场景的多模态具身智能体协同决策与可解释性研究--博士研究计划书

摘要: 申请人:[姓名]申请院校:北京理工大学研究方向:人工智能、具身智能、医疗 AI指导教师:[导师姓名]日期:2026 年 4 月 摘要 随着医疗系统复杂性的激增和人工智能技术的快速发展,如何在高风险医疗场景中构建安全、可信赖、可解释的智能决策支持系统成为研究热点。 本研究计划提出一种面向复杂医疗场景的 阅读全文

posted @ 2026-05-04 17:53 limingqi 阅读(29) 评论(0) 推荐(0)

2026年4月29日

如何搭建端到端 AI 团队(洪亮劼专栏总结)

摘要: 端到端 AI 团队的关键,不是简单堆砌研究员与工程师,而是搭建研究与产品的知识飞轮——让产品失败定义研究方向,让研究成果反哺产品迭代,靠“共同语言、共同目标、共同节奏”打破两者间的结构性鸿沟。 一、行业痛点:AI 研究院的普遍困境 过去十年,国内外头部企业(腾讯 AI Lab、百度大脑、Meta F 阅读全文

posted @ 2026-04-29 14:37 limingqi 阅读(23) 评论(0) 推荐(0)

2026年4月15日

WorldPM 偏好模型复现与企业场景落地

摘要: 项目定位:大模型对齐 → 奖励模型 (RM) 训练 → 工业级评测 → 企业数据应用 难度:中高级(适合有 Python/PyTorch/LLM 基础学生) 周期:4 周,每周 1 个模块,可直接作为课程 / 实训 / 比赛项目 一、项目总览 项目背景 大模型落地必须解决对齐人类偏好问题,奖励模型( 阅读全文

posted @ 2026-04-15 17:41 limingqi 阅读(25) 评论(0) 推荐(0)

2026年4月10日

大模型 & 智能体(Agent)求职与面试手册

摘要: 一、开篇:岗位认知(必写!小白必看) 大模型 / Agent 到底招什么样的人 产品岗 vs 算法岗 vs 应用岗 区别 通用底层能力 逻辑思维 沟通表达 学习迭代能力 问题解决能力 AI 专属底层能力 模型认知能力 提示工程思维 RAG 工程思维 工具调用思维 系统设计思维 工程落地能力 工程意识 阅读全文

posted @ 2026-04-10 18:10 limingqi 阅读(240) 评论(0) 推荐(0)

行业导师自媒体破局说明书(小红书版)

摘要: 一、认知篇(先把脑子统一) Q1:我为什么要做小红书?真的有用吗? 👉 一句话答案: 你不是在做自媒体,你是在做“求职入口”。 📌 本质逻辑: 学生找工作 → 一定会搜索 搜索 → 一定会看到内容 内容 → 决定他信谁 👉 谁占住内容,谁就拿到用户 📌 你要理解的是: 不是粉丝生意 是“搜索 阅读全文

posted @ 2026-04-10 10:23 limingqi 阅读(38) 评论(0) 推荐(0)

2026年3月31日

愿做一束光,照亮前路,温暖家国

摘要: 常常有人问我,一路走来,支撑自己不断前行、感到真正幸福的来源是什么。 于我而言,答案很朴素,也很坚定: 一是能为国家多缴纳税收,尽一份公民的责任; 二是能陪伴、培养一批又一批优秀的年轻人,看着他们从迷茫到清晰,从青涩到成熟,一步步走向更广阔的人生。 我始终相信,个人的价值,从来不只在于自己走得多高、 阅读全文

posted @ 2026-03-31 15:07 limingqi 阅读(29) 评论(0) 推荐(0)

1 2 3 4 5 ··· 19 下一页

导航