[置顶] 自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?

摘要: 自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(125) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要: POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解: 一、核心目标 让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相 阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(61) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(117) 评论(0) 推荐(0)

2026年3月9日

商道归心,连接方为底色

摘要: 人们总以为,商业的底色是利益,是数字的博弈,是资本的流转。可拨开喧嚣的表象,褪去功利的外衣才会发现:商业的本质,从来不是冰冷的交易,而是温暖的人与人的连接。 一笔生意的达成,从来不是单向的索取与给予,而是两颗心的呼应,是彼此的信任与成全。货架上的每一件商品,背后都藏着创作者的用心;每一次成交的瞬间, 阅读全文

posted @ 2026-03-09 11:36 limingqi 阅读(11) 评论(0) 推荐(0)

利益相契,方得久伴

摘要: 世人总偏爱歌颂纯粹的情谊,说“君子之交淡如水”,说“不谈利益才显真心”。可走过半生才懂,那些浮于表面的温情,终究抵不过岁月的风雨;那些没有利益支撑的关系,大多会在琐碎与疏离中,慢慢消散。 人和人之间,最稳定的连接,从来不是单纯的喜欢与欣赏,而是势均力敌的利益绑定。这份利益,从来不是世俗意义上的铜臭与 阅读全文

posted @ 2026-03-09 11:33 limingqi 阅读(4) 评论(0) 推荐(0)

选对同行人,比独自狂奔更重要

摘要: 能力,是你行走世间的底气; 而跟对人、做对事,是你少走弯路的运气。 很多时候,决定人生高度的, 不只是你有多努力、多优秀, 而是你站在谁的身边,走在怎样的路上。 跟对人,你会被格局托举, 被眼界照亮,被人品滋养。 他不消耗你,不打压你,不误导你, 而是带你看见更大的世界, 教你沉稳,教你坦荡,教你如 阅读全文

posted @ 2026-03-09 11:15 limingqi 阅读(6) 评论(0) 推荐(0)

个性从不是异类,是照亮世界的另一种光

摘要: 世人总教你收敛锋芒,教你合群、妥协、随波逐流, 教你藏起棱角,磨掉个性,活成人群里最安全的模样。 可你要知道,这个世界从来不是靠一模一样的人推动的。 那些被记住的名字,那些照亮时代的光, 从来不是最合群、最温顺、最没有声音的人, 而是敢于坚持自我、敢于与众不同、敢于说 “我就是我” 的人。 你的独特 阅读全文

posted @ 2026-03-09 11:12 limingqi 阅读(3) 评论(0) 推荐(0)

在单一世界里突围,做多元的自己

摘要: 像一株被春风偏爱树,既向着天光伸展枝叶,也在泥土深处扎根纹路。你不必把人生困在单一的赛道,生命的辽阔,本就藏在多元的热爱与探索里。 你可以是职场里严谨精进的行者,在代码的逻辑、技术的架构中搭建属于自己的壁垒;也可以是生活里温柔细腻的创作者,用指尖触碰琴键的旋律,用灵感勾勒画面的轮廓,用文字记录时光的 阅读全文

posted @ 2026-03-09 11:06 limingqi 阅读(6) 评论(0) 推荐(0)

不与他人争光芒,只与自己共成长

摘要: 不必站在别人的地图里,寻找自己的路。 不必盯着别人的花期,焦虑自己的绽放。 这世间本就没有统一的节奏, 有人年少成名,有人大器晚成, 有人偏爱热闹,有人安于清欢。 你不必追赶谁,不必模仿谁, 不必用别人的优秀,否定自己的微光。 真正的成长,从不是超越他人, 而是一点点,超越昨天的自己。 是心态更从容 阅读全文

posted @ 2026-03-09 10:57 limingqi 阅读(6) 评论(0) 推荐(0)

不必追光,你即是光

摘要: 世俗的成功,是世人约定的勋章;内心的丰盈,才是生命本来的模样。你可以去攀登,去奔赴,去拿属于你的荣光,但别让他人的标尺,丈量你一生的去向。 不必为了头衔低头,不必为了名利奔忙,不必在喧嚣里弄丢自己最初的向往。那些掌声与光环,终会散场;那些财富与名望,终会泛黄。唯有心底的热爱、眼底的坦荡、灵魂的安闲, 阅读全文

posted @ 2026-03-09 10:46 limingqi 阅读(13) 评论(0) 推荐(0)

2026年2月28日

年入百万|靠 8 个维度,把自己活成了一家公司

摘要: 不内耗、不躺平、不依附,我没有开挂人生,只搭建了一套终身盈利系统。 1️⃣ 专利费用 把专业变成无形资产。一次研发,长期授权,别人上班赚钱,我靠技术壁垒躺着赚钱。 2️⃣ 论文费用 不是为了虚名,是为了话语权。每一篇高质量发表,都是我身价上涨的硬通货。 3️⃣ 出书稿费 一本书,就是一张终身名片。版 阅读全文

posted @ 2026-02-28 13:38 limingqi 阅读(51) 评论(0) 推荐(0)

2026年2月6日

测试case数据分析

摘要: 结论: 当前的case问题主要分为三类: native_rag测试问题:检索不到相关内容占比较大73.6%,部分检索到占比15.7%,检索相关性差5.2%。 native_rag测试问题解决:使用agentic_rag 可以解决19个case native_rag VS agentic_rag时间分 阅读全文

posted @ 2026-02-06 16:49 limingqi 阅读(8) 评论(0) 推荐(0)

2026年2月5日

prompt

摘要: 你是色彩调配专家根据angle,L, A, B 的值预测base_color, base_ratio, sliver_name, sliver_ratio 的结果。根据参考示例的数据内容进行合理的预测 参考示例: base_color base_ratio sliver_name sliver_ra 阅读全文

posted @ 2026-02-05 23:18 limingqi 阅读(13) 评论(0) 推荐(0)

导航