1 2 3 4 5 ··· 18 下一页

[置顶] 自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?

摘要: 自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(170) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要: POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解: 一、核心目标 让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相 阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(62) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(119) 评论(0) 推荐(0)

2026年3月18日

生成企业级代码架构的 Prompt 指南

摘要: 根据你当前的项目,这个架构的优秀之处在于: 1. 清晰的分层设计 - 应用层、业务层、基础层职责明确2. 插件化架构 - 支持动态扩展,依赖管理完善3. 标准化接口 - 同时支持 REST API 和 MCP 协议4. 类型安全 - 全面使用 Pydantic 和 Type Hints5. 事件驱动 阅读全文

posted @ 2026-03-18 16:11 limingqi 阅读(3) 评论(0) 推荐(0)

简单工厂模式 python

摘要: 一、核心模式:工厂模式(Factory Pattern)+ 注册表模式(Registry Pattern) 这段代码是简单工厂模式(Simple Factory)的典型实现,同时结合了「注册表模式(Registry Pattern)」(也叫注册器模式),属于设计模式中「创建型模式」的组合应用,核心目 阅读全文

posted @ 2026-03-18 15:40 limingqi 阅读(4) 评论(0) 推荐(0)

发布 - 订阅模式 python

摘要: 一、核心模式:发布 - 订阅模式(Publish-Subscribe Pattern) 这段代码是发布 - 订阅模式(Pub/Sub)(也常被称为「观察者模式」的变种)的典型实现,属于设计模式中「行为型模式」,核心是解耦「事件发布者」和「事件订阅者」—— 发布者(EventBus)只负责触发事件,无 阅读全文

posted @ 2026-03-18 15:25 limingqi 阅读(3) 评论(0) 推荐(0)

依赖注入模式 python

摘要: 一、核心设计模式:依赖注入模式(Dependency Injection, DI) 这段代码的核心是依赖注入模式(属于控制反转 IoC 的一种实现方式),同时结合了「插件模式(Plugin Pattern)」的基础框架,是工业级插件化系统中最常用的设计组合。 1. 先明确核心模式的定义 依赖注入(D 阅读全文

posted @ 2026-03-18 13:54 limingqi 阅读(1) 评论(0) 推荐(0)

单例模式 python实现

摘要: 一、代码核心模式:单例模式(Singleton Pattern) 这段代码实现的是单例模式(更具体地说,是「懒汉式单例模式」),这是设计模式中最常用的创建型模式之一。 1. 单例模式的核心定义 单例模式的核心目标是保证一个类在整个程序生命周期中只有一个实例对象,并提供一个全局唯一的访问入口。简单来说 阅读全文

posted @ 2026-03-18 13:49 limingqi 阅读(1) 评论(0) 推荐(0)

架构设计的思维过程

摘要: 高质量的架构 - 插件 + 依赖注入 = 高内聚低耦合- 观察者模式 = 松耦合的通知机制- 单例 + 注册中心 = 全局状态管理- 策略 + 装饰器 = 灵活的功能扩展- 门面 + 代理 = 简化复杂系统 # KSP Env 架构设计思维过程 ## 🎯 架构设计的思维过程 ### 1️⃣ **从 阅读全文

posted @ 2026-03-18 10:57 limingqi 阅读(1) 评论(0) 推荐(0)

2026年3月9日

商道归心,连接方为底色

摘要: 人们总以为,商业的底色是利益,是数字的博弈,是资本的流转。可拨开喧嚣的表象,褪去功利的外衣才会发现:商业的本质,从来不是冰冷的交易,而是温暖的人与人的连接。 一笔生意的达成,从来不是单向的索取与给予,而是两颗心的呼应,是彼此的信任与成全。货架上的每一件商品,背后都藏着创作者的用心;每一次成交的瞬间, 阅读全文

posted @ 2026-03-09 11:36 limingqi 阅读(16) 评论(0) 推荐(0)

利益相契,方得久伴

摘要: 世人总偏爱歌颂纯粹的情谊,说“君子之交淡如水”,说“不谈利益才显真心”。可走过半生才懂,那些浮于表面的温情,终究抵不过岁月的风雨;那些没有利益支撑的关系,大多会在琐碎与疏离中,慢慢消散。 人和人之间,最稳定的连接,从来不是单纯的喜欢与欣赏,而是势均力敌的利益绑定。这份利益,从来不是世俗意义上的铜臭与 阅读全文

posted @ 2026-03-09 11:33 limingqi 阅读(10) 评论(0) 推荐(0)

选对同行人,比独自狂奔更重要

摘要: 能力,是你行走世间的底气; 而跟对人、做对事,是你少走弯路的运气。 很多时候,决定人生高度的, 不只是你有多努力、多优秀, 而是你站在谁的身边,走在怎样的路上。 跟对人,你会被格局托举, 被眼界照亮,被人品滋养。 他不消耗你,不打压你,不误导你, 而是带你看见更大的世界, 教你沉稳,教你坦荡,教你如 阅读全文

posted @ 2026-03-09 11:15 limingqi 阅读(11) 评论(0) 推荐(0)

个性从不是异类,是照亮世界的另一种光

摘要: 世人总教你收敛锋芒,教你合群、妥协、随波逐流, 教你藏起棱角,磨掉个性,活成人群里最安全的模样。 可你要知道,这个世界从来不是靠一模一样的人推动的。 那些被记住的名字,那些照亮时代的光, 从来不是最合群、最温顺、最没有声音的人, 而是敢于坚持自我、敢于与众不同、敢于说 “我就是我” 的人。 你的独特 阅读全文

posted @ 2026-03-09 11:12 limingqi 阅读(5) 评论(0) 推荐(0)

1 2 3 4 5 ··· 18 下一页

导航