2025 年 10月 27 日随笔档案 - piggy侠

2025年10月27日

微软+清北联合突破：Reinforcement Pre-Training正在改写大模型训练规则

摘要：原文:https://mp.weixin.qq.com/s/3IuCBezsMVaSn8MnbmqwVQ 全文摘要该研究里提出了强化预训练（RPT），它是大语言模型和强化学习（RL）的一种全新扩展范式。简单说，就是把 “预测下一个 token” 改成了用强化学习训练的推理任务 —— 模型根据给定上阅读全文

posted @ 2025-10-27 09:29 piggy侠阅读(33) 评论(0) 推荐(0)

【GitHub每日速递 251027】14.3k star! 告别AI开发痛点！Parlant让大模型指令遵循不再是难题

摘要：原文:https://mp.weixin.qq.com/s/KjAS4gDjAzWtmHkBLoo64Q 告别AI开发痛点！Parlant让大模型指令遵循不再是难题 parlant 是一个专注于控制能力的LLM代理工具。简单讲，它让大语言模型像智能助手一样执行实际任务，快速部署到真实场景中。适用人群阅读全文

posted @ 2025-10-27 08:00 piggy侠阅读(140) 评论(0) 推荐(0)

piggy侠的技术博客

公#众~号: AI Tech研习社

公告