Fork me on GitHub
摘要: 在人工智能浪潮席卷全球、大模型竞争日趋白热化的当下,人类尤其需要理性思考。 在近日中欧国际工商学院与上海市工商业联合会共同主办的“工商联·经济大家讲坛暨第十一期中欧话未来”上,北京大学教授、中国计算机学会前理事长、中国科学院院士梅宏对当前人工智能热潮作了冷思考。 尽管以深度学习为代表的AI技术取得了 阅读全文
posted @ 2026-02-04 15:38 stardsd 阅读(65) 评论(0) 推荐(0)
摘要: 一、什么是“训-推误差”(Training-Inference Mismatch) 在强化学习(包括 RLHF、PPO、GRPO 等)用于大语言模型(LLM)微调时,会存在一个核心问题:模型在训练阶段与推理阶段使用的策略概率分布不完全一致。 核心描述 训练过程中通常包含两个不同的计算环节: Roll 阅读全文
posted @ 2026-02-04 10:12 stardsd 阅读(351) 评论(0) 推荐(0)