2026 年 1月 7 日随笔档案 - 遇健李的幸运

2026年1月7日

摘要：本文约 12000 字，⏱️ 阅读时间：约 25 分钟 🏷️ 关键词：RLHF、PPO、大模型幻觉、Text-to-SQL、工程实战。 👋 给新读者的话：如果你对"强化学习""PPO"这些词有点陌生——别担心，这篇文章专门为你准备了「前置知识」章节，用5分钟讲懂核心概念，保证你能看懂80%的内阅读全文

posted @ 2026-01-07 21:17 遇健李的幸运阅读(7) 评论(0) 推荐(0)

Leon-Algo

公告