Fork me on GitHub
摘要: 原文链接:https://arxiv.org/pdf/2602.03587 这篇文档核心是提出了一个叫“CL-bench”的评估基准,专门测试大语言模型的“语境学习能力”——简单说就是模型能不能从新给的复杂信息里学知识,再用这些知识解决实际问题。 为什么要做这个基准? 现在的大语言模型(比如GPT、 阅读全文
posted @ 2026-02-05 10:58 stardsd 阅读(205) 评论(0) 推荐(0)