10.11

虽然OpenAI的o1-preview和o1-mini在我们的基准测试中排名靠前，但我们仍然注意到一些由于上下文长度导致的独特失败例子。由于o1模型中推理步骤的词元长度难以预测，当提示内容因中间的“推理”步骤而增长时，OpenAI并不会直接使请求失败，而是返回一个空字符串的响应。

o1模型在NQ上的行为变化

尽管在Databricks DocsQA和FinanceBench数据集上的表现有所提升，我们观察到o1-preview和o1-mini模型在NQ数据集的短篇幅上下文情境中的性能下降。在短篇幅上下文情境中，如果检索到的文档中没有相关信息，o1模型更可能简单地回答“信息不可用”（我们的提示内容中包含了一个指令：“如果没有相关段落，请使用你的知识回答问题”）。