10.10
LLM在长上下文RAG中的不同失败模式
为评估生成模型在处理长上下文长度时的失败模式,我们对OpenAI的o1和Gemini 1.5 Pro进行了分析,使用了与我们之前博文相同的方法(https://www.databricks.com/blog/long-context-rag-performance-llms)。我们提取了各个模型在不同上下文长度下的回答,并手动检查了多个样本,基于观察结果定义了以下广泛的失误类别:
重复内容(repeated_content):当模型的回答完全由重复的(无意义的)单词或字符组成。
随机内容(random_content):当模型生成的回答完全随机,与上下文无关,或者没有逻辑性或语法合理性。
未遵循指令(fail_follow_inst):当模型未理解指令的意图或未遵循问题中指定的指令。例如,当指令要求基于上下文回答问题时,模型却尝试总结上下文。
空响应(empty_resp):生成的回答为空
错误答案(wrong_answer):当模型尝试遵循指令,但给出的回答错误。
其他(others): 失误不属于上述列出的任何类别。

浙公网安备 33010602011771号