langfuse-LLM 模版评估选择


这是 Langfuse Evaluators 的核心使用问题。这些评估项并不是“越多越好”,而是要与当前 Agent / RAG 所解决的业务问题强绑定。下面我给你一个可落地的选择方法论,以及不同场景下的推荐组合


一、先理解两类 Evaluator(非常关键)

你图里其实分成了 两大类

① 通用质量评估(红色循环箭头)

不需要标准答案(Reference-free)

  • Conciseness
  • Helpfulness
  • Relevance
  • Correctness(偏语义合理性,不是事实校验)
  • Hallucination
  • Toxicity
  • ContextCorrectness / ContextRelevance

适合:

  • 在线真实对话
  • 客服 / 助手 / Agent 行为评估
  • 没有“标准答案”的场景

② 需要参考答案的评估(黄色三角)

需要你提供 Ground Truth / Reference

  • Answer Correctness
  • Answer Relevance
  • Answer Critic
  • Context Precision
  • Context Recall

适合:

  • 离线评测集
  • 回归测试
  • RAG / QA 系统精度评估

二、不要“全选”,推荐用「评估目标 → 反推指标」

下面我直接给你 4 个最常见业务场景的标准选法


场景 1:📞 智能客服 / 对话 Agent(最常见)

目标

  • 是否真的帮用户解决问题
  • 是否胡说八道
  • 是否答非所问

✅ 推荐选择

Helpfulness        ⭐⭐⭐⭐⭐(核心)
Relevance          ⭐⭐⭐⭐
Hallucination      ⭐⭐⭐⭐
Conciseness        ⭐⭐⭐
Toxicity           ⭐⭐(对外系统建议开)

❌ 不推荐

  • Answer Correctness(没有标准答案)
  • Context Recall / Precision(除非是 RAG)

👉 一句话总结

客服系统第一指标永远是 Helpfulness + Hallucination


场景 2:📚 RAG / 知识库问答(你很可能就在做这个)

目标

  • 是否只基于给定上下文回答
  • 有没有漏用 / 乱用知识
  • 有没有编造

✅ 强烈推荐(黄金组合)

Context Relevance      ⭐⭐⭐⭐⭐
Context Correctness    ⭐⭐⭐⭐
Hallucination          ⭐⭐⭐⭐
Answer Relevance       ⭐⭐⭐⭐(有 GT 时)
Context Precision      ⭐⭐⭐
Context Recall         ⭐⭐⭐

如果 有标准答案(评测集)

Answer Correctness     ⭐⭐⭐⭐⭐

👉 典型用途

  • 找「检索错了 / 没用到文档 / 用错文档」的 case
  • 做 Retriever / Chunk / Rerank 调优

场景 3:🤖 Tool / 多 Agent / LangGraph 流程

目标

  • 决策是否合理
  • 工具是否被正确使用
  • 最终输出是否对用户有价值

✅ 推荐

Helpfulness        ⭐⭐⭐⭐
Relevance          ⭐⭐⭐⭐
Correctness        ⭐⭐⭐
Conciseness        ⭐⭐

⚠️ Tool 误用更多要靠:

  • Trace 分析
  • 自定义 evaluator(Langfuse Python)

场景 4:🧪 离线评测 / 回归测试(CI 用)

目标

  • 模型 / Prompt / RAG 改动是否变差

✅ 推荐

Answer Correctness     ⭐⭐⭐⭐⭐
Answer Relevance       ⭐⭐⭐⭐
Answer Critic          ⭐⭐⭐
Context Recall         ⭐⭐⭐
Context Precision      ⭐⭐⭐

👉 这是唯一一个适合“黄色三角全开的场景”


三、一个“新手不踩坑”的最小配置

如果你现在不确定,直接用这个

🟢 对话 / Agent

Helpfulness
Relevance
Hallucination

🟢 RAG

Context Relevance
Hallucination
Answer Relevance(如果有 GT)

四、进阶建议(很重要,但很少人讲)

1️⃣ Evaluator ≠ KPI

  • 它是 发现失败样本的过滤器
  • 不是绝对分数裁判

2️⃣ 分数看趋势,不看单点

  • 同一 evaluator
  • 比较 Prompt A vs B / Retriever A vs B

3️⃣ 低分样本 → 人工 Review → 定向优化

你之前问过的:

Router 错路 / Tool 误用
👉 正确做法就是 Evaluator 先筛样本


五、如果你愿意,我可以继续帮你

你可以直接告诉我:

1️⃣ 这是 客服 / RAG / 多 Agent / Tool Agent
2️⃣ 是否 有标准答案数据
3️⃣ 评估是 线上监控 还是 离线对比

我可以直接给你:

  • Evaluator 选择清单
  • 阈值建议
  • 如何从低分 Trace 反推 Prompt / Retriever 改法

这一步选对了,Langfuse 才真正有价值。

posted @ 2025-12-19 19:17  向着朝阳  阅读(0)  评论(0)    收藏  举报