langfuse-LLM 模版评估选择

一、先理解两类 Evaluator（非常关键）
- ① 通用质量评估（红色循环箭头）
- ② 需要参考答案的评估（黄色三角）
二、不要“全选”，推荐用「评估目标 → 反推指标」
场景 1：📞 智能客服 / 对话 Agent（最常见）
- ✅ 推荐选择
- ❌ 不推荐
场景 2：📚 RAG / 知识库问答（你很可能就在做这个）
- ✅ 强烈推荐（黄金组合）
- 如果 有标准答案（评测集）
场景 3：🤖 Tool / 多 Agent / LangGraph 流程
- ✅ 推荐
场景 4：🧪 离线评测 / 回归测试（CI 用）
- ✅ 推荐
三、一个“新手不踩坑”的最小配置
- 🟢 对话 / Agent
- 🟢 RAG
四、进阶建议（很重要，但很少人讲）
五、如果你愿意，我可以继续帮你

这是 Langfuse Evaluators 的核心使用问题。这些评估项并不是“越多越好”，而是要与当前 Agent / RAG 所解决的业务问题强绑定。下面我给你一个可落地的选择方法论，以及不同场景下的推荐组合。

一、先理解两类 Evaluator（非常关键）

你图里其实分成了 两大类：

① 通用质量评估（红色循环箭头）

不需要标准答案（Reference-free）

Conciseness
Helpfulness
Relevance
Correctness（偏语义合理性，不是事实校验）
Hallucination
Toxicity
ContextCorrectness / ContextRelevance

适合：

在线真实对话
客服 / 助手 / Agent 行为评估
没有“标准答案”的场景

② 需要参考答案的评估（黄色三角）

需要你提供 Ground Truth / Reference

Answer Correctness
Answer Relevance
Answer Critic
Context Precision
Context Recall

适合：

离线评测集
回归测试
RAG / QA 系统精度评估

二、不要“全选”，推荐用「评估目标 → 反推指标」

下面我直接给你 4 个最常见业务场景的标准选法。

场景 1：📞 智能客服 / 对话 Agent（最常见）

目标

是否真的帮用户解决问题
是否胡说八道
是否答非所问

✅ 推荐选择

Helpfulness        ⭐⭐⭐⭐⭐（核心）
Relevance          ⭐⭐⭐⭐
Hallucination      ⭐⭐⭐⭐
Conciseness        ⭐⭐⭐
Toxicity           ⭐⭐（对外系统建议开）

❌ 不推荐

Answer Correctness（没有标准答案）
Context Recall / Precision（除非是 RAG）

👉 一句话总结

客服系统第一指标永远是 Helpfulness + Hallucination

场景 2：📚 RAG / 知识库问答（你很可能就在做这个）

目标

是否只基于给定上下文回答
有没有漏用 / 乱用知识
有没有编造

✅ 强烈推荐（黄金组合）

Context Relevance      ⭐⭐⭐⭐⭐
Context Correctness    ⭐⭐⭐⭐
Hallucination          ⭐⭐⭐⭐
Answer Relevance       ⭐⭐⭐⭐（有 GT 时）
Context Precision      ⭐⭐⭐
Context Recall         ⭐⭐⭐

如果有标准答案（评测集）

Answer Correctness     ⭐⭐⭐⭐⭐

👉 典型用途

找「检索错了 / 没用到文档 / 用错文档」的 case
做 Retriever / Chunk / Rerank 调优

场景 3：🤖 Tool / 多 Agent / LangGraph 流程

目标

决策是否合理
工具是否被正确使用
最终输出是否对用户有价值

✅ 推荐

Helpfulness        ⭐⭐⭐⭐
Relevance          ⭐⭐⭐⭐
Correctness        ⭐⭐⭐
Conciseness        ⭐⭐

⚠️ Tool 误用更多要靠：

Trace 分析
自定义 evaluator（Langfuse Python）

场景 4：🧪 离线评测 / 回归测试（CI 用）

目标

模型 / Prompt / RAG 改动是否变差

✅ 推荐

Answer Correctness     ⭐⭐⭐⭐⭐
Answer Relevance       ⭐⭐⭐⭐
Answer Critic          ⭐⭐⭐
Context Recall         ⭐⭐⭐
Context Precision      ⭐⭐⭐

👉 这是唯一一个适合“黄色三角全开的场景”

三、一个“新手不踩坑”的最小配置

如果你现在不确定，直接用这个：

🟢 对话 / Agent

Helpfulness
Relevance
Hallucination

🟢 RAG

Context Relevance
Hallucination
Answer Relevance（如果有 GT）

四、进阶建议（很重要，但很少人讲）

1️⃣ Evaluator ≠ KPI

它是 发现失败样本的过滤器
不是绝对分数裁判

2️⃣ 分数看趋势，不看单点

同一 evaluator
比较 Prompt A vs B / Retriever A vs B

3️⃣ 低分样本 → 人工 Review → 定向优化

你之前问过的：

Router 错路 / Tool 误用
👉 正确做法就是 Evaluator 先筛样本

五、如果你愿意，我可以继续帮你

你可以直接告诉我：

1️⃣ 这是 客服 / RAG / 多 Agent / Tool Agent？
2️⃣ 是否 有标准答案数据？
3️⃣ 评估是 线上监控 还是 离线对比？

我可以直接给你：

Evaluator 选择清单
阈值建议
如何从低分 Trace 反推 Prompt / Retriever 改法

这一步选对了，Langfuse 才真正有价值。

posted @ 2025-12-19 19:17 向着朝阳阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

aibi1

langfuse-LLM 模版评估选择

一、先理解两类 Evaluator（非常关键）

① 通用质量评估（红色循环箭头）

② 需要参考答案的评估（黄色三角）

二、不要“全选”，推荐用「评估目标 → 反推指标」

场景 1：📞 智能客服 / 对话 Agent（最常见）

✅ 推荐选择

❌ 不推荐

场景 2：📚 RAG / 知识库问答（你很可能就在做这个）

✅ 强烈推荐（黄金组合）

如果有标准答案（评测集）

场景 3：🤖 Tool / 多 Agent / LangGraph 流程

✅ 推荐

场景 4：🧪 离线评测 / 回归测试（CI 用）

✅ 推荐

三、一个“新手不踩坑”的最小配置

🟢 对话 / Agent

🟢 RAG

四、进阶建议（很重要，但很少人讲）

1️⃣ Evaluator ≠ KPI

2️⃣ 分数看趋势，不看单点

3️⃣ 低分样本 → 人工 Review → 定向优化

五、如果你愿意，我可以继续帮你

公告

aibi1

langfuse-LLM 模版评估选择

一、先理解两类 Evaluator（非常关键）

① 通用质量评估（红色循环箭头）

② 需要参考答案的评估（黄色三角）

二、不要“全选”，推荐用「评估目标 → 反推指标」

场景 1：📞 智能客服 / 对话 Agent（最常见）

✅ 推荐选择

❌ 不推荐

场景 2：📚 RAG / 知识库问答（你很可能就在做这个）

✅ 强烈推荐（黄金组合）

如果 有标准答案（评测集）

场景 3：🤖 Tool / 多 Agent / LangGraph 流程

✅ 推荐

场景 4：🧪 离线评测 / 回归测试（CI 用）

✅ 推荐

三、一个“新手不踩坑”的最小配置

🟢 对话 / Agent

🟢 RAG

四、进阶建议（很重要，但很少人讲）

1️⃣ Evaluator ≠ KPI

2️⃣ 分数看趋势，不看单点

3️⃣ 低分样本 → 人工 Review → 定向优化

五、如果你愿意，我可以继续帮你

公告

如果有标准答案（评测集）