langgraph 配合langfuse 评测代码改动

1️⃣ `input`

通常记录函数处理的上下文或前置条件，包括：
- test_id
- 用户输入（user_input / user_message）
- 历史对话 messages
- dataset 中的期望值（expected_intent、expected_agent、expected_action）

这里把期望值放在 input，是为了在 Langfuse trace 中和实际生成结果对比时，有一个明确的 reference。

不一定严格是函数的参数，但可以包含函数入参及相关上下文。

2️⃣ `output`

通常记录函数执行后的结果，包括：
- LLM 生成的 intents 列表
- 每个 intent 对应的 action
- 决策的路由 route_to
- 异常信息（如果有）

这样的设计好处，是方便做准确率的对比。做法：把langfuse的trace的记录拉到本地，通过python脚本就可以实现对比。

posted @ 2025-12-22 20:35 向着朝阳阅读(0) 评论(0) 收藏举报

刷新页面返回顶部