langgraph 配合langfuse 评测代码改动

1️⃣ input

  • 通常记录函数处理的上下文或前置条件,包括:
    • test_id
    • 用户输入(user_input / user_message)
    • 历史对话 messages
    • dataset 中的期望值(expected_intent、expected_agent、expected_action)

这里把期望值放在 input,是为了在 Langfuse trace 中和实际生成结果对比时,有一个明确的 reference。

  • 不一定严格是函数的参数,但可以包含函数入参及相关上下文。

2️⃣ output

  • 通常记录函数执行后的结果,包括:

    • LLM 生成的 intents 列表
    • 每个 intent 对应的 action
    • 决策的路由 route_to
    • 异常信息(如果有)

这样的设计好处,是方便做准确率的对比。 做法:把langfuse的trace的记录拉到本地,通过python脚本就可以实现对比。

posted @ 2025-12-22 20:35  向着朝阳  阅读(0)  评论(0)    收藏  举报