自动化评测答疑机器人的表现

2.4 自动化评测答疑机器人的表现 

🚄 前言 

新人答疑机器人在实际使用中可能会有一些问题。例如,当新人提问“如何请假”时,机器人可能给出通用的回答,而不是基于制度文件内容进行回答。

和常规的软件开发需要测试一样,你也应该在你的答疑机器人项目中建立一套评测体系,确保在类似的问题都能快速定位原因,并且在每次针对一个问题优化后,能对一批问题进行测试,确保此次优化的对答疑机器人的整体效果是正向的。

🍁 课程目标 

学完本节课程后,你将能够:

  • 如何自动化大模型应用评测。
  • 如何通过 Ragas 对 RAG 应用进行评测。
  • 如何通过 Ragas 分数来定位并解决问题。

 

 

      <td>文档切片长度过大,引入过多干扰项</td>
      <td>减少切片长度,或结合具体业务开发为更合适的切片策略</td>
      <td>例如,某文档的切片长度过大,包含了多个不相关的主题,导致检索时返回了无关信息。可以减少切片长度,确保每个切片只包含一个主题。</td>
    </tr>
    <tr>
      <td>文档切片长度过短,有效信息被截断</td>
      <td>扩大切片长度,或结合具体业务开发为更合适的切片策略</td>
      <td>例如,某文档中每个切片只有一句话,导致检索时无法获取完整的上下文信息。可以增加切片长度,确保每个切片包含完整的上下文。</td>

      <td>已支持解析的文档格式里,存在一些特殊内容 <em>比如文档里嵌入了表格、图片、视频等</em></td>
      <td>改进文档解析器</td>
      <td>例如,某文档中包含了大量的表格和图片,现有解析器无法正确提取表格中的信息。可以改进解析器,使其能够处理表格和图片。</td>

当面对一个需要解析HTML页面并执行特定操作的任务时,多智能体的分工如下:

- Planner Agent规划器:分解任务,例如识别HTML元素中的列表或按钮。
- Selector Agent执行器:负责具体的操作任务,例如选择特定元素并执行点击动作。
- Monitor Agent监视器:实时监控任务的执行,确保流程按计划完成,如检测是否点击正确的按钮。

 

posted @ 2025-11-15 11:46  aiplus  阅读(83)  评论(0)    收藏  举报
悬浮按钮示例