Agent性能和准确性和成本优化总结

1 速度

多Agent窜行处理,改成并行处理

  • 显而易见的问题,能否直接给结果,不需要深度思考,否则用户等待时间较长
  • RAG缓存。 使用开源的GTPCache。
  • 其他Cache?
  • 不同的场景使用不同参数量的大模型

2 准确性

  • RAG的准确率。涉及到文本预处理、切片
  • agent协同时的幻觉放大问题。输出结果给到用户前,考虑兜底护栏检查方案。(结构化的用规则,非结构化用小模型),收集产品域专业术语集
  • 每个大模型输出的时间、agent之间协同的时间、检索的时间
  • prompt优化:行业前沿方案 思维链 -> 强化学习 -> prompt
  • 向量化embeding算法微调。结合行业知识做微调

体验

  • 流式输出
  • 前端不要显示太多中间过程,用户可以选择性打开查看--前端

成本

多轮对话的内容压缩,但是可能会丢失准确性,需要结合实际业务调试。
提示词简化。 有些简单的问题,开发写了几千个提示词,
多Agent协同,token会爆炸。 解决方案:提示词summary(如何提升summary的效果)
合同几百页做Summay 。 解决方案:

可靠性

大token并发访问公有大模型,并且内容近似,会被当做攻击拒绝

汇报演示

给客户或者老板演示,要选择有代表性的问题,比如YZJ做到什么程度,我们做到什么程度
别人做不好的东西,我们做好了

参考资料

posted @ 2025-05-23 09:08  向着朝阳  阅读(100)  评论(0)    收藏  举报