Agent性能和准确性和成本优化总结
1 速度
多Agent窜行处理,改成并行处理
- 显而易见的问题,能否直接给结果,不需要深度思考,否则用户等待时间较长
- RAG缓存。 使用开源的GTPCache。
- 其他Cache?
- 不同的场景使用不同参数量的大模型
2 准确性
- RAG的准确率。涉及到文本预处理、切片
- agent协同时的幻觉放大问题。输出结果给到用户前,考虑兜底护栏检查方案。(结构化的用规则,非结构化用小模型),收集产品域专业术语集
- 每个大模型输出的时间、agent之间协同的时间、检索的时间
- prompt优化:行业前沿方案 思维链 -> 强化学习 -> prompt
- 向量化embeding算法微调。结合行业知识做微调
体验
- 流式输出
- 前端不要显示太多中间过程,用户可以选择性打开查看--前端
成本
多轮对话的内容压缩,但是可能会丢失准确性,需要结合实际业务调试。
提示词简化。 有些简单的问题,开发写了几千个提示词,
多Agent协同,token会爆炸。 解决方案:提示词summary(如何提升summary的效果)
合同几百页做Summay 。 解决方案:
可靠性
大token并发访问公有大模型,并且内容近似,会被当做攻击拒绝
汇报演示
给客户或者老板演示,要选择有代表性的问题,比如YZJ做到什么程度,我们做到什么程度
别人做不好的东西,我们做好了

浙公网安备 33010602011771号