Agent性能和准确性和成本优化总结

参考资料

1 速度

多Agent窜行处理，改成并行处理

显而易见的问题，能否直接给结果，不需要深度思考，否则用户等待时间较长
RAG缓存。使用开源的GTPCache。
其他Cache？
不同的场景使用不同参数量的大模型

2 准确性

RAG的准确率。涉及到文本预处理、切片
agent协同时的幻觉放大问题。输出结果给到用户前，考虑兜底护栏检查方案。（结构化的用规则，非结构化用小模型），收集产品域专业术语集
每个大模型输出的时间、agent之间协同的时间、检索的时间
prompt优化：行业前沿方案思维链 -> 强化学习 -> prompt
向量化embeding算法微调。结合行业知识做微调

体验

流式输出
前端不要显示太多中间过程，用户可以选择性打开查看--前端

成本

多轮对话的内容压缩，但是可能会丢失准确性，需要结合实际业务调试。
提示词简化。有些简单的问题，开发写了几千个提示词，
多Agent协同，token会爆炸。解决方案：提示词summary（如何提升summary的效果）
合同几百页做Summay 。解决方案：

可靠性

大token并发访问公有大模型，并且内容近似，会被当做攻击拒绝

汇报演示

给客户或者老板演示，要选择有代表性的问题，比如YZJ做到什么程度，我们做到什么程度
别人做不好的东西，我们做好了

参考资料

posted @ 2025-05-23 09:08 向着朝阳阅读(133) 评论(0) 收藏举报

刷新页面返回顶部