41个开源大语言模型基准测试报告
摘要:
这是一个大规模的开源大语言模型评估项目,使用lm-evaluation-harness库对41个开源LLMs进行了19项基准测试。所有评估都在个人计算机上本地完成,展示了不同模型在各种任务中的性能表现。 阅读全文
posted @ 2025-09-07 14:35
sing1ee
阅读(127)
评论(0)
推荐(0)
竹杖芒鞋轻胜马,谁怕,一蓑烟雨任平生。
本报告基于 BeeAI 框架的 A2A 服务实践文档 阅读全文
使用 A2A 协议代替 ACP,是 BeeAI更好的选择,减少协议的分裂,提升生态系统的整合度。 阅读全文
A2A(Agent2Agent)可追溯性扩展是一个强大的分布式追踪系统,专门为 A2A 框架中的代理间通信提供完整的调用链追踪功能。该扩展实现了类似于分布式追踪系统(如 Jaeger、Zipkin)的功能,但专门针对多代理系统的特殊需求进行了优化。 阅读全文
Gemini CLI 2025年8月重大更新:VSCode集成与MCP协议增强 阅读全文
本项目展示了一个基于 A2A 协议的对抗性多智能体仿真系统。该系统包含两个竞争性智能体:攻击者(红队)和防御者(蓝队),它们进行策略性的智力对抗。 阅读全文
基于A2A协议的三代理数字猜谜游戏示例。无需LLM,本地运行,展示代理间协作通信的核心概念。 阅读全文
A2A协议完整指南第二部分,深入解析流式操作、异步处理、扩展机制和任务生命周期管理等高级特性,助您构建更强大的AI智能体协作系统。 阅读全文