大模型排行榜

FlagEval
（天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时通过引入AI辅助主观评测，大幅提升评测的效率和客观性。
https://flageval.baai.ac.cn/#/leaderboard

LMArena
是由加州大学伯克利分校的研究人员创建的一个开放平台，每个人都可以轻松访问、探索和与世界领先的人工智能模型互动。通过比较它们并为更好的回应投票，社区帮助形成了一个公共排行榜，使人工智能的进展更加透明，并基于现实世界的使用。
https://lmarena.ai/leaderboard/

posted @ 2025-11-23 11:43 RolandHe 阅读(200) 评论(0) 收藏举报