大模型排行榜

FlagEval
(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时通过引入AI辅助主观评测,大幅提升评测的效率和客观性。
https://flageval.baai.ac.cn/#/leaderboard

LMArena
是由加州大学伯克利分校的研究人员创建的一个开放平台,每个人都可以轻松访问、探索和与世界领先的人工智能模型互动。通过比较它们并为更好的回应投票,社区帮助形成了一个公共排行榜,使人工智能的进展更加透明,并基于现实世界的使用。
https://lmarena.ai/leaderboard/

posted @ 2025-11-23 11:43  RolandHe  阅读(200)  评论(0)    收藏  举报