大模型排行榜
FlagEval
(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时通过引入AI辅助主观评测,大幅提升评测的效率和客观性。
https://flageval.baai.ac.cn/#/leaderboard
LMArena
是由加州大学伯克利分校的研究人员创建的一个开放平台,每个人都可以轻松访问、探索和与世界领先的人工智能模型互动。通过比较它们并为更好的回应投票,社区帮助形成了一个公共排行榜,使人工智能的进展更加透明,并基于现实世界的使用。
https://lmarena.ai/leaderboard/

浙公网安备 33010602011771号