全部文章

大语言模型能力评估

根据标准答案评估

https://arxiv.org/abs/2009.03300

https://huggingface.co/blog/evaluating-mmlu-leaderboard

把正确答案都移动到A的话，测试结果又不一样：

BLEU，ROUGE是两款不同的工具

人类评估语言模型

大语言模型评比网站Chatbot Arena

https://lmarena.ai/（原网址https://chat.lmsys.org/ ）

模型比拼排行榜

https://lmarena.ai/leaderboard

并且支持各种类型模型的排行榜：

语言模型来评估语言模型

https://arxiv.org/abs/2305.01937

https://arxiv.org/abs/2310.05657

MT-Bench
https://arxiv.org/abs/2306.05685

Arena-Hard

https://lmsys.org/blog/2024-04-19-arena-hard/

https://github.com/tatsu-lab/alpaca_eva

各个不同领域测评

大型語言模型本身会不会偏袒特定类型的答案？

https://arxiv.org/abs/2404.04475

各种NLP评估数据集中的任务数量：

https://arxiv.org/abs/2204.07705

BIG-bench：

444 authors across 132 institutions

https://github.com/google/BIG-bench

Emoji Movie

🐰🦊🚔🏙

🤠❤️🤠

Checkmate In One Move

ASCII word recognition

阅读长文的能力

Greg Kamradt

https://youtu.be/KwRRuiCCdmc?si=eRYBvVl2gTclSX1A

https://github.com/gkamradt/LLMTest_NeedleInAHaystack

大海撈針 (Needle in a Haystack)

https://github.com/gkamradt/LLMTest_NeedleInAHaystack

Claude以处理长文本著称，该论文测试Claude模型的处理长文本能力，结果非常不尽人意（红色代表表现很差）

https://github.com/gkamradt/LLMTest_NeedleInAHaystack

Claude团队看到这个结果坐不住了，于是自己赶紧出来测试，并且发布论文，称原来的测试方法不正确，因为他们没有使用正确的提示词，使用了正确提示词之后，效果很明显：

https://www.anthropic.com/news/claude-2-1-prompting

模型会不会为了目的不择手段

https://arxiv.org/abs/2304.03279

根据研究表明，ChatGpt并没有完全丧失道德底线：

https://arxiv.org/abs/2304.03279

机器有没有心智理论

https://uniform.wingzero.tw/acg/character/516/1743/1

https://baike.baidu.hk/item/%E7%99%BD%E9%8A%80%E5%BE%A1%E8%A1%8C/22622889

莎莉与小安测验（Sally–Anne test）

https://arxiv.org/abs/2303.12712

https://arxiv.org/abs/2302.02083

不过莎莉与小安这个问题时从网上抄来的，大模型会不会早就看过了？

https://arxiv.org/abs/2310.15421 ：

关于心智的测试，语言模型和人类还有很大差距

https://arxiv.org/abs/2310.15421

不要尽信 Benchmark 的结果，因为Benchmark 上的题目都是公开的，大语言模型可能早就已经知道答案了：

偷偷搜集跟 Benchmark 类似的考古題：

https://arxiv.org/abs/2311.04850

https://lmsys.org/blog/2023-11-14-llm-decontaminator/

https://arxiv.org/abs/2312.16337

价格和速度的评估

https://artificialanalysis.ai/

posted @ 2025-07-27 22:44 指尖下的世界阅读(55) 评论(0) 收藏举报

刷新页面返回顶部