全部文章

大语言模型能力评估

根据标准答案评估

 

https://arxiv.org/abs/2009.03300

https://huggingface.co/blog/evaluating-mmlu-leaderboard 

把正确答案都移动到A的话,测试结果又不一样:

BLEU,ROUGE是两款不同的工具

人类评估语言模型

大语言模型评比网站Chatbot  Arena 

https://lmarena.ai/(原网址https://chat.lmsys.org/ )

模型比拼排行榜

https://lmarena.ai/leaderboard

并且支持各种类型模型的排行榜:

语言模型来评估语言模型

https://arxiv.org/abs/2305.01937

https://arxiv.org/abs/2310.05657 

  • MT-Bench

    https://arxiv.org/abs/2306.05685

Arena-Hard

https://lmsys.org/blog/2024-04-19-arena-hard/

https://github.com/tatsu-lab/alpaca_eva

各个不同领域测评

大型語言模型本身会不会偏袒特定类型的答案?

https://arxiv.org/abs/2404.04475

各种NLP评估数据集中的任务数量:

https://arxiv.org/abs/2204.07705

BIG-bench:

444 authors across 132 institutions

https://github.com/google/BIG-bench

  • Emoji Movie

🐰🦊🚔🏙 

🤠❤️🤠 

  • Checkmate In One Move 

  • ASCII word recognition 

阅读长文的能力

Greg Kamradt

https://youtu.be/KwRRuiCCdmc?si=eRYBvVl2gTclSX1A

https://github.com/gkamradt/LLMTest_NeedleInAHaystack 

大海撈針 (Needle in a Haystack)

 

 

 

 

 

 

 

 

 

https://github.com/gkamradt/LLMTest_NeedleInAHaystack

Claude以处理长文本著称,该论文测试Claude模型的处理长文本能力,结果非常不尽人意(红色代表表现很差)

https://github.com/gkamradt/LLMTest_NeedleInAHaystack

Claude团队看到这个结果坐不住了,于是自己赶紧出来测试,并且发布论文,称原来的测试方法不正确,因为他们没有使用正确的提示词,使用了正确提示词之后,效果很明显:

https://www.anthropic.com/news/claude-2-1-prompting 

模型会不会为了目的不择手段

https://arxiv.org/abs/2304.03279 

根据研究表明,ChatGpt并没有完全丧失道德底线:

https://arxiv.org/abs/2304.03279 

机器有没有心智理论

https://uniform.wingzero.tw/acg/character/516/1743/1 

https://baike.baidu.hk/item/%E7%99%BD%E9%8A%80%E5%BE%A1%E8%A1%8C/22622889 

 

莎莉与小安测验(Sally–Anne test)

https://arxiv.org/abs/2303.12712 

https://arxiv.org/abs/2302.02083 

不过莎莉与小安这个问题时从网上抄来的,大模型会不会早就看过了?

https://arxiv.org/abs/2310.15421 :

关于心智的测试,语言模型和人类还有很大差距

https://arxiv.org/abs/2310.15421 

不要尽信 Benchmark 的结果 ,因为Benchmark 上的题目都是公开的,大语言模型可能早就已经知道答案了:

偷偷搜集跟 Benchmark 类似的考古題 :

https://arxiv.org/abs/2311.04850 

https://lmsys.org/blog/2023-11-14-llm-decontaminator/ 

https://arxiv.org/abs/2312.16337 

价格和速度的评估

https://artificialanalysis.ai/ 

 

posted @ 2025-07-27 22:44  指尖下的世界  阅读(55)  评论(0)    收藏  举报