大语言模型数据集介绍

前言

最近再次加入了一个 AI 方向的工作小组,为了获得一封潜在的给 MIT 的推荐信,我尝试在不喜欢的工作结构下工作。

我为什么无法称其为科研组? 1. 我认为这个组的工作没有任何洞察力或者是创新性,不过只是在某一具体领域尝试套用一些已知或显然的方法。
2. 组里面的其他成员没有明显的 motivation。
我不喜欢的工作结构和改进方法 1. 其他人为我设计好我要进行的实验,我来负责实现这些方法并汇报结果。一个细节没有规定好的实验有太多潜在的改进方案,如果目标只是模棱两可的进行实验,判定哪些改进是我要添加的是不良定义的,因此我不得不减少对于改进的思考,而专注于实现最基本的东西,因此使我感到压抑。此外我很难停止怀疑这些实验的设计是否是合理的,因此我会认为别人浪费了我的时间,不过我自己同样不能保证每次设计合理的实验,因此这点是情有可原的。
2. 组员之间缺少讨论。讨论仅出现在每周一次的线上腾讯会议和微信聊天中。考虑到 缺少线下沟通 和 人员在项目中的经验差异过大 这两个事实,讨论往往只是一个人提出观点,然后其他人进行附和或要求 clarification,而缺少真正有用的辨证讨论,或者是对日常工作的经验分享。由于一直缺少讨论,组内成员的背景不同,必然导致了几乎不会有任何有趣的思想碰撞。
3. 针对第二条缺少讨论的改进方法。组员之间应该加强沟通。如每两天线下聚集在一起交流自己的进展,遇到的困难等。可以尝试让讨论发生在大家都工作约 2h 后(工作时不需要在一起),这样的好处在于保证在讨论时,大家的上下文已经切换到组内工作的状态。

这篇博客没有独到之处,撰写的目的在于方便我自己记忆,以及可能作为我后续组织研讨会时使用的材料。

这篇博客会快速的介绍一些评测大语言模型(下称 LLM)会使用的数据集。

出于阅读体验和数据集泄露预防,这篇博客里不会放数据集的样例,大部分样例可以点击更多信息中的链接后直接查看。

gsm8k

全称 Grade School Math 8k. 感觉相当于中国小学三年级数学水平。题目不需要列方程即可解决。考察的重点在于数学推理而不是记忆。

数据集由问题和推理过程,单选选项,单选答案构成。还有一种苏格拉底式的数据格式,推理链也是通过一系列提问而被“循循善诱”出来的。

训练集有 7473 条,验证集有 1319 条。

更多信息 https://huggingface.co/datasets/openai/gsm8k

mmlu

全称 Measuring Massive Multitask Language Understanding. 包含各个领域的知识,不怎么需要计算即可知道答案。考察的重点在于对很多领域知识的记忆。

训练集有 99842 条,领域被分为 57 个。

更多信息 https://huggingface.co/datasets/cais/mmlu

GPQA

全称 A Graduate-Level Google-Proof Q&A Benchmark. 作者声称选取的专家在被允许使用 Google 30 分钟后回答题目只有 34% 的准确率。

题目涉及化学,生物,物理的专业知识。推理难度我无法确定,可能与普物作业中难度较低的题类似(当然,需要先熟悉相关领域知识)。

数据集包含题目,多选题选项,多选题答案,推理过程,人类专家的回答等。

更多信息 https://huggingface.co/datasets/Idavidrein/gpqa
posted @ 2025-03-10 19:46  MarkizeKing  阅读(149)  评论(4)    收藏  举报