2025-年要阅读的-AI-论文

2025 年要阅读的 AI 论文

towardsdatascience.com/ai-papers-to-read-in-2025/

今天，我带着我的 AI 论文阅读系列回到 TDS。我的长期读者可能还记得之前的四版（[1]，[2]，[3]，和[4]）。我已经有一段时间没有写作了，我想不出比恢复我最成功的系列——也是我最喜欢写作的系列——更好的回归方式了。

对于初学者来说，这是一个非常主观的列表，充满了观点和旁支，旨在让您了解整个 AI 的最新动态。这不是一个最先进模型列表，而是对未来要寻找的内容以及过去可能错过的内容的真实见解。目标是帮助您批判性地思考 AI 的现状。

总共有十个论文推荐，每个论文都有简要的贡献描述和明确的原因说明为什么这些论文值得阅读。此外，每个论文都有一个专门的进一步阅读部分，包含一个或多个可以探索的旁支。

在我们继续之前，回到我的2022 年文章，我开头说“我们不需要更大的模型；我们需要解决方案”和“不要期望我在这里提出 GPT 的胡言乱语。”当时，我相当确信我将来会重复自己，新的 GPT 模型将只是更大、略微更好的模型，但远非突破性的。然而，功不唐捐。自从发布以来，ChatGPT 已经激发了许多新的解决方案，无疑是计算机科学的一个转折点。

最后但同样重要的是，作为一个小的声明，我大部分的 AI 工作都集中在计算机视觉领域，因此可能有许多关于强化学习、图和音频等主题的优秀论文并没有进入我的视野。如果您认为有任何论文我应该知道，请告诉我 ❤。

让我们开始吧！

#1 DataPerf：数据中心 AI 的基准

Mazumder, Mark, et al. “Dataperf: Benchmarks for data-centric AI development.” arXiv preprint arXiv:2207.10062 (2022).

从 2021 年到 2023 年，安德鲁·吴（Andrew Ng）非常积极地谈论以数据为中心的 AI：将我们的关注点从静态数据集上的模型演变转移到自身数据集的演变——同时保持模型静态或基本不变。用他们自己的话说，我们目前的以模型为中心的研究哲学忽视了数据的基本重要性。

在实际操作中，通常情况下，增加数据集大小、纠正错误标记的条目以及移除虚假输入，比增加模型的大小、层数或训练时间更有效地提高模型的输出。

在 2022 年，作者们提出了 DataPerf，这是一个以数据为中心的人工智能开发基准，包括语音、视觉、调试、获取和对抗性问题的任务，以及 DataPerf 工作组。该倡议旨在促进数据感知方法，并试图缩小许多公司数据部门与学术界之间的差距。

原因 1: 大多数，如果不是所有，专注于特定主题的公司最终都会开发内部数据集。关于如何正确/更好地进行这项研究的研究非常少。

原因 2: 反思：如今有多少论文能提供比现有技术（SOTA）稳定提高 2% 的成果？你需要多少额外的数据才能将准确率提高 2%？

原因 3: 在你余下的职业生涯中，你可能想知道，如果我们不做提出的 X，而是收集更多的数据会怎样？

原因 4: 如果你身处学术界，被某个 X 或 Y 数据集困扰，试图找出如何将 SOTA 的性能提高 0.1%，要知道生活可以远不止如此。

进一步阅读： 2021 年，一切始于 Deeplearning.AI 主办的数据为中心的人工智能竞赛。你可以在这里阅读 Johnson Kuan 的获奖方法链接。从那时起，其他作者也投入了大量精力研究这个主题，例如2023 年的数据为中心的人工智能：综述。最后，如果你是喜欢听讲座的人，可以在 YouTube 上找到 Andrew Ng 关于这个主题的许多讲座。

#2 GPT-3 / LLMs 是少样本学习者

Brown, Tom, 等人。“语言模型是少样本学习者。”神经信息处理系统进展 33 (2020): 1877–1901。

这篇 NeurIPS 论文向世界介绍了 GPT-3。OpenAI 的第三代模型在几乎所有方面都只是更大的 GPT-2。它有 116 倍多的参数，并在 50 倍多的数据上进行了训练。他们最大的发现并不是它只是“更好”，而是你如何提示它能够极大地提高它在许多任务上的性能。

机器学习模型通常被表示为可预测的函数：给定相同的输入，它们总是会产生相同的输出。然而，当前的大型语言模型（LLMs）可以以许多不同的方式提出和回答相同的问题——措辞很重要。

原因 1: 之前，我们讨论了在数据集演变的同时保持模型静态。在使用大型语言模型（LLMs）的情况下，我们可以演变我们提出的问题。

原因 2: GPT-3 引发了提示工程领域的兴起。之后，我们开始看到作者们提出诸如思维链（CoT）和检索增强生成（RAG）等技术。

原因 3: 提示（Prompting）做得好远比知道如何训练或微调大型语言模型（LLMs）重要。有人说提示（Prompting）已经过时了，但我看不到这种情况会发生。问问自己：你在对老板说话与对你的妈妈或朋友说话时，用词请求的方式是否相同？

原因 4: 当变压器出现时，大多数研究都集中在它们的训练/推理速度和大小上。提示（Prompting）是自然语言处理中的一个真正新颖的主题。

原因 5: 当你意识到这篇论文并没有真正提出任何东西，它只是做出了一种观察时，这很有趣。尽管如此，它有 60k 次引用。

进一步阅读： 提示（Prompting）让我想起了集成模型。我们不是反复提示单个模型，而是训练几个较小的模型并汇总它们的输出。现在几乎有三十年历史，AdaBoost（AdaBoost）论文是这个主题的经典之作，阅读它将带你回到甚至词嵌入都还未成为事物的时代。快进到 2016 年，XGBoost（XGBoost）成为了一个现代经典，现在它正在进行其 v3 升级。

#3 快速注意力

Dao, Tri, 等人。“FlashAttention: Fast and memory-efficient exact attention with io-awareness。” Advances in Neural Information Processing Systems 35 (2022): 16344–16359.

自从 2017 年具有里程碑意义的论文“Attention is All You Need”引入了 Transformer 架构和注意力机制以来，几个研究小组致力于寻找一个比原始二次公式更快、更可扩展的替代方案。虽然设计了多种方法，但没有一种真正成为原始工作的明确继任者。

原始的注意力公式。softmax 项表示每个标记对每个查询的重要性（因此对于 N 个标记，我们有 N² 个注意力分数）。所谓的“转换”（在 Transformer 的名字中）是 N² 个注意力图与 N 大小的 V 向量之间的乘积（就像旋转矩阵“转换”一个 3D 向量一样）

在这项工作中，作者并没有提出一个新的公式或对原始公式的巧妙近似。相反，他们展示了一个快速 GPU 实现，它能更好地利用（复杂的）GPU 内存结构。所提出的方法在速度上显著提高，同时几乎没有或没有对原始方法的缺点。

原因 1: 许多研究论文被拒绝，因为它们只是新的实现或者“创新性不足”。有时，那就是我们所需要的全部。

原因 2: 研究实验室渴望成为新的注意力（Attention）的焦点，以至于任何新的注意力都很难得到足够的关注。在这种情况下，作者只是改进了已经有效的方法。

原因 3： 回顾过去，ResNet在 CNN 领域当年具有突破性，提出了残差块。在接下来的几年里，许多人对其进行了改进，改变了残差块的想法。尽管付出了所有努力，大多数人仍然坚持最初的想法。在如此拥挤的研究领域如 AI 中，对所有有众多后续建议的事物保持谨慎是最佳选择。

进一步阅读： 不时地，我会参考Sik-Ho Tsang在这里 Medium 上审阅的论文列表。每个部分都揭示了多年来每个领域的领先思想。这么多论文可能曾经看起来具有突破性，而现在却完全被遗忘，这实在令人感到有些遗憾？回到注意力，截至 2025 年，最热门的注意力替代候选者是 DeepSeek 团队开发的Sparse Attention。

#4 使用 Posits 训练神经网络

Raposo, Gonçalo, Pedro Tomás, and Nuno Roma. “Positnn: Training deep neural networks with mixed low-precision posit.” ICASSP 2021–2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.

转向硬件和底层优化的世界，AI 训练中最重要（但最不吸引人）的进步之一与浮点数有关。我们从无聊的浮点数过渡到半精度浮点数，再到 8 位甚至 4 位浮点数(FP4)。今天驱动 LLMs 的马力是过去的 8 倍。

数字格式的前景与矩阵-矩阵乘法硬件紧密相连。然而，这个话题可能远不止于将位深度减半。例如，这篇论文探讨了全新的数字格式(posits)，作为潜在的老旧 IEEE-754 浮点数的替代品。你能想象一个没有浮点数的未来吗？

原因 1： 虽然新算法需要时间才能得到广泛应用，但硬件每年都在持续改进。所有的船只都随着硬件的潮流而上升。

原因 2： 值得质疑的是，如果没有过去十年中 GPU 的众多改进，我们今天会达到何种程度。以AlexNet为例，作者在 2012 年使用两块高端 GTX 580 GPU 打破了 ImageNet 的所有记录，总共有 3 TFLOPs。如今，一款中端 GPU，如 RTX 5060，就拥有约 19 TFLOPs——是之前的 6 倍。

原因 3： 有些技术如此普遍，以至于我们视为理所当然。所有事物都可以并且应该得到改进；我们不需要对浮点数（甚至神经网络）有任何亏欠。

进一步阅读：既然我们提到了硬件，这也是讨论编程语言的好时机。如果你没有关注新闻，Python 团队（特别是Python 的创造者）正专注于优化 Python。然而，如今优化似乎成了重建东西的俚语，特别是在Rust中。最后但同样重要的是，一些炒作集中在Mojo，这是一个以 AI/速度为重点的 Python 超集；然而，我今天几乎没看到任何人谈论它。

#5 AdderNet

陈，汉廷，等人。“AdderNet：我们真的需要在深度学习中使用乘法吗？” IEEE/CVF 计算机视觉与模式识别会议论文集。2020。

如果我们根本不做矩阵乘法会怎样？这篇论文走了一条完全不同的路线，展示了在没有矩阵乘法的情况下也可以拥有有效的神经网络。主要思想是用计算输入和滑动滤波器之间的 L1 差分来代替卷积。

我喜欢将这篇论文视为“平行世界”中的神经网络。在某个平行宇宙中，神经网络是基于加法演化的，在其中，有人提出了基于乘法的模型；然而，由于所有工具和硬件都深陷于优化大规模矩阵加法和减法运算符，这个模型从未得到推广。

原因 1：我们很容易忘记，除了 CNN 和 Transformer 之外，还有其他算法等待我们去发现。这篇论文展示了基于加法的神经网络是可能的，这有多么酷？

原因 2：我们的许多硬件和云基础设施都针对矩阵乘法和神经网络进行了优化。新的模型还能竞争吗？非神经网络还能否卷土重来？

进一步阅读：你们中许多人可能不熟悉在神经网络接管大多数领域之前存在的东西。大多数人知道像线性回归、决策树和XGBoost这样的标准。在神经网络变得流行之前，支持向量机非常流行。我已经有一段时间没看到过它了。在这方面，一篇值得阅读的论文是深度学习并非一切。

支持向量机通过找到最佳分离线来学习分离两组点。通过使用核技巧，这些点被投射到更高维的空间中，在那里可能找到更好的分离平面，从而实现非线性决策边界，同时保持线性公式。这是一个值得学习的绝妙解决方案。来源.

#6 内插与外推

Balestriero, Randall, Jerome Pesenti, 和 Yann LeCun. “高维学习总是等同于外推.” arXiv 预印本 arXiv:2110.09485 (2021).

以前，我曾认为在人工智能领域的大人物都是先知或者对这一领域的未来有非常好的猜测。这篇论文及其引发的辩论改变了我的看法。

回到 2021 年，Yann LeCun 推动了关于 内插与外推 的讨论，声称在像所有神经网络一样的高维空间中，我们所说的“学习”实际上是数据外推。在发表之后，许多知名人士加入了讨论，有些人认为这是胡说八道，有些人认为这仍然是内插，还有一些人站在外推的一边。

如果你从未听说过这次讨论……它实际上显示了这场讨论是多么的无意义。据我所知（如果你有不同的看法，请写信告诉我），没有公司改变方向，没有设计出新的外推感知模型，也没有激发出新的相关训练技术。它来了又去了。

原因 1: 老实说，你可以直接跳过这一部分。我只是需要发泄一下，以平复自己的心情。

原因 2: 从纯粹学术的角度来看，我认为这是对学习理论的一种有趣的观点，这确实是一个酷的话题。

进一步阅读: Yoshua Bengio, Geoffrey Hinton 和 Yann LeCun 因其在深度学习基础方面的开创性工作而获得了 2018 年图灵奖。回到 2023 年左右，LeCun 专注于自监督学习，Hinton 关注胶囊网络，而 Bengio 则在研究生成流网络。到 2025 年底，LeCun 转向了世界模型，而 Hinton 和 Bengio 则转向了人工智能安全。如果你在怀疑自己的学术选择，请记住，即使是所谓的教父们也会改变方向。

#7 DINOv3 / 基础视觉模型

Siméoni, Oriane, 等人. “DINOv3.” arXiv 预印本 arXiv:2508.10104 (2025).

当语言处理的世界已经发展到使用适用于每个任务的通用大模型（即基础模型）时，图像处理领域仍在努力达到这一水平。在这篇论文中，我们看到了 DINO 模型的当前迭代，这是一个旨在成为视觉基础的自监督图像模型。

原因 1: 与文本相比，自监督预训练在除文本以外的其他问题领域中仍然相对较新，尤其是如果完全在问题域内进行（而不是添加文本描述来帮助它）。

原因 2: 即使你的工作是与 LLMs 打交道，也不要只阅读语言论文。多样性是关键。

原因 3: 语言模型在向通用人工智能（AGI）发展的过程中只能走这么远。视觉对于类似人类的智能至关重要。

进一步阅读: 在视觉主题上继续深入，了解YOLO和Segment-Anything模型是值得的。前者是物体检测的标准（但也提供了针对其他问题的版本），而后者是图像分割。至于图像生成，我觉得有趣的是，几年前我们都会谈论 GANs（生成对抗网络），而现在可能很多人都没有听说过。我甚至多年前就为GAN 论文列了一个类似的清单。

#8 小型语言模型是未来

Belcak, Peter, 等人。 “小型语言模型是代理式 AI 的未来。” arXiv 预印本 arXiv:2506.02153 (2025)。

“生成式 AI”领域正在迅速更名为“代理式 AI”。当人们试图理解如何从中赚钱时，他们会在运行巨型模型时大量投入风险投资资金。在这篇论文中，作者们认为小型语言模型（< 10B 参数，按他们的定义）是代理式 AI 发展的未来。

更详细地说，他们认为在代理解决方案上执行的大多数子任务都是重复的、定义明确的和非对话性的。因此，大型语言模型（LLMs）有点过度。如果你包括微调，SMLs 可以轻易地成为专业化的代理，而 LLMs 则擅长开放任务。

原因 1: 我们今天所说的“大型”语言模型可能正是明天的“小型”模型。了解小型语言模型（SMLs）是面向未来的保障。

原因 2: 许多人声称今天的 AI 很大程度上是由风险投资（VC）资金补贴的。在不久的将来，我们可能会看到 AI 成本的大幅增加。使用 SMLs 可能成为许多企业的唯一选择。

原因 3: 这篇论文读起来非常容易。事实上，我认为这是我第一次读到一篇如此明确地捍卫一个论点的论文。

进一步阅读： 对于边缘 AI/低延迟执行，小模型是唯一的选择。当将 AI 应用于视频流时，模型+后处理需要在小于 33 毫秒内执行，以处理 30fps 的流。你不能往返到云端或批量处理帧。如今，有各种各样的工具，如英特尔 OpenVINO，NVIDIA 的 Tensor-RT，或TensorFlow-Lite在有限的硬件上进行快速推理。

#9 彩票假设（2019）

Frankle, Jonathan, 和 Michael Carbin. “彩票假设：寻找稀疏、可训练的神经网络。” arXiv 预印本 arXiv:1803.03635 (2018).

作为对小模型的后续研究，一些作者已经表明，我们很可能没有将网络的参数训练到其最大潜力。这是“人类只使用了他们大脑的 10%”在神经网络中的应用。在这篇文献中，彩票假设无疑是我在看到的最引人入胜的论文之一。

Frankle 等人发现，如果你（1）训练一个大网络，（2）剪除所有低值权重，（3）将剪枝网络回滚到其未训练状态，（4）重新训练；你将得到一个性能更好的网络。换句话说，训练所做的就是揭示一个子网络，其初始随机参数与解决问题相一致——其余的都是噪声。通过仅利用这个子网络，我们可以超越原始网络性能。与基本的网络剪枝不同，这提高了结果。

原因 #1: 我们习惯了“大模型更好但更慢”而“小模型愚蠢但快”。也许我们就是那些坚持大模型总是更好的愚蠢者。

原因 #2: 一个开放的问题是我们的参数有多少是被低估的。同样，我们如何充分利用我们的权重？甚至，测量一个神经网络的学习潜力是否可能？

原因 #3: 在训练之前，你有多少次关心过你的模型参数是如何初始化的？

进一步阅读： 虽然这篇论文是 2018 年的，但有一个关于该假设的2024 年调查。对比之下，“机器学习中过度参数化的作用——好、坏、丑（2024）”讨论了过度参数化实际上是推动神经网络的动力。在更实用的方面，这篇调查涵盖了知识蒸馏的主题，使用大网络训练小网络，使其尽可能接近大网络的表现。

#10 AlexNet（2012）

Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. “使用深度卷积神经网络进行 ImageNet 分类。” 神经信息处理系统进展。2012.

你能相信我们今天看到的所有神经网络内容实际上只是从 13 年前开始的吗？在那之前，神经网络在笑话和失败的承诺之间徘徊。如果你想得到一个好的模型，你会使用 SVMs 或一大堆手工设计的技巧。

在 2012 年，作者们提出了使用 GPU 来训练用于 ImageNet 挑战的大型卷积神经网络（CNN）。令大家惊讶的是，他们以大约 15%的 Top-5 错误率赢得了第一名，而第二名使用了最先进的图像处理技术，错误率约为 26%。

原因 #1: 虽然我们大多数人知道 AlexNet 的历史重要性，但并非所有人都知道我们今天使用的哪些技术在此之前就已经存在。你可能会惊讶于论文中引入的许多概念是多么熟悉，比如 dropout 和 ReLU。

原因 #2: 提出的网络有 6000 万个权重，这在 2012 年的标准下简直是疯狂。如今，万亿参数的 LLMs 即将到来。阅读 AlexNet 论文让我们对自那时以来事物的发展有了深刻的洞察。

进一步阅读: 跟随 ImageNet 冠军的历史，你可以阅读ZF Net，VGG，Inception-v1和ResNet的论文。最后一个实现了超人类的表现，解决了挑战。之后，其他竞赛吸引了研究者的注意力。如今，ImageNet 主要用于验证激进的新架构。

AlexNet 结构的原始描述。顶部和底部各由 GPU 1 和 2 分别处理。这是早期的一种模型并行形式。来源：AlexNet 论文

这就结束了。如果你对这篇文章或论文有任何问题，请随意评论或与我联系。编写这样的列表是非常多的工作。如果这篇文章对你来说是一次有价值的阅读，请友好地与你的同行分享。谢谢！

如果你想要继续阅读，可以考虑我过去四篇关于 AI 的论文，以了解实例 [1]，[2]，[3]和[4]。

posted @ 2026-03-27 09:47 绝不原创的飞龙阅读(13) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈