摘要: 当数据集较小时,CNN 的性能更好;但当数据量大到一定程度(如 JFT-300M 数据集),Transformer(ViT)的性能曲线会斜率更高,最终反超 CNN。其原因可以归结为以下三点: 表达能力的上限 CNN 的归纳偏置(局部性、平移不变性)是一把双刃剑。它预设了特征必须是“局部相关”的。 这 阅读全文
posted @ 2026-01-24 20:15 Kernel-14 阅读(1) 评论(0) 推荐(0)