Kernel-14

2026年1月24日

摘要：当数据集较小时，CNN 的性能更好；但当数据量大到一定程度（如 JFT-300M 数据集），Transformer（ViT）的性能曲线会斜率更高，最终反超 CNN。其原因可以归结为以下三点：表达能力的上限 CNN 的归纳偏置（局部性、平移不变性）是一把双刃剑。它预设了特征必须是“局部相关”的。这阅读全文

posted @ 2026-01-24 20:15 Kernel-14 阅读(7) 评论(0) 推荐(0)

公告