博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

ImageNet Classification with Deep Convolutional Neural Networks 阅读笔记

① 原文(标题原文)

ImageNet Classification with Deep Convolutional Neural Networks

② 中文翻译

使用深度卷积神经网络进行 ImageNet 图像分类

👉 with = using / by means of
在论文标题中,with 几乎等价于:

  • using
  • based on
  • via

📌 这是一种非常常见的 “任务 + 方法” 型标题格式。

🔹 Classification

  • 名词:分类
  • 在机器学习中是一个标准任务类型

与之对应的常见任务:

  • classification(分类)
  • detection(检测)
  • segmentation(分割)
  • retrieval(检索)

🔹 Deep

  • 形容词:深的
  • 在 2012 年,“deep” 是一个非常有分量的词

含义不是“随便多几层”,而是:

  • 相比当时主流的 2–3 层模型
  • AlexNet 使用了 8 个有参数的层
    • 5 个卷积层
    • 3 个全连接层

👉 “Deep” 在当时就是创新点之一

🔹 Convolutional Neural Networks

  • 卷积神经网络(CNNs)
  • 复数形式,说明这是一类模型

📌 注意细节:

  • 不是 a convolutional neural network
  • 而是 convolutional neural networks

这暗示:

  • 作者强调的是 方法体系
  • 而不是一个“玩具式的单模型”

Abstract

① 原文(你提供的句子)

Abstract
We trained a large, deep convolutional neural network to classify the 1.2 million
high-resolution images in the ImageNet LSVRC-2010 contest into the 1000 different classes.

② 中文翻译(学术、自然)

摘要
我们训练了一个规模大、层次深的卷积神经网络,用于将 ImageNet LSVRC-2010 竞赛中的 120 万张高分辨率图像分类到 1000 个不同的类别中。

1️⃣ 句子主干结构(先抓骨架)

这是一句典型的科研写作“方法 + 任务”句式

We trained A to do B

  • We trained
    → 我们训练了(过去时,描述已完成工作)
  • a large, deep convolutional neural network
    → 一个大型、深度的卷积神经网络(A)
  • to classify … into …
    → 用来将……分类为……(B)

📌 核心主干非常清晰,几乎所有顶会 Abstract 都是这种句型。

🔹 in the ImageNet LSVRC-2010 contest

  • in 表示“属于 / 来自”
  • LSVRC = Large Scale Visual Recognition Challenge

📌 contest 这个词很关键:

  • 说明这是竞赛标准
  • 结果是可对比、可复现、权威的

🔹 into the 1000 different classes

  • classify A into B:固定搭配
  • different 在这里不是废话,而是强调类别之间的区分性

3️⃣ 数字表达的学术规范

  • 1.2 million
    而不是 1,200,000
    👉 学术论文中非常标准
  • the 1000 different classes
    • the,因为这是 ImageNet 官方定义的那 1000 类

① 原文(你提供的句子)

On the test data, we achieved top-1 and top-5 error rates of 37.5%
and 17.0% which is considerably better than the previous state-of-the-art.

② 中文翻译(学术、精准)

在测试数据上,我们取得了 37.5% 的 top-1 错误率和 17.0% 的 top-5 错误率,这一结果显著优于此前的最先进方法。

🔹 achieved … error rates of …

  • achieve 在论文中 ≠ “实现”
  • 更准确含义:“取得(实验指标)”

非常常见搭配:

  • achieved an accuracy of …
  • achieved state-of-the-art performance

🔹 top-1 / top-5 error rate

这是 ImageNet 特有的评测语言,非常关键,后面整篇论文都会围绕它展开。

🔹 considerably better than …

  • considerably = 显著地 / 相当程度上
  • slightly / marginally 强很多
  • 但又没有 dramatically 那么浮夸

👉 这是顶会论文最喜欢的“克制型夸奖”

considerably | BrE kənˈsɪd(ə)rəbli, AmE kənˈsɪdər(ə)bli | adverb 相当多地 xiāngdāng duō de▸ to be considerably better/worse 好/坏得多▸ the weather is considerably improved 天气明显转好了

dramatically | BrE drəˈmatɪkli, AmE drəˈmædək(ə)li | adverb① Theatre 从戏剧角度 cóng xìjù jiǎodù ② (in a theatrical way) 戏剧性地 xìjùxìng de▸ she laid her hand dramatically on her bosom 她夸张做作地把一只手放在胸口上 ③ (causing excitement) 激动人心地 jīdòng rénxīn de ④ (radically) 突发惊人地 tūfā jīngrén de▸ his influence declined dramatically 他的影响力大减▸ to deteriorate dramatically 急剧恶化

🔹 previous state-of-the-art

  • state-of-the-art(SOTA):当前最先进水平
  • previous:之前的(即作者工作之前)

📌 合在一起是一个高度标准化术语

previous state-of-the-art = 以往最好方法

3️⃣ 为什么用 error rate,而不是 accuracy?

这是一个非常重要的专业细节

  • error rate = 1 − accuracy
  • 在 ImageNet 竞赛中,官方报告的是 error rate

👉 所以论文完全遵循竞赛规范

🔥 1️⃣ 什么是 top-1 / top-5 error?

✅ top-1 error

  • 模型预测的 概率最高的那个类别
  • 是否等于真实标签
  • 错了 → 记一次 error

✅ top-5 error

  • 模型给出的 概率最高的前 5 个类别
  • 只要真实标签在其中 → 算正确

📌 ImageNet 类别多(1000 类),top-5 非常重要。

① 原文(你提供的句子)

The neural network, which has 60 million parameters and 650,000 neurons, consists
of five convolutional layers, some of which are followed by max-pooling layers,
and three fully-connected layers with a final 1000-way softmax.

② 中文翻译(准确 + 学术)

该神经网络包含 6000 万个参数和 65 万个神经元,其结构由五个卷积层组成,其中部分卷积层后接最大池化层,并包含三个全连接层,最后以一个 1000 维的 softmax 层作为输出。

3️⃣ consists of …(固定搭配)

  • consist of = 由……组成
  • ⚠️ 永远不用被动:❌ is consisted of

这是论文写作中高频必背搭配

5️⃣ 1000-way softmax 的语言点

  • N-way = N 类输出
  • 1000-way softmax = 1000 类概率分布

📌 这是 ImageNet 分类的标准输出形式。

dropout | BrE ˈdrɒpaʊt, AmE ˈdrɑpˌaʊt | noun ① (from school) 退学者 tuìxuézhě▸ a college dropout 大学肄业生▸ dropout rate 退学率 ② (from society) 退出主流社会的人 tuìchū zhǔliú shèhuì de rén

🔥 2️⃣ 参数 vs 神经元:为什么两个数字都给?

  • parameters(参数)
    • 权重数量
    • 决定模型容量
  • neurons(神经元)
    • 激活单元数量
    • 决定计算图规模

📌 同时给两个数字是为了强调:

这不是“参数多但结构简单”的模型,而是真正的大规模深网

🔥 5️⃣ final 1000-way softmax = 标准分类头

  • softmax 输出的是:
    • 一个 1000 维概率分布
  • 与:
    • multinomial logistic regression 等价

👉 为后面讲 loss function 埋下伏笔。

1️⃣ 先明确:什么是「正则化」的本质?

在机器学习里,正则化不是某一种固定技术,而是一个目的导向的概念

正则化 = 任何能够减少过拟合、提高泛化能力的方法

经典正则化只是其中一类。

4️⃣ 为什么 AlexNet 论文明确说 dropout 是 regularization?

论文原文(你后面会读到)中明确写道:

a recently-developed regularization method called “dropout”

因为在实验中他们发现:

  • 不用 dropout → 严重过拟合
  • 用 dropout → test error 大幅下降
  • 训练误差反而更高(这是正则化的典型特征)

👉 所以从经验效果上,它就是正则化。

把一组任意实数,变成一个“概率分布”

数学形式:
$$
\text{softmax}(z_i) = \frac{e{z_i}}{\sum_{j=1} e^{z_j}}
$$
输出满足:

  • 每一维 ∈ (0, 1)
  • 所有维度之和 = 1

2️⃣ 为什么 ImageNet 一定要用 softmax?

因为 ImageNet 是:

  • 1000 类
  • 单标签分类
  • 互斥类别

这正是 softmax 的适用场景。

👉 softmax = 多分类逻辑回归(multinomial logistic regression)

3️⃣ “1000-way softmax” 的真正含义

不是“一个神经元”,而是:

  • 最后一层有 1000 个输出神经元
  • 每个对应一个类别
  • softmax 把它们变成概率分布

📌 所以:

final 1000-way softmax
= 1000 维概率输出层

4️⃣ softmax 与 loss 的强绑定关系(非常重要)

softmax 几乎总是和下面这个 loss 一起用:

  • categorical cross-entropy
  • 也叫 negative log-likelihood

训练目标是:
$$
\max \log p(y \mid x)
$$
这正是 AlexNet 后面说的:

multinomial logistic regression objective

👉 所以 softmax 不只是“输出层”,
而是整个优化目标的一部分

5️⃣ 为什么不用 sigmoid?

如果你有这个疑问,说明你真的在思考 👍

函数 适合场景
sigmoid 二分类 / 多标签
softmax 多类单标签(互斥)

ImageNet:

  • 一张图 = 一个主类别
  • 类别之间互斥

👉 softmax 是唯一合理选择。

6️⃣ 一个直觉总结

  • dropout

    让模型“别太自信、别太依赖某几个神经元”

  • softmax

    让模型“在 1000 个类里,只选一个最合理的”

  • dropout 被称为正则化
    👉 因为它限制模型容量、减少过拟合,而不是因为它长得像 L2

  • softmax 是分类头 + 概率建模 + loss 设计的统一体

① 原文(你提供的句子)

To make training faster, we used non-saturating neurons and a very efficient GPU implementation of the convolution operation.

② 中文翻译(学术、自然)

为了加快训练过程,我们采用了非饱和神经元,并实现了高度高效的 GPU 卷积运算实现。

saturate | BrE ˈsatʃəreɪt, AmE ˈsætʃəˌreɪt | transitive verb ① (soak) 将…浸透 jiāng… jìntòu ‹carpet, soil, bandage›; 使…湿透 shǐ… shītòu ‹clothes, body, hair›▸ sweat had saturated his shirt 汗水湿透了他的衬衫 ② (fill to capacity) 使…充满 shǐ… chōngmǎn ‹area, media›; 使…饱和 shǐ… bǎohé‹market›▸ to saturate the market with sth 以某物充斥市场 ③ Chemistry 使…饱和 shǐ… bǎohé ‹vapour, solution›④ Military (bomb, shell) 对…进行饱和轰炸 duì… jìnxíng bǎohé hōngzhà▸ we saturated the area with artillery fire 我们对该地区进行了饱和炮击

1️⃣ 句式结构:目的状语 + 主句

这是一个不定式作目的状语的典型结构:

To do A, we did B and C.

  • To make training faster
    → 为了让训练更快(目的)
  • we used … and …
    → 我们采用了……以及……

📌 这是科研论文中极其常见的逻辑展开方式。

3️⃣ non-saturating neurons(核心术语)

  • non-saturating:非饱和的
  • neurons:神经元(指激活函数类型)

📌 注意:
这里不是说“神经元结构”,而是:

激活函数不容易进入饱和区

一、什么是 non-saturating neurons?为什么它们能加速训练?

1️⃣ 什么叫“饱和”(saturation)?

以当时常用的激活函数为例:

tanh / sigmoid 的问题:

  • 输入很大或很小:
    • 输出接近 ±1 或 0/1
  • 梯度接近 0

👉 梯度消失(vanishing gradient)

2️⃣ non-saturating 指的是谁?

在 AlexNet 中:

ReLU:f(x) = max(0, x)

特点:

  • 正区间:梯度恒定为 1
  • 不会饱和(正半轴)

📌 所以叫 non-saturating

① 原文(你提供的句子)

To reduce overfitting in the fully-connected layers we employed a recently-developed regularization method called “dropout” that proved to be very effective.

② 中文翻译(学术、准确)

为了减少全连接层中的过拟合问题,我们采用了一种最近提出的正则化方法——“dropout”,该方法被证明非常有效。

2️⃣ 关键词与固定搭配

🔹 overfitting

  • 过拟合(训练好、测试差)
  • CV / ML 论文中高频词

🔹 fully-connected layers

  • 全连接层(FC layers)
  • AlexNet 中参数最多、最容易过拟合的部分

📌 这里点明:dropout 不是对整个网络,而是主要针对 FC 层

🔹 employ(而不是 use)

  • use:普通
  • employ:正式、学术、策略性使用

👉 论文更偏好 employ / adopt / introduce

🔹 recently-developed

  • recently + 过去分词
  • 表示:“不久前被提出的”

📌 暗示:dropout 当时是新方法

复合形容词构成

recently-developed

  • 结构:副词 + 过去分词
  • 用连字符连接,作前置定语
  • 类似结构:
    • well-known(众所周知的)
    • newly-discovered(新发现的)
    • widely-used(广泛使用的

1. Overfitting(过拟合)

过拟合是机器学习中的核心问题之一:

概念 含义
过拟合 (Overfitting) 模型在训练数据上表现很好,但在新数据(测试集)上表现差
欠拟合 (Underfitting) 模型在训练数据和测试数据上表现都差

过拟合的原因

  • 模型过于复杂(参数太多)
  • 训练数据太少
  • 训练时间过长

为什么全连接层容易过拟合?

  • 全连接层参数量巨大(本文网络 6000 万参数中,绝大部分在全连接层)
  • 参数越多,越容易"记住"训练数据的噪声

① 原文(你提供的句子)

We also entered a variant of this model in the ILSVRC-2012 competition and achieved a winning top-5 test error rate of 15.3%, compared to 26.2% achieved by the second-best entry.

② 中文翻译(学术、忠实)

我们还将该模型的一个变体提交参加了 ILSVRC-2012 竞赛,并取得了 15.3% 的 top-5 测试错误率,获得冠军;相比之下,第二名方法的错误率为 26.2%。

1️⃣ 句式结构总览

这是一个 并列谓语 + 对比状语 的句子:

We also entered A and achieved B, compared to C.

拆解:

  • We also entered a variant of this model
    → 行为 1:参赛

  • in the ILSVRC-2012 competition
    → 限定比赛

  • and achieved a winning top-5 test error rate of 15.3%
    → 行为 2:取得成绩

  • compared to 26.2% achieved by the second-best entry
    → 对比说明(非完整句)


🔹 entered a variant of this model

这是非常关键的一句话。

  • entered:提交参赛
  • a variant of this model:该模型的一个变体

📌 variant ≠ 完全相同的模型

🔹 second-best entry

  • entry:参赛条目 / 参赛方法
  • second-best:第二名

学术比赛中常用,而不是 “team”。

enter | BrE ˈɛntə, AmE ˈɛn(t)ər | A.intransitive verb ① (come in) 进来 jìnlai; (go in) 进去 jìnqu ② Theatre 上场 shàngchǎng③ (penetrate) «bullet, water, gas» 进入 jìnrù ④ (register for event) 报名参加 bàomíng cānjiā

句式一:enter + 比赛(参加比赛)

"We also entered a variant of this model in the ILSVRC-2012 competition"

  • enter 作"参加(比赛/竞赛)"讲时,是及物动词
  • 搭配:enter a competition / contest / race
  • 注意:这里 enter 的宾语是 "a variant",in the competition 是状语

句式二:a variant of(... 的变体)

"a variant of this model"

  • variant:变体、变种
  • 常见搭配:a variant of, variants of
  • 类似表达:a version of, a modification of

句式三:achieve + 成绩(取得某成绩)

"achieved a winning top-5 test error rate of 15.3%"

  • achieve + 名词:取得、达到
  • 学术论文常用搭配:
    • achieve an accuracy of...
    • achieve an error rate of...
    • achieve state-of-the-art results

句式五:achieved by(由...取得)

"26.2% achieved by the second-best entry"

  • 过去分词短语作后置定语
  • 等同于:which was achieved by...
  • 被动结构的简化形式
winning adj. 获胜的
entry n. 参赛作品/参赛者
second-best adj. 第二好的

Introduction

原文展示

1 Introduction

Current approaches to object recognition make essential use of machine learning methods.


中文翻译

1 引言

当前的目标识别方法都在核心环节使用了机器学习方法。

object recognition n. 目标识别

1. 句子结构分析

这是一个简洁的陈述句:

Code

Current approaches to object recognition    make essential use of    machine learning methods. 
              主语                              谓语                       宾语

主干:Approaches make use of methods.

句式一:approaches to + 名词(针对... 的方法)

"approaches to object recognition"

  • approach to:解决/处理某问题的方法
  • 注意介词用 to,不是 for 或 of
  • 类似表达:
    • solutions to the problem(问题的解决方案)
    • the key to success(成功的关键)
    • the answer to the question(问题的答案)

句式二:make use of(利用、使用)

"make essential use of machine learning methods"

  • make use of = use = utilize = employ
  • 固定搭配,可在 use 前加形容词修饰:
    • make good use of(好好利用)
    • make full use of(充分利用)
    • make essential use of(在核心环节使用)

Machine Learning Methods(机器学习方法)

两个阶段

  1. 特征提取(人工设计):SIFT, HOG, SURF 等
  2. 分类器(机器学习):SVM, 随机森林, Boosting 等

原文展示

To improve their performance, we can collect larger datasets, learn more powerful models, and use better techniques for preventing overfitting.


中文翻译

为了提升这些方法的性能,我们可以收集更大的数据集、学习更强大的模型,以及使用更好的技术来防止过拟合。

1. 句子结构分析

Code

To improve their performance,    we can [collect...  ], [learn... ], and [use...  ]
       目的状语                    主语    并列动作1      并列动作2       并列动作3

主干:We can collect, learn, and use...

这是一个典型的并列结构句,用 and 连接三个动词短语。

句式二:A, B, and C(三项并列)

"collect larger datasets, learn more powerful models, and use better techniques"

  • 英语中三项或以上并列时,常用 A, B, and C 结构
  • 最后一个 and 前的逗号称为 Oxford comma(牛津逗号),学术写作中推荐使用
  • 三个动词短语保持结构一致(平行结构)

句式三:techniques for + doing(用于做某事的技术)

"techniques for preventing overfitting"

  • for + doing:用于做某事
  • 类似搭配:
    • methods for solving... (解决... 的方法)
    • strategies for improving...(改进... 的策略)
    • tools for analyzing...(分析... 的工具)

比较级的使用

本句使用了三个比较级:

原级 比较级 例句中的用法
large larger larger datasets
powerful more powerful more powerful models
good better better techniques

构成规则

  • 单音节词:加 -er(large → larger)
  • 多音节词:前加 more(powerful → more powerful)
  • 不规则变化:good → better, bad → worse

原文展示

Until recently, datasets of labeled images were relatively small — on the order of tens of thousands of images (e.g., NORB [16], Caltech-101/256 [8, 9], and CIFAR-10/100 [12]).


中文翻译

直到最近,带标签的图像数据集规模都相对较小——大约只有数万张图像(例如 NORB [16]、Caltech-101/256 [8, 9] 和 CIFAR-10/100 [12])。

句式二:on the order of(大约,数量级为)

"on the order of tens of thousands of images"

  • on the order of:大约,在...数量级上
  • 常用于表示近似数量,尤其是较大的数字
  • 科学/学术论文中常见表达
  • 类似表达:approximately, roughly, about
relatively adv. 相对地 形容词:relative

原文展示

Simple recognition tasks can be solved quite well with datasets of this size, especially if they are augmented with label-preserving transformations.


中文翻译

简单的识别任务用这种规模的数据集就可以解决得相当好,尤其是如果对数据进行保持标签不变的变换来进行增强的话。

句式四:be augmented with(用...来增强)

"if they are augmented with label-preserving transformations"

  • augment with:用...来增强/扩充
  • 被动语态:be augmented with
  • 机器学习领域常用术语
词汇 词性 含义 备注
augment v. 增强,扩充 名词:augmentation
preserve v. 保持,保留 名词:preservation
transformation n. 变换,转换 动词:transform

复合形容词:label-preserving

"label-preserving transformations"

  • 结构:名词 + 现在分词(-ing)
  • 含义:保持标签不变的
  • 构词法
    • label(标签)+ preserving(保持)
    • 用连字符连接构成复合形容词
复合形容词 含义
time-consuming 耗时的
energy-saving 节能的
ground-breaking 开创性的
decision-making 决策的

Data Augmentation(数据增强)

augment | BrE ɔːɡˈmɛnt, AmE ɔɡˈmɛnt | transitive verb增加 zēngjiā▸ to augment sth with sth/by doing sth 以某事物/通过做某事增加某物

Label-Preserving Transformations(保持标签不变的变换)

原文展示

For example, the current-best error rate on the MNIST digit-recognition task (<0.3%) approaches human performance [4]. But objects in realistic settings exhibit considerable variability, so to learn to recognize them it is necessary to use much larger training sets.

中文翻译

例如,目前在 MNIST 数字识别任务上的最佳错误率(<0.3%)已接近人类水平 [4]。但是,现实环境中的物体呈现出相当大的多样性,因此要学会识别它们,就必须使用大得多的训练集。

句式二:approach + 名词(接近...)

"the current-best error rate... approaches human performance"

  • approach 作动词:接近、趋近
  • 常用于表示数值或水平接近某个标准
  • 例句:
    • The temperature approaches 40°C. (温度接近40度)
    • Our results approach state-of-the-art. (我们的结果接近最先进水平)

句式三:exhibit + 名词(呈现出...、表现出...)

"objects in realistic settings exhibit considerable variability"

  • exhibit:呈现、展示(正式用语)
  • 近义词:show, display, demonstrate
  • 学术写作中常用于描述事物特征

句式四:it is necessary to do(有必要做...)

"it is necessary to use much larger training sets"

  • it 是形式主语,真正主语是后面的 to use.. .
  • 结构:It is + adj. + to do sth.
  • 类似结构:
    • It is important to... (... 很重要)
    • It is essential to...(...是必要的)
    • It is difficult to...(...很困难)
词汇 词性 含义 备注
setting n. 环境,场景 此处指现实场景

Realistic Settings(现实环境)

Considerable Variability(相当大的多样性)

原文展示

And indeed, the shortcomings of small image datasets have been widely recognized (e.g., Pinto et al. [21]), but it has only recently become possible to collect labeled datasets with millions of images.


中文翻译

事实上,小型图像数据集的不足之处已被广泛认识到(例如,Pinto 等人 [21]),但直到最近,收集包含数百万张图像的带标签数据集才成为可能。

句式一:And indeed(而且事实上)

"And indeed, the shortcomings... have been widely recognized"

  • indeed:的确,事实上
  • 用于加强语气,强调前文论点的正确性
  • And indeed 连接上下文,表示"不仅如此,而且确实如此"

句式三:et al.(等人)

"Pinto et al. [21]"

  • **et al. ** = et alia(拉丁语)= and others
  • 学术写作中引用多作者文献时使用
  • 读作 /ɛt ˈæl/ 或 "and others"
  • 格式:第一作者姓 + et al.

句式五:only recently(直到最近才)

"it has only recently become possible"

  • only recently:直到最近才
  • only 强调时间之晚/之近
  • 暗示:以前不可能,现在才可能

原文展示

The new larger datasets include LabelMe [23], which consists of hundreds of thousands of fully-segmented images, and ImageNet [6], which consists of over 15 million labeled high-resolution images in over 22,000 categories.


中文翻译

新的大规模数据集包括 LabelMe [23](包含数十万张完整分割的图像)和 ImageNet [6](包含超过 1500 万张带标签的高分辨率图像,涵盖 22000 多个类别)。

词汇 词性 含义 备注
hundreds of thousands of - 数十万 100,000 - 999,999
fully-segmented adj. 完全分割的 复合形容词

Fully-segmented(完全分割)的含义

Code

普通分类标签:              完全分割标签:
┌─────────────┐            ┌─────────────┐
│             │            │ ░░░░░░░░░░░ │  ← 天空
│    🚗       │            │ ████        │  ← 车
│             │            │ ▓▓▓▓▓▓▓▓▓▓▓ │  ← 道路
└─────────────���            └─────────────┘
标签:"有车"                标签:每个像素都有类别

原文展示

To learn about thousands of objects from millions of images, we need a model with a large learning capacity. However, the immense complexity of the object recognition task means that this problem cannot be specified even by a dataset as large as ImageNet, so our model should also have lots of prior knowledge to compensate for all the data we don't have.


中文翻译

要从数百万张图像中学习识别数千种物体,我们需要一个具有很强学习能力的模型。然而,目标识别任务的巨大复杂性意味着,即使是像 ImageNet 这么大的数据集也无法完全定义这个问题,因此我们的模型还应该具备大量的先验知识,以弥补我们所缺少的数据。

句式三:... means that... (...意味着...)

"the immense complexity... means that this problem cannot be specified"

  • mean that + 从句:意味着...
  • that 引导宾语从句
  • 学术写作中常用于阐述逻辑关系

式四:even by...(即使通过/用... )

"this problem cannot be specified even by a dataset as large as ImageNet"

  • even:即使、甚至
  • 强调程度之深:连 ImageNet 这么大的数据集都不够
  • by:通过、用(表示方式)

句式六:compensate for(弥补)

"to compensate for all the data we don't have"

  • compensate for:弥补、补偿
  • 固定搭配,for 不可省略
  • 近义词:make up for

句式七:all the data (that) we don't have(所有我们没有的数据)

"all the data (that) we don't have"

  • 省略了关系代词 that
  • that 在定语从句中作宾语时可省略
  • 完整形式:all the data that we don't have
词汇 词性 含义 备注
immense adj. 巨大的 近义词:enormous, huge
complexity n. 复杂性 形容词:complex
specify v. 明确规定;详细说明 名词:specification
prior adj. 先验的;先前的 prior knowledge 先验知识
knowledge n. 知识 不可数名词
compensate v. 弥补,补偿 名词:compensation

"Cannot be Specified"(无法被完全定义)

Prior Knowledge(先验知识)⭐

先验知识是指在看到数据之前就已经具备的知识,它内嵌于模型的设计中:

先验知识类型 CNN 中的体现 作用
局部性 卷积核只看局部区域 相邻像素更相关
平移不变性 权重共享 物体在哪都是同一物体
层次性 多层结构 特征从简单到复杂
空间结构 2D 卷积 保持图像的空间关系

CNN 的先验知识图解

Code

CNN 内置的先验知识:

① 局部连接(Locality)
   "相邻像素更可能相关"
   
   全连接:               局部连接:
   ● ● ● ● ●           ● ● ● ● ●
   │╲│╱│╲│╱│           │ │ │ │ │
   ● ● ● ● ●           └─●─┘ └─●─┘
   所有连接               只看局部

② 权重共享(Weight Sharing)
   "同一特征在图像各处都可能出现"
   
   [边缘检测器] → 在整张图像上滑动使用同一组权重

③ 池化(Pooling)
   "精确位置不重要,大概位置重要"
   
   [2x2区域] → [取最大值] → 保留特征,忽略精确位置

原文展示

Convolutional neural networks (CNNs) constitute one such class of models [16, 11, 13, 18, 15, 22, 26].


中文翻译

卷积神经网络(CNNs)就是这样一类模型 [16, 11, 13, 18, 15, 22, 26]。

句式一:constitute(构成、是)

"CNNs constitute one such class of models"

  • constitute:构成、组成;相当于
  • 正式用语,学术写作常用
  • 近义词:
    • represent(代表)
    • form(形成)
    • make up(构成)
    • be(是)

例句对比

表达 正式程度
CNNs are one such class 一般
CNNs represent one such class 较正式
CNNs constitute one such class 正式

句式三:a class of(一类)

"one such class of models"

  • class:类、类别
  • a class of:一类、一种
  • 类似表达:
    • a type of(一种)
    • a category of(一类)
    • a family of(一族)

原文展示

Their capacity can be controlled by varying their depth and breadth, and they also make strong and mostly correct assumptions about the nature of images (namely, stationarity of statistics and locality of pixel dependencies).


中文翻译

CNN 的学习能力可以通过改变其深度和宽度来控制,而且它们还对图像的本质做出了强有力且基本正确的假设(即统计的平稳性和像素依赖关系的局部性)。

句式二:by varying(通过改变)

"by varying their depth and breadth"

  • vary:改变、调整
  • by + 动名词:通过...方式
  • vary 在机器学习中常指调整超参数

句式三:make assumptions about(对...做出假设)

"they make strong and mostly correct assumptions about the nature of images"

  • make assumptions:做出假设
  • about:关于(引出假设的内容)
  • 固定搭配,学术写作常见

句式四:strong and mostly correct(强有力且基本正确的)

"strong and mostly correct assumptions"

  • 两个形容词并列修饰 assumptions
  • strong:强有力的(��设约束性强)
  • mostly correct:大部分/基本正确的

句式五:namely(即、也就是说)

"(namely, stationarity of statistics and locality of pixel dependencies)"

  • namely:即,也就是
  • 用于解释或具体说明前面的内容
  • 类似表达:
    • that is (i.e.)
    • specifically
    • in other words
词汇 词性 含义 备注
capacity n. 能力,容量 此处指学习能力
vary v. 改变,变化 名词:variation
depth n. 深度 形容词:deep
breadth n. 宽度,广度 形容词:broad
nature n. 本质,性质 形容词:natural
namely adv. 即,也就是 用于解释说明
stationarity n. 平稳性 形容词:stationary
statistics n. 统计特性 形容词:statistical
locality n. 局部性 形容词:local
dependency n. 依赖关系 动词:depend

4. 词汇辨析:depth vs breadth

词汇 含义 CNN 中的含义
depth 深度 网络层数
breadth 宽度/广度 每层的神经元/滤波器数量

注意:breadth 和 width 在此上下文中含义相近,但 breadth 更正式,常与 depth 搭配使用。

mostly 的用法

"mostly correct assumptions"

  • mostly:大部分,基本上
  • 表示"大体正确,但不完全正确"
  • 作者的严谨表达:承认假设并非 100% 正确

程度副词对比

副词 程度
completely 100%
mostly ~80-90%
partially ~50%
slightly ~10-20%

原文展示

Thus, compared to standard feedforward neural networks with similarly-sized layers, CNNs have much fewer connections and parameters and so they are easier to train, while their theoretically-best performance is likely to be only slightly worse.


中文翻译

因此,与具有相似规模层的标准前馈神经网络相比,CNN 的连接和参数要少得多,因此它们更容易训练,而其理论上的最佳性能可能只会稍差一点。

句式三:with similarly-sized layers(具有相似规模层的)

"networks with similarly-sized layers"

  • with + 名词短语:具有...的
  • 作后置定语修饰 networks
  • similarly-sized:大小相似的(复合形容词)

句式四:much fewer(少得多)

"CNNs have much fewer connections and parameters"

  • fewer:更少的(修饰可数名词)
  • much 修饰比较级,表示程度"... 得多"
  • 对比:
    • fewer(可数):fewer parameters
    • less(不可数):less memory

句式七:be likely to(可能会)

"their theoretically-best performance is likely to be only slightly worse"

  • be likely to do:可能会...
  • 表示推测、可能性
  • 类似表达:
    • is likely to be(可能是)
    • is expected to be(预计是)
    • tends to be(倾向于是)

句式八:only slightly(只是稍微)

"only slightly worse"

  • only:仅仅、只是(强调程度小)
  • slightly:稍微、轻微地
  • 组合起来强调差距很小
词汇 词性 含义 备注
feedforward adj. 前馈的 网络类型
similarly-sized adj. 大小相似的 复合形容词
theoretically adv. 理论上 形容词:theoretical
slightly adv. 稍微 形容词:slight

比较级的强化

本句展示了如何强化比较级:

表达 含义 强度
fewer 更少 基本比较
much fewer 少得多 强化比较
slightly worse 稍差一点 弱化比较
only slightly worse 只是稍差一点 进一步弱化

1. Feedforward Neural Networks(前馈神经网络)

前馈神经网络是最基本的神经网络结构:

Code

前馈神经网络(全连接):

输入层        隐藏层        输出层
  ●───────────●───────────●
  ●─────╲ ╱───●─────╲ ╱───●
  ●──────╳────●──────╳────●
  ●─────╱ ╲───●─────╱ ╲───●
  ●───────────●───────────●

特点:
• 信息单向流动(前馈)
• 每个神经元与下一层所有神经元连接(全连接)
• 没有循环/反馈

"Theoretically-Best Performance"(理论最佳性能)

偏差-方差权衡(Bias-Variance Tradeoff)