斯坦福NLP课程 | 第3讲 - 神经网络知识回顾

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/36
本文地址：https://www.showmeai.tech/article-detail/235
声明：版权所有，转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容

ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！

本讲内容的深度总结教程可以在这里查看。视频和课件等资料的获取方式见文末。

引言

CS224n是顶级院校斯坦福出品的深度学习与自然语言处理方向专业课程。核心内容覆盖RNN、LSTM、CNN、transformer、bert、问答、摘要、文本生成、语言模型、阅读理解等前沿内容。

本篇是ShowMeAI对第3课的内容梳理，内容主要是对神经网络知识回顾，会基于NLP的场景做一点结合讲解。

本篇内容覆盖

神经网络基础
命名实体识别
基于窗口数据的预测
基于pytorch实现的分类器

1. 神经网络基础

1.1 分类问题基础

对于分类问题，我们有训练数据集：它由一些样本组成 \(\{x_i, y_i\}_{i=1}^{N}\)

\(x_i\) 是输入，例如单词(索引或是向量)，句子，文档等等(维度为 \(d\) )
\(y_i\) 是我们尝试预测的标签( \(C\) 个类别中的一个)，例如：
类别：感情，命名实体，购买/售出的决定
其他单词
多词序列( 之后会提到)

1.2 分类问题直观理解

训练数据 \(\{x_i, y_i\}_{i=1}^{N}\) ，用一个最简单的2维词向量分类问题作为案例，使用softmax / logistic回归，构建线性决策边界

传统的机器学习/统计学方法：

假设 \(x_i\) 是固定的，训练 softmax/logistic 回归的权重 \(W \in R^{C \times d}\) 来决定决定边界(超平面)

预测阶段，对每个 \(x\) ，预测:

\[p(y \mid x)=\frac{\exp (W_y \cdot x)}{\sum_{c=1}^{C} \exp (W_c \cdot x)} \]

1.3 softmax分类器的细节

我们可以将预测函数分为两个步骤：

将 \(W\) 的 \(y^{th}\) 行和 \(x\) 中的对应行相乘得到分数：

\[W_{y} \cdot x=\sum_{i=1}^{d} W_{y i} x_{i}=f_{y} \]

对 \(c=1, \cdots ,C\) ，计算 \(f_c\)
使用softmax函数获得归一化的概率：

\[p(y \mid x)=\frac{\exp (f_y)}{\sum_{c=1}^{C} \exp (f_c)}=softmax(f_y) \]

1.4 softmax和交叉熵损失

在softmax分类器中最常用到交叉熵损失，也是负对数概率形态。

对于每个训练样本 \((x,y)\) ，我们的目标是最大化正确类 \(y\) 的概率，或者我们可以最小化该类的负对数概率

\[-\log p(y \mid x)=-\log (\frac{\exp(f_y)}{\sum_{c=1}^{C} \exp (f_c)}) \]

使用对数概率将我们的目标函数转换为求和形态，这更容易在推导和应用中使用。

1.5 交叉熵损失理解

交叉熵的概念来源于信息论，衡量两个分布之间的差异

令真实概率分布为 \(p\) ，我们计算的模型概率分布为 \(q\)
交叉熵为

\[H(p, q)=-\sum_{c=1}^{C} p(c) \log q(c) \]

假设标准答案的概率分布是，在正确的类上为 \(1\) ，在其他类别上为 \(0\) ：

\[p=[0, \cdots ,0,1,0, \cdots ,0] \]

因为 \(p\) 是独热向量，所以唯一剩下的项是真实类的负对数概率。

1.6 完整数据集上的分类

在整个数据集 \(\{x_i , y_i \}_{(i=1)}^N\) 上的交叉熵损失函数，是所有样本的交叉熵的均值

\[J(\theta)=\frac{1}{N} \sum_{i=1}^{N}-\log \left(\frac{e^{f_{y_{i}}}}{\sum_{c=1}^{C} e^{f_{c}}}\right) \]

不使用 \(f_y=f_y(x)=W_y \cdot x=\sum_{j=1}^{d} W_{yj} x_j\) ，而是使用向量化的形态，基于矩阵来表示 \(f:f=Wx\) 。

1.7 传统的机器学习优化算法

对于传统的机器学习算法（如逻辑回归）来说，一般机器学习的参数 \(\theta\) 通常只由 \(W\) 的列组成

\(\theta=\left[\begin{array}{c}{W_{\cdot 1}} \\ {\vdots} \\ {W_{\cdot d}}\end{array}\right]=W( :) \in \mathbb{R}^{C d}\)

因此，我们只通过以下方式更新决策边界

\[\nabla_{\theta} J(\theta)=\left[\begin{array}{c}{\nabla_{W_{1}}} \\ {\vdots} \\ {\nabla_{W_{d}}}\end{array}\right] \in \mathbb{R}^{C d} \]

1.8 神经网络分类器

单独使用线性分类器Softmax( ≈ logistic回归)并不十分强大
如上图所示，Softmax得到的是线性决策边界
- 对于复杂问题来说，它的表达能力是有限的
- 有一些分错的点，需要更强的非线性表达能力来区分

1.9 神经网络非线性切分

神经网络可以学习更复杂的函数和非线性决策边界
tip ：更高级的分类需要
- 词向量
- 更深层次的深层神经网络

1.10 基于词向量的分类差异

一般在NLP深度学习中：
- 我们学习了矩阵 \(W\) 和词向量 \(x\) 。
- 我们学习传统参数和表示。
- 词向量是对独热向量的重新表示——在中间层向量空间中移动它们——以便 (线性)softmax分类器可以更好地分类。
即将词向量理解为一层神经网络，输入单词的独热向量并获得单词的词向量表示，并且我们需要对其进行更新。

\[\nabla_{\theta} J(\theta)=\left[\begin{array}{c}{\nabla_{W_{1}}} \\ {\vdots} \\ {\nabla_{W_{d a r d v a r k}}} \\ {\vdots} \\ {\nabla_{x_{z e b r a}}}\end{array}\right] \in \mathbb{R}^{C d + V d} \]