摘要: 编码器-解码器(Encoder-Decoder) 以机器翻译为例,输入不定长向量 \(\bm{x}\),希望得到其翻译 \(\bm{y}\),同样是不定长向量。 我们希望将 \(\bm{x}\) 输入编码器得到定长背景信息 \(\bm{c}\),将 \(\bm{c}\) 输入解码器得到 \(\bm{ 阅读全文
posted @ 2024-01-18 16:07 xcyle 阅读(206) 评论(0) 推荐(1)
摘要: 我们已经预训练了词向量,接下来考虑设计神经网络解决更具体的问题。 自然语言不同于图像信息,例如子结构并不具有连续性等等。诸多困难使得CNN难以沿用,一个代替的方法是RNN。 循环神经网络(RNN) 一个单隐藏层的MLP形如:$$\bm H=\phi(\bm{XW}+\bm{b})$$ 即输入 \(\ 阅读全文
posted @ 2024-01-17 14:16 xcyle 阅读(89) 评论(0) 推荐(1)
摘要: 语言模型 对于一段文本 \(W=w^{(1)}w^{(2)}...w^{(T)}\),我们希望计算其出现的概率。 如果直接在数据集中统计出现的数量,复杂度过高。因此目标变为快速估计其概率。 首先整个句子出现的概率可以拆分为若干个条件概率相乘,即 \(P(W)=\prod\limits_{i=1}^T 阅读全文
posted @ 2024-01-16 15:18 xcyle 阅读(195) 评论(0) 推荐(2)
摘要: 批归一化(Batch Normalization) 令一个Batch为 \(\mathcal{B}=\{\bm{x}_1,...,\bm{x}_m\}\),其中 \(\bm{x}_i\in\mathbb{R}^d\)。 求出均值和方差: \[\bm{\mu}:=\frac{1}{m}\sum\lim 阅读全文
posted @ 2024-01-09 15:50 xcyle 阅读(74) 评论(0) 推荐(1)
摘要: 设函数 \(f\) 在有界闭区间 \([a,b]\) 上连续,在 \((a,b)\) 上可微,则存在 \(\xi\in (a,b)\) 使得 \[f'(\xi)=\frac{f(b)-f(a)}{b-a}. \]设函数 \(f\) 在有界闭区间 \([a,b]\) 上连续,在 \((a,b)\) 上 阅读全文
posted @ 2023-11-03 20:28 xcyle 阅读(121) 评论(0) 推荐(2)