2019 年 5月随笔档案 - 虾野百鹤

Seq2Seq模型与 Attention 策略

摘要：Seq2Seq模型传统的机器翻译的方法往往是基于单词与短语的统计，以及复杂的语法结构来完成的。基于序列的方式，可以看成两步，分别是 Encoder 与 Decoder ，Encoder 阶段就是将输入的单词序列(单词向量)变成上下文向量，然后 decoder根据这个向量来预测翻译的结果。 enco 阅读全文

posted @ 2019-05-18 16:43 虾野百鹤阅读(2194) 评论(0) 推荐(1)

CS224n学习笔记（三）

摘要：语言模型对于一个文本中出现的单词 $w_i$ 的概率，他更多的依靠的是前 $n$ 个单词，而不是这句话中前面所有的单词。 $$ P\left(w_{1}, \ldots, w_{m}\right)=\prod_{i=1}^{i=m} P\left(w_{i} | w_{1}, \ldots, w_ 阅读全文

posted @ 2019-05-12 21:56 虾野百鹤阅读(554) 评论(0) 推荐(0)

Dependency Parsing

摘要：句子的依赖结构表现在哪些单词依赖哪些单词。单词之间的这种关系及可以表示为优先级之间的关系等。 Dependency Parsing 通常情况下，对于一个输入句子：$S=w_{0} w_{1} \dots w_{n}$。我们用 $w_{0}$ 来表示 ROOT，我们将这个句子转换成一个图 G。依赖阅读全文

posted @ 2019-05-10 11:08 虾野百鹤阅读(868) 评论(0) 推荐(0)

反向传播BP算法

摘要：前向传播模型一般我们使用的公式是： $$ a=\frac{1}{1+\exp \left( \left(w^{T} x+b\right)\right)} = \frac{1}{1+\exp \left( \left[w^{T} \quad b\right] \cdot[x \quad 1]\rig 阅读全文

posted @ 2019-05-04 11:10 虾野百鹤阅读(402) 评论(1) 推荐(0)

有关一些求导的概念与神经网络梯度下降

摘要：Theory for f : $\mathbb{R}^{n} \mapsto \mathbb{R}$ 先定义一个标识： scalar product $\langle a | b\rangle=\sum_{i=1}^{n} a_{i} b_{i}$ 我们可以定义导数的公式如下： $$ f(x+h)= 阅读全文

posted @ 2019-05-03 20:34 虾野百鹤阅读(945) 评论(1) 推荐(0)

CS224n学习笔记(二)

摘要：Global Vectors for Word Representation (GloVe) GloVe 模型包含一个训练在单词单词的共同出现次数上的加权的最小二乘模型。什么是Co occurrence Matrix 假设单词与单词的 co occurrence matrix 矩阵用 X 表示，阅读全文

posted @ 2019-05-01 20:46 虾野百鹤阅读(526) 评论(0) 推荐(0)

行远自迩登高自卑

05 2019 档案

公告

行远自迩 登高自卑

05 2019 档案

公告

行远自迩登高自卑