随笔分类 - 机器学习
机器学习基础方法
摘要:概述 BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre train方法上,即用了Masked LM和Next
阅读全文
摘要:下面的代码自下而上的实现Transformer的相关模块功能。这份文档只实现了主要代码。由于时间关系,我无法实现所有函数。对于没有实现的函数,默认用全大写函数名指出,如SOFTMAX 由于时间限制,以下文档只是实现了Transformer前向传播的过程。 输入层 输入层包括Word Embeddin
阅读全文
摘要:"参考1" , "参考2" 直观理解 先来看一个翻译的例子“I arrived at the bank after crossing the river” 这里面的bank指的是银行还是河岸呢,这就需要我们联系上下文,当我们看到river之后就应该知道这里bank很大概率指的是河岸。在RNN中我们就
阅读全文
摘要:基本思想 生成器 从先验分布中采得随机信号,经过神经网络变换,得到模拟样本 判别器 接受来自生成器的模拟样本,也接受来自实际数据集的真实样本,并进行判断 训练过程 训练判别器:先固定生成器$G(\cdot)$,然后利用生成器随机模拟产生样本$G(z)$作为负样本,并从真实数据集采样正样本$X$;将这
阅读全文

浙公网安备 33010602011771号