BERT 学习笔记

Bert的三大特点：

1、预训练和微调

　　预训练 就是指预先训练的一个模型或者指预先训练模型的过程

　　微调就是指将预训练过的模型作用于自己的数据集，并使参数适应自己数据集的过程

　　说到微调，就要说起迁移学习。

　　迁移学习是指一种学习对另一种学习的影响，或习得的经验对完成其他活动的影响。在过去，前人们训练出了好多很好的模型，但是，随着时间变迁，许多情况在改变，那些很好的模型可能不再适合现在的数据了。如何让前人的好模型继续发挥它们的作用呢？有人想到迁移学习，以前的好模型还能继续用，只是以前的模型输出成为新模型的输入。这样，不仅可以能让结果更好，而且能让训练效率更高，大大加快了速度。

2、双向LSTM

　　LSTM：是长短期记忆网络，是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

　　LSTM效果很好，但是在bert之前一般都是用的单向LSTM，比如从左向右的LSTM用在提取文本的特征时，只能获取到文本左边的信息。也有从左到右LSTM和从右到左LSTM都使用的，但是是分开使用。为什么没有双向一起使用的呢？因为双向使用的话，会出现“自己看到自己”的问题，自己既作为训练数据也作为预测数据，那么根本达不到效果。所以BERT加入了MASK，避免“自己看到自己”的问题了，从而能用双向LSTM，获取上下文信息。　　

3、MASK

　　Masked LM，类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替，可以放心双向encoding。

posted on 2019-05-19 19:34 桩子101 阅读(705) 评论(1) 收藏举报