BERT 学习笔记

Bert的三大特点:

1、预训练和微调

  预训练 就是指预先训练的一个模型或者指预先训练模型的过程

  微调 就是指将预训练过的模型作用于自己的数据集,并使参数适应自己数据集的过程

  说到微调,就要说起迁移学习。

  迁移学习是指一种学习对另一种学习的影响,或习得的经验对完成其他活动的影响。在过去,前人们训练出了好多很好的模型,但是,随着时间变迁,许多情况在改变,那些很好的模型可能不再适合现在的数据了。如何让前人的好模型继续发挥它们的作用呢?有人想到迁移学习,以前的好模型还能继续用,只是以前的模型输出成为新模型的输入。这样,不仅可以能让结果更好,而且能让训练效率更高,大大加快了速度。

2、双向LSTM

  LSTM:是长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

  LSTM效果很好,但是在bert之前一般都是用的单向LSTM,比如从左向右的LSTM用在提取文本的特征时,只能获取到文本左边的信息。也有从左到右LSTM和从右到左LSTM都使用的,但是是分开使用。为什么没有双向一起使用的呢?因为双向使用的话,会出现“自己看到自己”的问题,自己既作为训练数据也作为预测数据,那么根本达不到效果。所以BERT加入了MASK,避免“自己看到自己”的问题了,从而能用双向LSTM,获取上下文信息。  

3、MASK

  Masked LM,类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替,可以放心双向encoding。

posted on 2019-05-19 19:34  桩子101  阅读(669)  评论(1编辑  收藏  举报