摘要:
5、word2vec小结 1)CBoW vs Skip-Gram CBoW更快一些。CBoW对于高频词效果较好,低频词常受到较少注意。窗口大小常5左右。 Skip-Gram更慢一些。Skip-Gram对于低频词效果更好,小数据下表现依旧好。窗口大小常10左右。 对于"Yesterday was re 阅读全文
摘要:
1、使用很小的学习率进行学习,且: for l in bert_model.layers: l.trainable = True 2、由于bert模型巨大,我们每次训练只能取batch=4进行训练,而训练4个epoch之后,可以freeze bert模型,单独训练softmax for l in b 阅读全文