随笔分类 -  Deep Learning

摘要:1 简介 BERT全称Bidirectional Enoceder Representations from Transformers,即双向的Transformers的Encoder。是谷歌于2018年10月提出的一个语言表示模型(language representation model)。 1 阅读全文
posted @ 2020-10-20 22:51 ZingpLiu 阅读(7132) 评论(0) 推荐(0)
摘要:TensorFlow默认会占用设备上所有的GPU以及每个GPU的所有显存;如果指定了某块GPU,也会默认一次性占用该GPU的所有显存。可以通过以下方式解决: 1 Python代码中设置环境变量,指定GPU 本文所有代码在tensorflow 1.12.0中测试通过。 import os os.env 阅读全文
posted @ 2020-02-15 23:52 ZingpLiu 阅读(3692) 评论(0) 推荐(1)
摘要:深度学习广泛应用于各个领域。基于transformer的预训练模型(gpt/bertd等)基本已统治NLP深度学习领域,可见transformer的重要性。本文结合《Attention is all you need》论文与Harvard的代码《Annotated Transformer》深入理解t 阅读全文
posted @ 2019-10-24 02:27 ZingpLiu 阅读(44306) 评论(7) 推荐(17)
摘要:Dropout是深度学习中的一种防止过拟合手段,在面试中也经常会被问到,因此有必要搞懂其原理。 1 Dropout的运作方式 在神经网络的训练过程中,对于一次迭代中的某一层神经网络,先随机选择中的一些神经元并将其临时隐藏(丢弃),然后再进行本次训练和优化。在下一次迭代中,继续随机隐藏一些神经元,如此 阅读全文
posted @ 2019-10-08 12:11 ZingpLiu 阅读(18328) 评论(1) 推荐(3)
摘要:0 前言 本文主要内容:介绍Pointer-Generator-Network在文本摘要任务中的背景,模型架构与原理、在中英文数据集上实战效果与评估,最后得出结论。参考的《Get To The Point: Summarization with Pointer-Generator Networks》 阅读全文
posted @ 2019-09-26 11:36 ZingpLiu 阅读(27041) 评论(33) 推荐(2)

/* 登录到博客园之后,打开博客园的后台管理,切换到“设置”选项卡,将上面的代码,粘贴到 “页脚HTML代码” 区保存即可。 */