随笔分类 - NLP
摘要:[课程github] [项目github] 该项目是基于医疗领域知识图谱的问答系统。 目标:从无到有搭建一个医疗领域知识图谱(知识图谱规模较小),并基于此知识图谱搭建问答系统实现自动问题解析和回答。 【未完待续】
阅读全文
摘要:[github] 0. 定义 知识图谱本质上是语义网络(Semantic Network)的知识库 ==> 从实际应用的角度出发,可以简单地把知识图谱理解成多关系图(Multi-relational Graph) 图 图(Graph)是由节点(Vertex)和边(Edge)来构成,多关系图一般包含多
阅读全文
摘要:本文把对抗训练用到了预训练和微调两个阶段,对抗训练的方法是针对embedding space,通过最大化对抗损失、最小化模型损失的方式进行对抗,在下游任务上取得了一致的效果提升。有趣的是,这种对抗训练方法不仅能够在BERT上有提高,而且在RoBERTa这种已经预训练好的模型上也能有所提高,说明对抗训
阅读全文
摘要:课程链接 Motivation 输入是图: 考虑结构和关系信息。 如何在图结构中做Convolution? Spatial-based GNN Aggregate:用neighbor feature update下一层的hidden state Readout:把所有nodes的feature集合起
阅读全文
摘要:参考: 李宏毅《深度学习人类语言处理》 ELMo Embeddings from Language Models BERT Bidirectional Encoder Representations from Transformers ERNIE Enhanced Representation th
阅读全文
摘要:开源代码 主要思想:content + preference,不需要引入额外的内容信息和额外的目标函数,通过dropout来模拟数据缺失进行训练。 本文提出的一种模型,可以结合Memory和Content的信息,但是只使用一个目标函数,即拥有了以往Hybrid model的性能,还解决了冷启动问题,
阅读全文
摘要:参考:「芝麻街」Big Bird : Sparse Attention 再填新成员 背景: 原来的注意力机制复杂度高,q需要和每个key点乘,复杂度是n*n。 存在内存问题,自然也就存在token长度限制。 full attention -> small attention ? big bird =
阅读全文
摘要:参考: 超越BERT、GPT,微软提出通用预训练模型MASS 微软在ICML 2019提出全新的通用预训练方法MASS,在序列到序列的自然语言生成任务中全面超越BERT和GPT。在微软参加的WMT19机器翻译比赛中,MASS帮助中-英、英-立陶宛两个语言对取得了第一名的成绩。 MASS: Maske
阅读全文
摘要:参考: 文本比较算法Ⅰ——LD算法 文本比较算法Ⅱ——Needleman/Wunsch算法 文本比较算法Ⅲ——计算文本的相似度 文本比较算法Ⅳ——Nakatsu算法 目录: 问题 LD算法 Needleman/Wunsch算法 Nakatsu算法 问题 字符串s1 和 字符串s2 的比较算法 ==>
阅读全文
摘要:参考:NLP重铸篇之对抗文本攻击 [ 论文源码: github ] 作者提出了一种对抗样本生成算法TEXTFOOLER。 论文中,作者使用这种方法,对文本分类与文本蕴含两种任务做了测试,成功的攻击了这两种任务的相关模型,包括:BERT,CNN,LSTM,ESIM等等。 问题定义 一个有效的样本:和原
阅读全文
摘要:论文:Lite Transformer with Long-Short Range Attention by Wu, Liu et al. [ code in github ] LSRA特点:两组head,其中一组头部专注于局部上下文建模(通过卷积),而另一组头部专注于长距离关系建模(通过注意)。
阅读全文
摘要:ELECTRA 与现有的生成式的语言表示学习方法相比,判别式的预训练任务具有更高的计算效率和参数效率。 计算效率:训练判别器分辨每一个 token 是否被替换,而不是 MLM 那样训练网络作为生成器预测被损坏的 15% token 的原始 token,从而使模型从所有的输入 token 中学习而不是
阅读全文
摘要:持续更新 2020-05-28 Transformer Transformer详解 Long-Short Range Attention 论文阅读 | Lite Transformer with Long-Short Range Attention 参考: ICLR 2020趋势分析:NLP中更好&
阅读全文
摘要:[ github 源码地址 ] 本文基于PaddlePaddle 1.7版本,解析动态图下的Transformer encoder源码实现。 Transformer的每个Encoder子层(bert_base中包含12个encoder子层)包含 2 个小子层 : Multi-Head Attenti
阅读全文
摘要:背景 方法 作者们提出了一种模型驱动的方法,使用自动对抗的方法自动生成未观察过的对抗样本,并运用生成的样本最终提升阅读理解模型的效果鲁棒性,全程无需人工参与。 该方法可以简单地划分为三个步骤: (1)对每个训练样本利用对抗的方法生成一个干扰向量输入,使得它能够误导当前的阅读理解模型; (2)采用贪心
阅读全文
摘要:混合精度训练 混合精度训练是在尽可能减少精度损失的情况下利用半精度浮点数加速训练。它使用FP16即半精度浮点数存储权重和梯度。在减少占用内存的同时起到了加速训练的效果。 IEEE标准中的FP16格式如下: 取值范围是5.96× 10−8 ~ 65504,而FP32则是1.4×10-45 ~ 3.4×
阅读全文
摘要:记录炼丹优化tricks 最后更新: 2020-04-15 18:17:57 寻找合适的学习率(learning rate) 学习率是一个非常非常重要的超参数,这个参数呢,面对不同规模、不同batch-size、不同优化方式、不同数据集,其最合适的值都是不确定的,我们无法光凭经验来准确地确定lr的值
阅读全文
摘要:整合损失函数 MTL模型中的第一个挑战: 如何为multiple tasks定义一个统一的损失函数?最简单的办法,我们可以整合不同tasks的loss function,然后简单求和。这种方法存在一些不足,比如当模型收敛时,有一些task的表现比较好,而另外一些task的表现却惨不忍睹。其背后的原因
阅读全文
摘要:持续更新 2020-06-28 目录 ELMO BERT SpanBERT structBERT(Alice) RoBERTa ERNIE2 XLNet ELECTRA MASS BART UniLM T5 C4 Smaller Model: ALBERT Distill BERT Tiny BER
阅读全文