摘要: 论文信息: "论文" 1. 概述 分布式表示在诸多自然语言处理系统中应用十分广泛,比如wrod2vec中每个单词被转换为一个全局向量。但这种方式忽略了单词的上下文信息,同一单词在不同的上下文中表示相同。因此近年来上下文嵌入方法风生水起,获得了快速发展和普遍关注。该论文就是对这些上下文嵌入方法的一篇综 阅读全文
posted @ 2020-03-23 14:50 WeilongHu 阅读(613) 评论(0) 推荐(1) 编辑
摘要: 论文信息: "论文" ,AAAI2020 概述 关系抽取旨在从非结构化文本中抽取结构化的三元组,比如从文本“ Barack Obama was born in the United States”中识别实体"Barack Obama"和"United States"的关系是"born in",从而得 阅读全文
posted @ 2020-03-22 09:28 WeilongHu 阅读(734) 评论(0) 推荐(0) 编辑
摘要: 论文信息: "论文" , "代码" , ICLR2020. 概述 文本序列转换(transduction)将给定的文本序列从一个领域域转换为另一个领域,比如机器翻译。但这通常需要平行语料的支撑,因此不需要平行语料的无监督序列转换方法逐渐受到研究者们的关注。 最近的无监督文本风格迁移工作主要有两种做法 阅读全文
posted @ 2020-03-21 10:19 WeilongHu 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 论文信息: "地址" , "代码" ,CVPR2020. 概述 循环神经网络在处理变长数据时非常有效,并且和CNN搭配之后,也能够用于计算机视觉任务,比如图片注释和图片多标签分类。多标签分类任务需要为图片分配若干个标签或概念,比如物体类别,颜色,材料等。由于标签类别多,模型需要学习标签之间的依赖关系 阅读全文
posted @ 2020-03-20 09:11 WeilongHu 阅读(689) 评论(0) 推荐(0) 编辑
摘要: 论文信息: "地址" , "代码" 概述 许多最新的对话生成方法都遵循数据驱动的范式:通过大量查询 响应对训练后,使模型模仿人类对话。因此,数据驱动方法严重依赖于用于训练的问答对。 但是,由于人类对话的主观性和开放性,训练对话的复杂性差异很大。它们中有些容易学习,有些过于复杂,甚至可能还含有噪声。问 阅读全文
posted @ 2020-03-19 11:11 WeilongHu 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 概述 在过去的几年中,神经网络在各个领域产生了重大影响。然而,神经网络易于应用却难以训练,它可以看作是一个随机初始化的模型在大型数据集上做暴力搜索的过程。研究者们必须小心进行模型设计、算法设计以及相应的超参数选择。无免费午餐理论也说明了没有一套方法是能够解决所有问题的。 超参数是那些无法在模型训练过 阅读全文
posted @ 2020-03-18 11:55 WeilongHu 阅读(671) 评论(0) 推荐(0) 编辑
摘要: 论文信息: "论文地址" 概述 神经机器翻译(NMT)获得了巨大成功,在部分领域几乎达到了人类水平,但这些模型主要是在句子级别的平行语料上进行训练和评估的。文档级别的机器翻译需要捕获上下文进行精确翻译,越来越受到研究者们的关注。 一种直接的解决方案是孤立地翻译文档中的每一个句子,但这样会带来不一致问 阅读全文
posted @ 2020-03-17 10:50 WeilongHu 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 深度学习/神经网络虽然在各个领域取得了很大进展,但经常面临梯度爆炸和梯度消失问题。对于Transformer这种大型网络更是。ReZero是本文提出的用于训练更深神经网络的框架。总的来说,ReZero能够使网络具有更深的层次以及更快的收敛速度。 ReZero 研究者们通常通过三项技术解决梯度消失与梯 阅读全文
posted @ 2020-03-16 16:03 WeilongHu 阅读(1139) 评论(0) 推荐(0) 编辑
摘要: 介绍 现如今图神经网络取得了很大进展,最典型的两个模型是GCN模型和GAT模型,然而现有的图神经模型仍然存在以下两个问题: 1. 边特征未被有效考虑。比如GAT只考虑两个节点之间是否有边(binary indicator),GCN的边特征只能是一个实数(one dimensional real va 阅读全文
posted @ 2020-03-11 10:10 WeilongHu 阅读(1195) 评论(0) 推荐(0) 编辑
摘要: 最近在做图卷积相关的实验,里面涉及到图采样,该过程可以抽象为:从一个包含n个节点,m条边的图中根据一定规则采样一个连通图。由于实验使用的是FB15k-237数据集,共包含14541个节点,272115条边,每次采样30000条边,采样一次需要8s,这对于深度学习实验来说是难以接受的,会导致GPU长时 阅读全文
posted @ 2019-12-30 22:44 WeilongHu 阅读(1891) 评论(0) 推荐(0) 编辑