06 2021 档案
摘要:1 背景 自然语言处理(NLP)过程可以分为自然语言理解(NLU)和自然语言生成(NLG),NLU负责理解文本内容,而NLG负责根据信息生成文本内容,该内容可以是语音、视频、图片、文字等。本文内容承接于前面两次的内容,在从训练集得到seq2seq模型后,需要对模型的性能进行评估。其中,评估的一个重要
阅读全文
摘要:本文学习记录一下,文本生成过程,以及过程中如何 选择/采样 下一个生成的词。首先将简单介绍一下文本生成(text generation)的完成过程;然后简单介绍下常用的采样(sampling)方法;最后,将实现并讨论以下三种采样方法(Greedy Sampling、Temperature Samli
阅读全文
摘要:背景 基于前两篇文章数据预处理和数据集构造的过程后,可以开始针对我们的文本摘要任务进行处理了。这里选用的是经典的seq2seq+attention模型,作为我们的baseline,先完成一个跑通吧。后续基于seq2seq进行其他改进。 核心内容  seq2seq模型的理论,此处不再介绍。简
阅读全文
摘要:背景 本文承接上一篇数据预处理与词向量训练内容,上文已描述了我们的任务和目标。本篇中,主要记录在训练和预处理后的一些初步的细节处理,如句子长度对齐、oov初步处理、构造后续用与训练与测试的X和y等等。 核心内容 1. 构造X和y 针对本文任务及数据集的特点,对于训练集和测试集来说X是['Questi
阅读全文
浙公网安备 33010602011771号