05 2021 档案

摘要:训练seq2seq模型: parlai train_model --task cornell_movie --model seq2seq --model-file tmp/model_s2s --batchsize 8 --rnn-class gru --hiddensize 200 --numla 阅读全文
posted @ 2021-05-19 19:29 _yanghh 阅读(198) 评论(0) 推荐(0)
摘要:为什么需要对项目分发打包? 平常我们习惯了使用pip来安装一些第三方模块,这个安装过程之所以简单,是因为模块开发者为我们默默地为我们做了所有繁杂的工作,而这个过程就是打包。 打包,就是将你的源代码进一步封装,并且将所有的项目部署工作都事先安排好,这样使用者拿到后即装即用,不用再操心如何部署的问题。 阅读全文
posted @ 2021-05-17 11:25 _yanghh 阅读(4573) 评论(0) 推荐(0)
摘要:论文地址:https://arxiv.org/pdf/2001.09977.pdf 模型 Meena的seq2seq模型是基于Evolved Transformer来搭建的。 Transformer包含一个Encoder和一个Decoder,每个Encoder由若干个结构相同的Encoder-blo 阅读全文
posted @ 2021-05-14 20:10 _yanghh 阅读(316) 评论(0) 推荐(1)
摘要:论文地址:https://arxiv.org/pdf/2004.13637.pdf 模型 这篇论文提出了3个模型。 1. 检索模型(Retriever) 就是从候选集中选取最合适的句子作为机器人当前的答复,训练时,候选集只有给定的一句response; 在做推断时,候选集由训练集中的所有respon 阅读全文
posted @ 2021-05-14 20:01 _yanghh 阅读(821) 评论(0) 推荐(1)
摘要:1. Perplexity (PPL) 假设长度为 $n$ 的句子 $s=(w_1,w_2,...,w_n)$,它的 perplexity 定义为: 先取对数再取指数,则变换为下式: 由公式可知,句子概率越大,语言模型越好,迷惑度越小。 下面是一些 ngram 的概率计算: 2. BLEU 在自然语 阅读全文
posted @ 2021-05-11 20:57 _yanghh 阅读(2078) 评论(0) 推荐(0)