摘要: ELMO BERT GPT ELMO ELMo首先想到了在预训练阶段为每个词汇集齐上下文信息,使用的是基于bi-LSTM的语言模型给词向量带上上下文语义信息: 但ELMo使用的是RNN来完成语言模型的预训练,那么如何使用Transformer来完成预训练呢? GPT GPT(Generative P 阅读全文
posted @ 2021-04-23 13:37 MissHsu 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 基于LSTM语言模型的文本生成 1. 文本生成 1.1 基于语言模型的文本生成 基于马尔科夫的语言模型且在数据驱动下的自然语言生成。利用数据和文字间的对齐语料,使用N-gram语言模型生成文本。在语言模型上加入句法分析(关系抽取、实体识别、依存句法、短语结构等)还可以显著改善生成效果。因为这些都建立 阅读全文
posted @ 2021-04-23 13:26 MissHsu 阅读(3248) 评论(0) 推荐(1) 编辑
摘要: RNN 梯度消失&梯度爆炸 参考:https://zhuanlan.zhihu.com/p/33006526?from_voters_page=true 梯度消失和梯度爆炸本质是同一种情况。梯度消失经常出现的原因:一是使用深层网络;二是采用不合适的损失函数,如Sigmoid。梯度爆炸一般出现的场景: 阅读全文
posted @ 2021-04-23 13:11 MissHsu 阅读(665) 评论(0) 推荐(0) 编辑
摘要: Named Entity Recognition 1. NER 1.1 NER定义 命名实体识别(NER): 也称为实体识别、实体分块和实体提取,是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。 1.2 数据格式 NE 阅读全文
posted @ 2021-04-23 13:01 MissHsu 阅读(769) 评论(0) 推荐(1) 编辑
摘要: 文本生成任务的评价方法 参考资料:https://baijiahao.baidu.com/s?id=1655137746278637231&wfr=spider&for=pc 1.BLEU BLEU (Bilingual Evaluation Understudy)——越大越好 核心:比较候选译文和 阅读全文
posted @ 2021-04-23 12:54 MissHsu 阅读(1380) 评论(0) 推荐(0) 编辑