nlp - 随笔分类 - _无支祁

注意力机制

摘要：传统的编码-解码机制 attention和self-attention 的区别具体计算过程是一样的计算对象不同，attention是source对target的attention，而self attention 是source 对source的attention。 attention用于Seq2 阅读全文

posted @ 2021-12-18 19:07 _无支祁阅读(594) 评论(0) 推荐(0)

RNN，LSTM，BERT

摘要：RNN结构，双向LSTM，Transformer， BERT对比分析 RNN RNN 按照时间步展开 Bi-RNN 向前和向后的隐含层之间没有信息流。 LSTM 长短期记忆（Long short-term memory, LSTM）是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失问题。阅读全文

posted @ 2021-12-17 18:06 _无支祁阅读(2032) 评论(0) 推荐(0)

深度学习基础知识

摘要：一、Normlization 原因和动机在机器学习和深度学习中，有一个共识：独立同分布的数据可以简化模型的训练以及提升模型的预测能力——这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。也就是说我们在使用机器学习和深度学习的时候，会把数据尽可能的做一个独立同分布的处理，用来加快模型阅读全文

posted @ 2021-12-17 17:39 _无支祁阅读(524) 评论(0) 推荐(0)

crf

摘要：条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型什么样的问题需要CRF模型为了让我们的分类器表现的更好，可以在标记数据的时候，可以考虑相邻数据的标记信息。序列化标注任务。从随机场到条件随机场随机场：随机阅读全文

posted @ 2021-12-16 12:46 _无支祁阅读(252) 评论(0) 推荐(0)

CNN

摘要：稀疏交互每个输出神经元仅与前一层特定局部区域内的神经元存在权重连接。假设网络中相邻两层分别具有m个输入和n个输出。全连接网络中的权值参数矩阵为m*n个参数。对于CNN，如果限定每个输出与前一层的神经元连接个数为K，那么该层的参数总量为k*n 物理意义：先学习局部特征，再将局部特征组合起来形成更复阅读全文

posted @ 2021-12-16 12:44 _无支祁阅读(64) 评论(0) 推荐(0)

句间关系模型

摘要：在深度学习中，文本匹配模型可以分为两种结构：双塔式和交互式。双塔式模型也称孪生网络、Representation-based，就是用一个编码器分别给两个文本编码出句向量，然后把两个向量融合过一个浅层的分类器；交互是也称Interaction-based，就是把两个文本一起输入进编码器，在编码的过程阅读全文

posted @ 2021-12-15 23:57 _无支祁阅读(451) 评论(0) 推荐(0)

XLNET

摘要：XLNet 详解 XLNet:运行机制及和Bert的异同比较回顾自回归和自编码自回归代表：ELMO、GPT 缺点：无法同时利用上下文信息。优点：天然匹配生成类任务自编码代表：BERT 优点：自然的融入双向语言模型，可以同时看到上文和下文缺点：输入侧引入[MASK]标记，导致预训练和Fi 阅读全文

posted @ 2021-12-15 23:49 _无支祁阅读(241) 评论(0) 推荐(0)

面朝大海

随笔分类 - nlp

公告