随笔分类 - nlp
摘要:传统的编码-解码机制 attention和self-attention 的区别 具体计算过程是一样的 计算对象不同,attention是source对target的attention,而self attention 是source 对source的attention。 attention用于Seq2
阅读全文
摘要:RNN结构,双向LSTM,Transformer, BERT对比分析 RNN RNN 按照时间步展开 Bi-RNN 向前和向后的隐含层之间没有信息流。 LSTM 长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失问题。
阅读全文
摘要:一、Normlization 原因和动机 在机器学习和深度学习中,有一个共识:独立同分布的数据可以简化模型的训练以及提升模型的预测能力——这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。也就是说我们在使用机器学习和深度学习的时候,会把数据尽可能的做一个独立同分布的处理,用来加快模型
阅读全文
摘要:条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型 什么样的问题需要CRF模型 为了让我们的分类器表现的更好,可以在标记数据的时候,可以考虑相邻数据的标记信息。序列化标注任务。 从随机场到条件随机场 随机场:随机
阅读全文
摘要:稀疏交互 每个输出神经元仅与前一层特定局部区域内的神经元存在权重连接。 假设网络中相邻两层分别具有m个输入和n个输出。全连接网络中的权值参数矩阵为m*n个参数。对于CNN,如果限定每个输出与前一层的神经元连接个数为K,那么该层的参数总量为k*n 物理意义:先学习局部特征,再将局部特征组合起来形成更复
阅读全文
摘要:在深度学习中,文本匹配模型可以分为两种结构:双塔式和交互式。 双塔式模型也称孪生网络、Representation-based,就是用一个编码器分别给两个文本编码出句向量,然后把两个向量融合过一个浅层的分类器;交互是也称Interaction-based,就是把两个文本一起输入进编码器,在编码的过程
阅读全文
摘要:XLNet 详解 XLNet:运行机制及和Bert的异同比较 回顾自回归和自编码 自回归 代表:ELMO、GPT 缺点:无法同时利用上下文信息。 优点:天然匹配生成类任务 自编码 代表:BERT 优点:自然的融入双向语言模型,可以同时看到上文和下文 缺点:输入侧引入[MASK]标记,导致预训练和Fi
阅读全文

浙公网安备 33010602011771号