随笔分类 - NLP
摘要:gnn for link prediction(gnn4lp) 项目地址:https://github.com/jiangnanboy/gnn4lp 利用图神经网络进行链接预测(link prediction)。 Guide Intro Model Dataset Install Cite Refe
阅读全文
摘要:gcn for prediction of protein interactions 项目地址:https://github.com/jiangnanboy/gcn_for_prediction_of_protein_interactions 利用各种图神经网络进行link prediction o
阅读全文
摘要:CNN4IE 项目地址:https://github.com/jiangnanboy/CNN4IE 中文信息抽取工具。使用CNN的不同变体进行信息抽取,以后会持续加入不同模型。该项目使用pytorch,python开发。 CNN4IE将各种改进版本的conv进行改动用于中文信息抽取。 Guide I
阅读全文
摘要:在文本校对中,现在的深度神经网络模型,如神经翻译模型seq2seq框架在文本纠错中也有一些应用,但这需要大规模语料去做训练,有时候效果还不一定好,或者效率不一定达到要求,另外这种end2end方法也不好解释。所以基于统计和规则的文本校对方法还是有一定应用价值的。文本校对中有一项是词的搭配校对,而词的
阅读全文
摘要:RNN4IE 项目地址:https://github.com/jiangnanboy/RNN4IE 本项目是本人在rnn基础上做的一些改动,用于信息抽取。 中文信息抽取工具。使用RNN的不同结构进行信息抽取,该项目使用pytorch,python开发。 Guide Intro Model Evalu
阅读全文
摘要:CNN4IE 项目地址:https://github.com/jiangnanboy/CNN4IE 本项目是本人打算使用CNN的不同变体进行信息抽取,未来会持续加入不同模型。 CNN4IE根据CNN的各种改进版本,对不同模型块进行融合,并将其用于中文信息抽取中。 Intro 目前主要实现中文实体抽取
阅读全文
摘要:一.一篇文档的信息量是否丰富,可以简单利用信息熵来衡量它,计算公式如下,其中p(x)表示word在整篇文档的出现概率(此word出现次数 / 总词数)。 二.简单实现 public class DocEntropy { public static void main(String[] args) {
阅读全文
摘要:一.关于gpt2的理论网上有很多资料(推荐https://jalammar.github.io/illustrated-gpt2/),它源自transformer-decoder部分,话不多説。 下图是transformer、gpt以及gpt2的简要结构图,可以从中简单看出其中不同的部分: 和tra
阅读全文
摘要:一.简介 大家都知道原始bert预训练模型有两大任务: 1.masked lm:带mask的语言模型 2.next sentence prediction:是否为下一句话 bert模型的训练数据有三部分,如下图: 1.字的token embeddings 2.句子的embeddings 3.句子位置
阅读全文
摘要:一.模型结构 实现一个简单的孪生网络(结构如上图),做语义相似度: 1.从上图可看出整体的结构相对较简单,左右两边基本一致。A句和B句分别进入左右两个结构。输入到网络中是token embedding + position_embedding 2.再经过cnn-encoder进行编码 3.多头注意力
阅读全文
摘要:一.简介 此模型采用bertBERT for Joint Intent Classification and Slot Filling进行意图识别与槽填充。 结构如下: 从上可知: 1.意图识别采用[cls]的输出进行识别 2.槽填充直接输出对应的结果进行序列标注,这里不使用mlm中的mask 3.
阅读全文
摘要:一.简单介绍 此模型是对Convolutional Sequence to Sequence Learning中的encoder部分进行的改进。 原模型是用于机器翻译,这里我将稍加修改用来做问答中的slot filling和intent detection联合建模。 整体修改主要有以下几点: 1.使
阅读全文
摘要:此分类模型是来自序列模型Convolutional Sequence to Sequence Learning,整体构架如上图所示。 原论文是用来做语言翻译,这里我将稍微修改用来做问答中的slot filling和intent detection联合建模。 本项目中的图片和原始代码是改自https:
阅读全文
摘要:此分类模型是来自序列模型Convolutional Sequence to Sequence Learning中的encoder部分,这里暂且叫它带残差的cnn model,如上图所示。 1.句子token和其对应的position经过embedding后,逐元素加和作为source embeddi
阅读全文
摘要:在《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》中的模型attention-based rNN model基础上,提出了slot-gate门。 通过slot-g
阅读全文
摘要:一.智能对话中的意图识别和槽填充联合建模,类似于知识图谱中的关系提取和实体识别。一种方法是利用两种模型分别建模;另一种是将两种模型整合到一起做联合建模型。意图识别基本上是文本分类,而槽填充基本上是序列标注。本方法是基于文章《Attention-Based Recurrent Neural Netwo
阅读全文
摘要:功能主要包括学科知识图谱以及题目知识点追踪、关系查询、问答及知识点预测等。 前端页面参考:https://github.com/qq547276542/Agriculture_KnowledgeGraph,在此表示非常感谢。 此项目也参考了作者之前的电影图谱:https://github.com/j
阅读全文
摘要:一.利用transformer-encoder进行文本分类,用于在问答中的意图识别。 二.结构图 三.程序(完整程序:https://github.com/jiangnanboy/intent_classification/tree/master/transformer_encoder) impor
阅读全文
摘要:一.利用textrcnn进行文本分类,用于在问答中的意图识别。 二.结构图 三.程序(完整程序:https://github.com/jiangnanboy/movie_knowledge_graph_app/tree/master/intent_classification/pytorch/tex
阅读全文
摘要:一.利用textcnn进行文本分类,用于在问答中的意图识别。 二.结构图 三.程序(完整程序:https://github.com/jiangnanboy/movie_knowledge_graph_app/tree/master/intent_classification/pytorch/text
阅读全文