Fork me on GitHub
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页
摘要: gnn for link prediction(gnn4lp) 项目地址:https://github.com/jiangnanboy/gnn4lp 利用图神经网络进行链接预测(link prediction)。 Guide Intro Model Dataset Install Cite Refe 阅读全文
posted @ 2021-11-16 21:42 石头木 阅读(3998) 评论(0) 推荐(0)
摘要: gcn for prediction of protein interactions 项目地址:https://github.com/jiangnanboy/gcn_for_prediction_of_protein_interactions 利用各种图神经网络进行link prediction o 阅读全文
posted @ 2021-11-11 21:02 石头木 阅读(401) 评论(0) 推荐(0)
摘要: CNN4IE 项目地址:https://github.com/jiangnanboy/CNN4IE 中文信息抽取工具。使用CNN的不同变体进行信息抽取,以后会持续加入不同模型。该项目使用pytorch,python开发。 CNN4IE将各种改进版本的conv进行改动用于中文信息抽取。 Guide I 阅读全文
posted @ 2021-10-23 12:36 石头木 阅读(105) 评论(0) 推荐(0)
摘要: 在文本校对中,现在的深度神经网络模型,如神经翻译模型seq2seq框架在文本纠错中也有一些应用,但这需要大规模语料去做训练,有时候效果还不一定好,或者效率不一定达到要求,另外这种end2end方法也不好解释。所以基于统计和规则的文本校对方法还是有一定应用价值的。文本校对中有一项是词的搭配校对,而词的 阅读全文
posted @ 2021-09-14 22:48 石头木 阅读(650) 评论(1) 推荐(0)
摘要: RNN4IE 项目地址:https://github.com/jiangnanboy/RNN4IE 本项目是本人在rnn基础上做的一些改动,用于信息抽取。 中文信息抽取工具。使用RNN的不同结构进行信息抽取,该项目使用pytorch,python开发。 Guide Intro Model Evalu 阅读全文
posted @ 2021-08-01 14:06 石头木 阅读(399) 评论(0) 推荐(0)
摘要: CNN4IE 项目地址:https://github.com/jiangnanboy/CNN4IE 本项目是本人打算使用CNN的不同变体进行信息抽取,未来会持续加入不同模型。 CNN4IE根据CNN的各种改进版本,对不同模型块进行融合,并将其用于中文信息抽取中。 Intro 目前主要实现中文实体抽取 阅读全文
posted @ 2021-06-19 15:41 石头木 阅读(587) 评论(0) 推荐(0)
摘要: 一.一篇文档的信息量是否丰富,可以简单利用信息熵来衡量它,计算公式如下,其中p(x)表示word在整篇文档的出现概率(此word出现次数 / 总词数)。 二.简单实现 public class DocEntropy { public static void main(String[] args) { 阅读全文
posted @ 2021-06-03 20:19 石头木 阅读(919) 评论(0) 推荐(0)
摘要: 记得好几年前用es做过标签画像统计,如今再看es时已是很生疏了,再用时已更新到了7.12版本了。以前用TransportClient客户端,现在出了而且是官方推荐用RestHighLevelClient客户端。 这几天用RestHighLevelClient时还是觉得比较方便的。现将一些基本常用功能 阅读全文
posted @ 2021-06-03 20:01 石头木 阅读(590) 评论(0) 推荐(0)
摘要: 一.关于gpt2的理论网上有很多资料(推荐https://jalammar.github.io/illustrated-gpt2/),它源自transformer-decoder部分,话不多説。 下图是transformer、gpt以及gpt2的简要结构图,可以从中简单看出其中不同的部分: 和tra 阅读全文
posted @ 2021-06-02 21:39 石头木 阅读(1090) 评论(0) 推荐(0)
摘要: 一.简介 大家都知道原始bert预训练模型有两大任务: 1.masked lm:带mask的语言模型 2.next sentence prediction:是否为下一句话 bert模型的训练数据有三部分,如下图: 1.字的token embeddings 2.句子的embeddings 3.句子位置 阅读全文
posted @ 2021-04-06 15:19 石头木 阅读(1093) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页