随笔分类 -  NLP

自然语言处理
自然语言处理(NLP)相关学习资料/资源
摘要:自然语言处理(NLP)相关学习资料/资源 1. 书籍推荐 自然语言处理 统计自然语言处理(第2版) 作者:宗成庆 出版社:清华大学出版社;出版年:2013;页数:570 内容简介:系统地描述了神经网络之前的基于统计的NLP方法,能够对NLP各项任务以及经典的算法学习了解。 数学之美(第2版) 作者: 阅读全文
posted @ 2019-12-13 16:54 robert_ai 阅读(2393) 评论(0) 推荐(3) 编辑
博士五年的一些学术研究心得体会
摘要:学术研究的一些心得体会 当我们开始高校研究生活时,我们就踏上了学术研究之路。这是一条探索未知世界,追求知识真理之路。这条道路上布满荆棘,充满了冒险和乐趣。本文通过分享自己在博士学习阶段亲身经历的研究经验和体会(主要涉及到文献检索、文献阅读、实验设计和论文写作这四个方面),希望能帮助一些入门研究不久的 阅读全文
posted @ 2019-10-05 09:37 robert_ai 阅读(9817) 评论(12) 推荐(27) 编辑
自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT)
摘要:自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT) 最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo [1],OpenAI GPT [2]和 阅读全文
posted @ 2018-10-21 10:59 robert_ai 阅读(61371) 评论(21) 推荐(22) 编辑
基线系统需要受到更多关注:基于词向量的简单模型
摘要:基线系统需要受到更多关注:基于词向量的简单模型 最近阅读了《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》这篇论文[1],该工作来自杜克大学,发表在A 阅读全文
posted @ 2018-06-22 11:00 robert_ai 阅读(1783) 评论(0) 推荐(0) 编辑
自然语言处理中的自注意力机制(Self-attention Mechanism)
摘要:自然语言处理中的自注意力机制(Self-attention Mechanism) 近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,之前我对早期注意力机制进行过一些学习总结(可见http://www.cnblogs.com/robert-dlut/p 阅读全文
posted @ 2018-03-24 11:46 robert_ai 阅读(160250) 评论(4) 推荐(21) 编辑
基于神经网络的实体识别和关系抽取联合学习
摘要:基于神经网络的实体识别和关系抽取联合学习 联合学习(Joint Learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint Model)来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性 阅读全文
posted @ 2017-10-22 17:04 robert_ai 阅读(26775) 评论(11) 推荐(2) 编辑
使用维基百科训练简体中文词向量
摘要:使用维基百科训练简体中文词向量 最近需要训练简体中文的词向量,而中文大规模语料获取并没有像英文那样方便。搜狗语料库(http://www.sogou.com/labs/resource/list_yuliao.php)是能够免费获取的比较大的中文新闻语料库。但是最新的也就是更新到2012年的语料,后 阅读全文
posted @ 2017-03-20 10:45 robert_ai 阅读(9444) 评论(10) 推荐(0) 编辑
注意力机制(Attention Mechanism)在自然语言处理中的应用
摘要:注意力机制(Attention Mechanism)在自然语言处理中的应用 近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展。基于注意力(attention)机制的神经网络成为了最近神经网络研究的一个热点,本人最近也学习了一些基于attention机制的神经网络在自然语言处理( 阅读全文
posted @ 2016-10-12 11:15 robert_ai 阅读(72354) 评论(11) 推荐(11) 编辑
如何产生好的词向量
摘要:如何产生好的词向量? 词向量、词嵌入(word vector,word embedding)也称分布式表示(distributed representation),想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中,研究者们也提出了不少产生词向量的模型并开发成实用的工具 阅读全文
posted @ 2016-06-26 10:32 robert_ai 阅读(12332) 评论(2) 推荐(2) 编辑
谈谈评价指标中的宏平均和微平均
摘要:谈谈评价指标中的宏平均和微平均   今天在阅读周志华老师的《机器学习》一书时,看到性能度量这一小节,里面讲到了宏平均和微平均的计算方法,这也是我一直没有很清晰的一个概念,于是在看了之后又查阅了一些资料,但是还是存在一些问题,想和大家分享一下。 (1)召回率、准确率、F值 对于二分类问题,可将样例根据 阅读全文
posted @ 2016-03-14 19:58 robert_ai 阅读(26911) 评论(8) 推荐(6) 编辑
在NLP中深度学习模型何时需要树形结构?
摘要:在NLP中深度学习模型何时需要树形结构? 前段时间阅读了Jiwei Li等人[1]在EMNLP2015上发表的论文《When Are Tree Structures Necessary for Deep Learning of Representations?》,该文主要对比了基于树形结构的递归神经... 阅读全文
posted @ 2015-11-29 11:33 robert_ai 阅读(7069) 评论(0) 推荐(2) 编辑
NLP-特征选择
摘要:文本分类之特征选择1 研究背景 对于高纬度的分类问题,我们在分类之前一般会进行特征降维,特征降维的技术一般会有特征提取和特征选择。而对于文本分类问题,我们一般使用特征选择方法。特征提取:PCA、线性判别分析特征选择:文档频数、信息增益、期望交叉熵、互信息、文本证据权、卡方等特征选择的目的一般是:避... 阅读全文
posted @ 2015-03-27 15:34 robert_ai 阅读(6424) 评论(0) 推荐(0) 编辑
Difference between stem and lemma
摘要:lemma与stem的区别Difference between stem and lemma先从wikipedia上看看什么是stem,什么是lemma?Lemma(morphology):Inmorphologyandlexicography, alemma(plurallemmasorlemma... 阅读全文
posted @ 2014-11-29 22:47 robert_ai 阅读(1603) 评论(0) 推荐(0) 编辑
NLP-最小编辑距离
摘要:最小编辑距离一 概念 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的编辑操作次数。最小编辑距离,是指所需最小的编辑操作次数。 编辑操作包含:插入、删除和替换三种操作。二 最小编辑距离解法-动态规划解法 动态规划的核心思想是:将待... 阅读全文
posted @ 2014-11-05 22:50 robert_ai 阅读(9339) 评论(0) 推荐(1) 编辑
Stanford Log-linear Part-Of-Speech Tagger标记含义
摘要:Stanford Log-linear Part-Of-Speech Tagger标记含义英文词性标记名称缩写的含义: 使用的是宾州树库的tag集合,具体含义和举例如下表:Tag Description Examples $ dollar $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U... 阅读全文
posted @ 2014-10-19 09:51 robert_ai 阅读(1375) 评论(0) 推荐(0) 编辑