NLP - 随笔分类 - robert_ai

自然语言处理（NLP）相关学习资料/资源

摘要：自然语言处理（NLP）相关学习资料/资源 1. 书籍推荐自然语言处理统计自然语言处理（第2版）作者：宗成庆出版社：清华大学出版社；出版年：2013；页数：570 内容简介：系统地描述了神经网络之前的基于统计的NLP方法，能够对NLP各项任务以及经典的算法学习了解。数学之美（第2版）作者：阅读全文

posted @ 2019-12-13 16:54 robert_ai 阅读(2393) 评论(0) 推荐(3) 编辑

博士五年的一些学术研究心得体会

摘要：学术研究的一些心得体会当我们开始高校研究生活时，我们就踏上了学术研究之路。这是一条探索未知世界，追求知识真理之路。这条道路上布满荆棘，充满了冒险和乐趣。本文通过分享自己在博士学习阶段亲身经历的研究经验和体会(主要涉及到文献检索、文献阅读、实验设计和论文写作这四个方面)，希望能帮助一些入门研究不久的阅读全文

posted @ 2019-10-05 09:37 robert_ai 阅读(9817) 评论(12) 推荐(27) 编辑

自然语言处理中的语言模型预训练方法（ELMo、GPT和BERT）

摘要：自然语言处理中的语言模型预训练方法（ELMo、GPT和BERT）最近，在自然语言处理（NLP）领域中，使用语言模型预训练方法在多项NLP任务上都获得了不错的提升，广泛受到了各界的关注。就此，我将最近看的一些相关论文进行总结，选取了几个代表性模型（包括ELMo [1]，OpenAI GPT [2]和阅读全文

posted @ 2018-10-21 10:59 robert_ai 阅读(61371) 评论(21) 推荐(22) 编辑

基线系统需要受到更多关注：基于词向量的简单模型

摘要：基线系统需要受到更多关注：基于词向量的简单模型最近阅读了《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》这篇论文[1]，该工作来自杜克大学，发表在A 阅读全文

posted @ 2018-06-22 11:00 robert_ai 阅读(1783) 评论(0) 推荐(0) 编辑

自然语言处理中的自注意力机制（Self-attention Mechanism）

摘要：自然语言处理中的自注意力机制（Self-attention Mechanism）近年来，注意力（Attention）机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中，之前我对早期注意力机制进行过一些学习总结（可见http://www.cnblogs.com/robert-dlut/p 阅读全文

posted @ 2018-03-24 11:46 robert_ai 阅读(160250) 评论(4) 推荐(21) 编辑

基于神经网络的实体识别和关系抽取联合学习

摘要：基于神经网络的实体识别和关系抽取联合学习联合学习（Joint Learning）一词并不是一个最近才出现的术语，在自然语言处理领域，很早就有研究者使用基于传统机器学习的联合模型（Joint Model）来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习，分词和词性阅读全文

posted @ 2017-10-22 17:04 robert_ai 阅读(26775) 评论(11) 推荐(2) 编辑

使用维基百科训练简体中文词向量

摘要：使用维基百科训练简体中文词向量最近需要训练简体中文的词向量，而中文大规模语料获取并没有像英文那样方便。搜狗语料库（http://www.sogou.com/labs/resource/list_yuliao.php）是能够免费获取的比较大的中文新闻语料库。但是最新的也就是更新到2012年的语料，后阅读全文

posted @ 2017-03-20 10:45 robert_ai 阅读(9444) 评论(10) 推荐(0) 编辑

注意力机制（Attention Mechanism）在自然语言处理中的应用

摘要：注意力机制（Attention Mechanism）在自然语言处理中的应用近年来，深度学习的研究越来越深入，在各个领域也都获得了不少突破性的进展。基于注意力（attention）机制的神经网络成为了最近神经网络研究的一个热点，本人最近也学习了一些基于attention机制的神经网络在自然语言处理（阅读全文

posted @ 2016-10-12 11:15 robert_ai 阅读(72354) 评论(11) 推荐(11) 编辑

如何产生好的词向量

摘要：如何产生好的词向量？词向量、词嵌入（word vector，word embedding）也称分布式表示（distributed representation），想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中，研究者们也提出了不少产生词向量的模型并开发成实用的工具阅读全文

posted @ 2016-06-26 10:32 robert_ai 阅读(12332) 评论(2) 推荐(2) 编辑

谈谈评价指标中的宏平均和微平均

摘要：谈谈评价指标中的宏平均和微平均今天在阅读周志华老师的《机器学习》一书时，看到性能度量这一小节，里面讲到了宏平均和微平均的计算方法，这也是我一直没有很清晰的一个概念，于是在看了之后又查阅了一些资料，但是还是存在一些问题，想和大家分享一下。（1）召回率、准确率、F值对于二分类问题，可将样例根据阅读全文

posted @ 2016-03-14 19:58 robert_ai 阅读(26911) 评论(8) 推荐(6) 编辑

在NLP中深度学习模型何时需要树形结构？

摘要：在NLP中深度学习模型何时需要树形结构？前段时间阅读了Jiwei Li等人[1]在EMNLP2015上发表的论文《When Are Tree Structures Necessary for Deep Learning of Representations?》,该文主要对比了基于树形结构的递归神经... 阅读全文

posted @ 2015-11-29 11:33 robert_ai 阅读(7069) 评论(0) 推荐(2) 编辑

NLP-特征选择

摘要：文本分类之特征选择1 研究背景对于高纬度的分类问题，我们在分类之前一般会进行特征降维，特征降维的技术一般会有特征提取和特征选择。而对于文本分类问题，我们一般使用特征选择方法。特征提取：PCA、线性判别分析特征选择：文档频数、信息增益、期望交叉熵、互信息、文本证据权、卡方等特征选择的目的一般是：避... 阅读全文

posted @ 2015-03-27 15:34 robert_ai 阅读(6424) 评论(0) 推荐(0) 编辑

Difference between stem and lemma

摘要：lemma与stem的区别Difference between stem and lemma先从wikipedia上看看什么是stem，什么是lemma？Lemma(morphology)：Inmorphologyandlexicography, alemma(plurallemmasorlemma... 阅读全文

posted @ 2014-11-29 22:47 robert_ai 阅读(1603) 评论(0) 推荐(0) 编辑

NLP-最小编辑距离

摘要：最小编辑距离一概念编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的编辑操作次数。最小编辑距离，是指所需最小的编辑操作次数。编辑操作包含：插入、删除和替换三种操作。二最小编辑距离解法-动态规划解法动态规划的核心思想是：将待... 阅读全文

posted @ 2014-11-05 22:50 robert_ai 阅读(9339) 评论(0) 推荐(1) 编辑

Stanford Log-linear Part-Of-Speech Tagger标记含义

摘要：Stanford Log-linear Part-Of-Speech Tagger标记含义英文词性标记名称缩写的含义: 使用的是宾州树库的tag集合，具体含义和举例如下表：Tag Description Examples $ dollar $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U... 阅读全文

posted @ 2014-10-19 09:51 robert_ai 阅读(1375) 评论(0) 推荐(0) 编辑

随笔分类 - NLP