随笔分类 -  NLP

摘要:隐含狄利克雷分布(Latent Dirichlet Allocation ,简称LDA) 贝叶斯模型贝叶斯模型主要涉及“先验分布”, “数据(似然)”和“后验分布”三块,在贝叶斯学派中: 先验分布 + 数据(似然)= 后验分布可以理解为通过在现先验分布的基础上更新后验分布 二项分布与Beta分布二项 阅读全文
posted @ 2018-11-28 19:34 andreaxgz 阅读(253) 评论(0) 推荐(0)
摘要:Lesk算法 lesk算法是一个基于词典的词义消歧方法,算法认为:一个词在词典中的词义解释与该词所在句子具有相似性 1. original lesk 通过比较词在词典中解释,得到交集,那么相似度即为交集单词的个数 eg: pine 和cone分别在字典中的解释如下 Pine : 1. kind of 阅读全文
posted @ 2018-11-21 19:56 andreaxgz 阅读(1214) 评论(0) 推荐(0)
摘要:word2vec是google在2013年推出的NLP工具,特点是将所有的词向量化,这样词与词之间就可以定量地度量 它们之间的关系,挖掘之间的联系。 与n-gram模型相比,神经概率语言模型有什么优势呢? 词语之间的相似性可以通过词向量来体现比如:在某个语料库中 s1 = "A dog is run 阅读全文
posted @ 2018-11-20 21:18 andreaxgz 阅读(202) 评论(0) 推荐(0)
摘要:关键词抽取算法主要分为两类: 1. 有监督学习算法 将关键词抽取过程视为二分类问题, 先抽取出候选词,然后对于每一个候选词划定标签,要么关键词、要么不是关键词,然后训练关键词抽取分类器。当新来一篇文章时,抽取所有的候选词,然后利用训练好的分类器抽取候选词,对各个候选词进行分类,最终将标签为关键词的候 阅读全文
posted @ 2018-03-14 15:41 andreaxgz 阅读(485) 评论(0) 推荐(0)