随笔分类 -  NLP

自然语言处理
word2vec 的理解
摘要:1.CBOW 模型 CBOW模型包括输入层、投影层、输出层。模型是根据上下文来预测当前词,由输入层到投影层的示意图如下: 这里是对输入层的4个上下文词向量求和得到的当前词向量,实际应用中,上下文窗口大小可以设置。 输出层是一颗哈夫曼树,从向量W(t)到哈夫曼树的转化过程是这样的:以训练语料中出现的词 阅读全文

posted @ 2017-10-08 21:53 雪饮者 阅读(282) 评论(0) 推荐(0)

条件随机场-应用
摘要:今天介绍CRFs在中文分词中的应用 工具:CRF++,可以去 https://taku910.github.io/crfpp/ 下载,训练数据和测试数据可以考虑使用bakeoff2005,这是链接 http://sighan.cs.uchicago.edu/bakeoff2005/ 首先需要了解一些 阅读全文

posted @ 2017-07-23 21:05 雪饮者 阅读(2107) 评论(0) 推荐(0)

关键词提取算法-TextRank
摘要:今天要介绍的TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。 1.PageRank算法 PageRank设计之初是用于Google的网页排名的,以该公司创办人拉里·佩奇(Larry Pa 阅读全文

posted @ 2017-07-02 16:24 雪饮者 阅读(37853) 评论(0) 推荐(4)

文档主题生成模型(LDA)
摘要:一.问题描述 1.1文本建模相关 统计文本建模的目的其实很简单:就是估算一组参数,这组参数使得整个语料库出现的概率最大。这是很简单的极大似然的思想了,就是认为观测到的样本的概率是最大的。建模的目标也是这样,下面就用数学来表示吧。一开始来说,先要注意假设了一些隐变量z,也就是topic。每个文档都符合 阅读全文

posted @ 2017-06-03 09:39 雪饮者 阅读(5377) 评论(0) 推荐(0)

条件随机场(CRF)-基础
摘要:条件随机场(conditional random fields,简称 CRF,或CRFs)下文简称CRF,是一种典型的判别模型,相比隐马尔可夫模型可以没有很强的假设存在,在分词、词性标注、命名实体识别等领域有较好的应用。CRF是在马尔可夫随机场的基础上加上了一些观察值(特征),马尔可夫随机场<=>概 阅读全文

posted @ 2017-05-21 23:13 雪饮者 阅读(10530) 评论(0) 推荐(1)