自然语言处理 - 随笔分类 - hiyoung

信息熵相关知识总结

摘要：前言学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等乱七八糟的知识和名字,我本人已经记得大脑混乱了,还没有全部记住,所以在这里记录一下. 1.信息熵:信息的度量,信息的不确定程度,是乱七八糟熵的基础.吴军大大的数学之美中用了猜球队冠军的方阅读全文

posted @ 2018-12-18 19:22 hiyoung 阅读(3899) 评论(0) 推荐(0)

最强NLP模型-BERT

摘要：简介: BERT,全称Bidirectional Encoder Representations from Transformers,是一个预训练的语言模型,可以通过它得到文本表示,然后用于下游任务,比如文本分类,问答系统,情感分析等任务.BERT像是word2vec的加强版,同样是预训练得到词级别阅读全文

posted @ 2018-12-17 17:07 hiyoung 阅读(3002) 评论(0) 推荐(0)

问答系统总结

摘要：最近在研究问答系统,但是在查找资料的过程中一直处于懵逼状态,因为问答系统分类比较多,根据不同的依据可以分为不同种类,总是搞混,也没有找到资料详细全面的介绍,所以在一边学习查找资料的同时,自己也整理出一份总结,用于以后学习过程不至于思路混乱,如有错误请帮忙指出. 19世纪60年代最早:基于模板和规则阅读全文

posted @ 2018-11-22 12:58 hiyoung 阅读(1331) 评论(0) 推荐(0)

检索问答模型

摘要：前言检索回答系统一般过程:1)构建好候选回答索引集,2)收到quary后,初步选出一些候选回答,3)quary和回答做matching,然后reranking,4)最后返回topk个回答. 排序reranking根据不同任务类型有不同方法. matching操作有如下模型使用: 1. DSSM( 阅读全文

posted @ 2018-11-09 16:33 hiyoung 阅读(914) 评论(0) 推荐(0)

文本分类-TextCNN

摘要：简介 TextCNN模型是由 Yoon Kim提出的Convolutional Naural Networks for Sentence Classification一文中提出的使用卷积神经网络来处理NLP问题的模型.相比较nlp中传统的rnn/lstm等模型,cnn能更加高效的提取重要特征,这些特阅读全文

posted @ 2018-11-09 09:20 hiyoung 阅读(2397) 评论(0) 推荐(0)

Attention注意力机制介绍

摘要：什么是Attention机制 Attention机制通俗的讲就是把注意力集中放在重要的点上，而忽略其他不重要的因素。其中重要程度的判断取决于应用场景，拿个现实生活中的例子，比如1000个人眼中有1000个哈姆雷特。根据应用场景的不同，Attention分为空间注意力和时间注意力，前者用于图像处理，后阅读全文

posted @ 2018-10-27 11:18 hiyoung 阅读(39658) 评论(3) 推荐(0)

NLP系列-中文分词（基于统计）

摘要：上文已经介绍了基于词典的中文分词，现在让我们来看一下基于统计的中文分词。统计分词：统计分词的主要思想是把每个词看做是由字组成的，如果相连的字在不同文本中出现的次数越多，就证明这段相连的字很有可能就是一个词。统计分词一般做如下两步操作： 1.建立统计语言模型（n-gram） 2.对句子进行单词划阅读全文

posted @ 2018-09-25 22:24 hiyoung 阅读(5469) 评论(1) 推荐(1)

NLP系列-中文分词（基于词典）

摘要：中文分词概述词是最小的能够独立活动的有意义的语言成分，一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来，而在中文中很难对词的边界进行界定，难以将词划分出来。在汉语中，虽然是以字为最小单位，但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时，需要进行分阅读全文

posted @ 2018-09-21 16:59 hiyoung 阅读(15633) 评论(3) 推荐(1)

Loading

HiYoung's Blog

人生何所求，财富和自由。

随笔分类 - 自然语言处理

公告