随笔分类 -  自然语言处理

CS224n-作业1
摘要:这是斯坦福大学2017年《自然语言处理与深度学习》(CS22n)课程第一次作业及解答 阅读全文

posted @ 2018-06-19 11:38 royhoo 阅读(1385) 评论(0) 推荐(0)

神经网络及其训练
摘要:本文介绍人工神经网络及其训练方法,侧重于相关数学公式及其推导。 阅读全文

posted @ 2018-06-07 22:05 royhoo 阅读(17527) 评论(0) 推荐(3)

高级词向量表示
摘要:本文是在上文自然语言处理——词的表示基础上,引入一个更先进的词向量模型GloVe。然后介绍如何内在和外在地评估词向量。 1 Global Vectors for Word Representation (GloVe) 1.1 和先前方法的比较 上文介绍了两类获取词向量的方法。第一类基于计数和矩阵分解 阅读全文

posted @ 2018-06-06 15:52 royhoo 阅读(3593) 评论(0) 推荐(0)

自然语言处理——词的表示
摘要:本文简述了自然语言处理中,如何用向量表示一个词。并详细介绍了Word2vec,包括连续词袋模型,Skip-Gram模型,Negative Sampling,分层Softmax。 阅读全文

posted @ 2018-06-02 14:17 royhoo 阅读(3793) 评论(0) 推荐(1)

CS224n笔记0
摘要:我准备跟随码农场hankcs大神的脚步,学习一下斯坦福的CS224n课程。 关于该课程的简介,hankcs大神已经写得很清楚了。 阅读全文

posted @ 2018-03-08 12:52 royhoo 阅读(488) 评论(0) 推荐(0)

ansj人名识别
摘要:1、前言 ansj人名识别会用到两个字典,分别是:person/asian_name_freq.data、person/person.dic。 1.1、asian_name_freq.data 这是一个二进制文件,序列化了一个Map对象。该对象的key为词,value是大小为3的数组。例如: 罗=[ 阅读全文

posted @ 2017-04-15 23:57 royhoo 阅读(3206) 评论(0) 推荐(0)

ansj构造最短路径
摘要:一、前言 上节介绍了ansj的原子切分和全切分。切分完成之后,就要构建最短路径,得到分词结果。 以“商品和服务”为例,调用ansj的标准分词: String str = "商品和服务" ; Result result = ToAnalysis.parse(str); System.out.print 阅读全文

posted @ 2017-03-31 21:06 royhoo 阅读(1133) 评论(0) 推荐(0)

ansj原子切分和全切分
摘要:ansj第一步会进行原子切分和全切分,并且是在同时进行的。所谓原子,是指短句中不可分割的最小语素单位。例如,一个汉字就是一个原子。全切分,就是把一句话中的所有词都找出来,只要是字典中有的就找出来。例如,“提高中国人生活水平”包含的词有:提高、高中、中国、国人、人生、生活、活水、水平。接着以“提高中国 阅读全文

posted @ 2017-03-29 22:23 royhoo 阅读(1535) 评论(0) 推荐(0)

导航