King_K

导航

2014年10月19日 #

第八章:简单之美——布尔代数和搜索引擎的索引

摘要: 接下来的几章,我们将讨论搜索引擎的一些基础知识。要真正做好搜索引擎,不可能是一朝一夕的事情,没有捷径可走。做好搜索,最基本的要求是每天分析10-20个不好的搜索结果,累积一段时间才有感觉。但是往往很多工程师都做不到这一点。搜索殷勤的原理其实非常简单:自动下载尽可能多的网页;建立快速有效的索引;根... 阅读全文

posted @ 2014-10-19 23:17 King_K 阅读(308) 评论(0) 推荐(0) 编辑

第六章:信息的度量和作用

摘要: 1.信息熵 我们用一个生动的例子来说明这个概念:刚好这几天举行世界杯,我们都会猜谁会获得冠军。假设有32支球队,编号从1-32。然后问:“冠军是在1-16中吗?”,不是的话就是在6-32中,一次类推。我们最多需要猜测5次就能猜出谁是冠军(log32)。但事实上,我们可能不需要5次就能猜出来,因为像... 阅读全文

posted @ 2014-10-19 23:16 King_K 阅读(372) 评论(0) 推荐(0) 编辑

2014年10月18日 #

第五章:隐马尔可夫模型

摘要: 隐马模型是一个不复杂但在NLP上最有效、快速的方法。1.通信模型 自然语言和通信的联系是天然的,当自然语言处理问题回归到通信系统中的解码问题时,很多难题就迎刃而解了。 前面已经说了,我们把说话看作是一种编码方式,然后通过喉咙、空气传播,听到话的人的耳朵接收,再理解说的话,也就是语音识别。如果... 阅读全文

posted @ 2014-10-18 20:19 King_K 阅读(613) 评论(0) 推荐(0) 编辑

2014年6月26日 #

第四章谈谈中文分词

摘要: 1.中文分词的演变由于中文等语言,字与字之间是没有空格隔开的,所以需要分词。最简单的分词就是查字典。就是从左到右或者从右到左扫描一句话,然后找到最长的匹配。这种方法可以解决七八成的分词问题。但是毕竟太简单了一点。后来哈工大王晓龙博士把查字典方法理论化,发展成最少词数的分词理论,即一句话应该分成数量最... 阅读全文

posted @ 2014-06-26 21:08 King_K 阅读(254) 评论(0) 推荐(0) 编辑

第二章:自然语言处理———从规则到统计

摘要: 任何语言,都可以被认为是一种编码方式,而语言的语法规则是编码解码的算法。我们把我们要表达的意思,通过一句话(一种编码)传送出去,听到这句话的人(接到编码信息),理解这句话(解码),从而理解对方要表达的意思。这是一个比较有趣又生动的过程。自然语言处理可以说是从1950年开始的,至今有60多年的历史。但... 阅读全文

posted @ 2014-06-26 20:54 King_K 阅读(651) 评论(0) 推荐(0) 编辑

2014年6月17日 #

转:中文分词算法笔记

摘要: 中文分词基本算法主要分类基于词典的方法、基于统计的方法、基于规则的方法、(传说中还有基于理解的-神经网络-专家系统,按下不表)1、基于词典的方法(字符串匹配,机械分词方法)定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同... 阅读全文

posted @ 2014-06-17 21:12 King_K 阅读(201) 评论(0) 推荐(0) 编辑

2014年3月20日 #

NLTK之WordNet 接口【转】

摘要: 转自:http://www.cnblogs.com/kaituorensheng/p/3149095.htmlWordNet是面向语义的英语词典,类似于传统字典。它是NLTK语料库的一部分,可以被这样调用:更简洁的写法:1.单词查看一个单词的同义词集用synsets(); 它有一个参数pos,可以指定查找的词性。这里得到的同义词集是同义词集的集合,即里面不是单纯的词,是同义词的集合.注:一个synset(同义词集:指意义相同的词条的集合)被一个三元组描述:(单词.词性.序号)。这里的’dog.n.01’指:dog的第一个名词意思;’chase.v.01’指:chase的第一个动词意思pos可为 阅读全文

posted @ 2014-03-20 16:49 King_K 阅读(1714) 评论(0) 推荐(0) 编辑

2014年3月19日 #

sentiwordnet的简单使用

摘要: # Example line: # POS ID PosS NegS SynsetTerm#sentimentscore Desc # a 00009618 0.5 0.25 spartan#4 austere#3 ascetical#2 describe 在sentiwordnet中,一行数据如上 阅读全文

posted @ 2014-03-19 16:16 King_K 阅读(7503) 评论(3) 推荐(1) 编辑