随笔分类 -  自然语言处理

自然语言处理3.8——分割
摘要:分词是分割的一个更普遍的问题实例,这一节,我们要学习一下分割技术。 1、断句 在词级水平处理文本时候通常假定能够将文本划分成单个句子。 一些语料库提高了句子级别的访问。例如,我们可以计算布朗预料库中每个句子的平均词数。 在其他情况下,文本可能只是一个字符流。在将文本分词之前,需要将它分割成句子。NL 阅读全文

posted @ 2016-10-25 14:35 波比12 阅读(2254) 评论(0) 推荐(0)

NLTK中的词性
摘要:NOUN n,VERB v ,ADJ a, ADV r, ADJ_SAT s NOUN: [('s', ''), ('ses', 's'), ('ves', 'f'), ('xes', 'x'), ('zes', 'z'), ('ches', 'ch'), ('shes', 'sh'), ('men 阅读全文

posted @ 2016-10-24 13:01 波比12 阅读(1119) 评论(0) 推荐(0)

自然语言处理3.7——用正则表达式为文本分词
摘要:1、分词的简单方法: 在空格字符处分割文本是文本分词最简单的方法。考虑一下摘自《爱丽丝梦游仙境》中的文本。 可以使用raw.split()在空格符处分割原始文本。使用正则表达式能做同样的事情,匹配字符串中的所有空白符是远远不够的,因为这会导致结果中包含'\n'换行符。需要同时匹配任何数量的空格符、制 阅读全文

posted @ 2016-10-21 19:42 波比12 阅读(4985) 评论(0) 推荐(1)

自然语言处理3.6——规范化文本
摘要:在前面的例子中,在处理文本词汇前经常要将文本转化成小写,即(w.lower() for w in words).通过lower()将文本规范化为小写,这样一来,"The"和"the"的区别被忽略了。 我们常常进行更多的尝试,例如去掉文本中的所有词缀已经提取词干的任务等。下一步是确保结果形式是字典中确 阅读全文

posted @ 2016-10-21 19:03 波比12 阅读(1550) 评论(0) 推荐(0)

自然语言处理3.5——正则表达式的有益应用
摘要:1、提出字符串 通过re.findall()方法找出所有(无重叠)匹配指定正则表达式的字符串。例如找出一个词的所有元音字符,并计数 在例如找出文本中两个或者两个以上的原因序列,并确定它们的相对频率 2、在字符串上做更多的事情 英文文本是高度冗余的,忽略掉词内部的元音仍然可以轻松的阅读,有些时候这很明 阅读全文

posted @ 2016-10-13 22:24 波比12 阅读(1434) 评论(0) 推荐(0)

自然语言处理3.4——使用正则表达式检测词组搭配
摘要:许多语言处理任务都涉及模式匹配。以前我们使用‘stsrtswith(str)’或者‘endswith(str)’来寻找特定的单词。但是下面引入正则表达式,正则表达式是一个强大的模块,他不属于哪一种特定的语言,是一个强大的语言处理工具。 在Python中使用正则表达式需要使用import re来导入r 阅读全文

posted @ 2016-10-12 22:02 波比12 阅读(3975) 评论(0) 推荐(0)

自然语言处理3.3——使用Unicode进行文字处理
摘要:全世界有多种语言,经常需要应用程序处理不同的语言和字符集。下面将介绍如何利用Unicode处理使用非ASCII字符集文字。 1.什么是Unicode Unicode支持一百万种以上的字符,每一个字符分配一个编号,称为编码点。在Python中编码点写作\uXXXX,其中XXXX是四位十六进制数。 在一 阅读全文

posted @ 2016-10-11 22:20 波比12 阅读(820) 评论(0) 推荐(0)

自然语言处理3.1——从网络和硬盘访问文本
摘要:文本的最重要来源无疑是网络。探索现成的文本集合是很方便的,然而每个人都有自己的文本来源,需要学习如何去访问他们。 首先,我们要学习从网络和硬盘访问文本。 1.电子书 NLTk语料库集合中存有古腾堡项目的一小部分样例文本,如果你对古腾堡项目其他的文本感兴趣,可以在http://www.gutenber 阅读全文

posted @ 2016-10-10 22:20 波比12 阅读(741) 评论(0) 推荐(0)

自然语言处理2.3——词典资源
摘要:词典或者词典资源是一个词和/或者短语及其相关信息的集合,例如:词性和词意定义等相关信息。词典资源隶属于文本,并且通过在文本的基础上创建和丰富。例如定义了一个文本my_text,然后通过vocab=sorted(set(my_text))建立my_text的词汇表,再利用word_Freq=FreqD 阅读全文

posted @ 2016-09-27 21:54 波比12 阅读(2573) 评论(0) 推荐(0)

自然语言处理2.2——条件频率分布
摘要:前面我们学习过使用FreqDist(textlist)函数来计算textlist链表中每个项目出现的次数,现在我们推广这一想法。 当语料文本分为几类(文体、主题、作者)时,可以计算每个类别独立的频率分布,这样就可以研究类别之间的系统性差异。——nltk.ConditionalFreqDist来实现、 阅读全文

posted @ 2016-09-27 12:48 波比12 阅读(1905) 评论(0) 推荐(0)

自然语言处理——NLTK中文语料库语料库
摘要:Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。 检查箭头所指的sinica_treebank是否安装,如果未安装,则首先要进行安装。 安装完 阅读全文

posted @ 2016-09-23 15:27 波比12 阅读(11022) 评论(0) 推荐(1)

自然语言处理2.1——NLTK文本语料库
摘要:1.获取文本语料库 NLTK库中包含了大量的语料库,下面一一介绍几个: (1)古腾堡语料库:NLTK包含古腾堡项目电子文本档案的一小部分文本。该项目目前大约有36000本免费的电子图书。 使用:from nltk.corpus import gutenberg 写一段简短的程序,通过遍历前面所列出的 阅读全文

posted @ 2016-09-23 12:57 波比12 阅读(7887) 评论(0) 推荐(0)

《Python自然语言处理》中文版-纠错【更新中。。。】
摘要:最近在看《Python自然语言处理》中文版这本书,可能由于是从py2.x到py3.x,加上nltk的更新的原因,或者作者的一些笔误,在书中很多代码都运行不能通过,下面我就整理一下一点有问题的代码。 第一章: p3.该处为小建议,书中没有错误:关于nltk.book的下载,最好下载到'/nltk_da 阅读全文

posted @ 2016-08-31 14:43 波比12 阅读(2956) 评论(1) 推荐(0)

自然语言处理1——语言处理与Python(内含纠错)
摘要:学习Python自然语言处理,记录一下学习笔记。 运用Python进行自然语言处理需要用到nltk库,关于nltk库的安装,我使用的pip方式。 或者下载whl文件进行安装。(推荐pip方式,简单又适用)。 安装完成后就可以使用该库了,但是还需要下载学习所需要的数据。启动ipython,键入下面两行 阅读全文

posted @ 2016-08-31 11:03 波比12 阅读(5442) 评论(0) 推荐(2)

导航