自然语言处理 - 随笔分类 - 波比12

自然语言处理3.8——分割

摘要：分词是分割的一个更普遍的问题实例，这一节，我们要学习一下分割技术。 1、断句在词级水平处理文本时候通常假定能够将文本划分成单个句子。一些语料库提高了句子级别的访问。例如，我们可以计算布朗预料库中每个句子的平均词数。在其他情况下，文本可能只是一个字符流。在将文本分词之前，需要将它分割成句子。NL 阅读全文

posted @ 2016-10-25 14:35 波比12 阅读(2265) 评论(0) 推荐(0)

NLTK中的词性

摘要：NOUN n,VERB v ,ADJ a, ADV r, ADJ_SAT s NOUN: [('s', ''), ('ses', 's'), ('ves', 'f'), ('xes', 'x'), ('zes', 'z'), ('ches', 'ch'), ('shes', 'sh'), ('men 阅读全文

posted @ 2016-10-24 13:01 波比12 阅读(1126) 评论(0) 推荐(0)

自然语言处理3.7——用正则表达式为文本分词

摘要：1、分词的简单方法：在空格字符处分割文本是文本分词最简单的方法。考虑一下摘自《爱丽丝梦游仙境》中的文本。可以使用raw.split()在空格符处分割原始文本。使用正则表达式能做同样的事情，匹配字符串中的所有空白符是远远不够的，因为这会导致结果中包含'\n'换行符。需要同时匹配任何数量的空格符、制阅读全文

posted @ 2016-10-21 19:42 波比12 阅读(4996) 评论(0) 推荐(1)

自然语言处理3.6——规范化文本

摘要：在前面的例子中，在处理文本词汇前经常要将文本转化成小写，即（w.lower() for w in words).通过lower()将文本规范化为小写，这样一来，"The"和"the"的区别被忽略了。我们常常进行更多的尝试，例如去掉文本中的所有词缀已经提取词干的任务等。下一步是确保结果形式是字典中确阅读全文

posted @ 2016-10-21 19:03 波比12 阅读(1560) 评论(0) 推荐(0)

自然语言处理3.5——正则表达式的有益应用

摘要：1、提出字符串通过re.findall()方法找出所有（无重叠）匹配指定正则表达式的字符串。例如找出一个词的所有元音字符，并计数在例如找出文本中两个或者两个以上的原因序列，并确定它们的相对频率 2、在字符串上做更多的事情英文文本是高度冗余的，忽略掉词内部的元音仍然可以轻松的阅读，有些时候这很明阅读全文

posted @ 2016-10-13 22:24 波比12 阅读(1441) 评论(0) 推荐(0)

自然语言处理3.4——使用正则表达式检测词组搭配

摘要：许多语言处理任务都涉及模式匹配。以前我们使用‘stsrtswith（str）’或者‘endswith（str）’来寻找特定的单词。但是下面引入正则表达式，正则表达式是一个强大的模块，他不属于哪一种特定的语言，是一个强大的语言处理工具。在Python中使用正则表达式需要使用import re来导入r 阅读全文

posted @ 2016-10-12 22:02 波比12 阅读(3987) 评论(0) 推荐(0)

自然语言处理3.3——使用Unicode进行文字处理

摘要：全世界有多种语言，经常需要应用程序处理不同的语言和字符集。下面将介绍如何利用Unicode处理使用非ASCII字符集文字。 1.什么是Unicode Unicode支持一百万种以上的字符，每一个字符分配一个编号，称为编码点。在Python中编码点写作\uXXXX，其中XXXX是四位十六进制数。在一阅读全文

posted @ 2016-10-11 22:20 波比12 阅读(826) 评论(0) 推荐(0)

自然语言处理3.1——从网络和硬盘访问文本

摘要：文本的最重要来源无疑是网络。探索现成的文本集合是很方便的，然而每个人都有自己的文本来源，需要学习如何去访问他们。首先，我们要学习从网络和硬盘访问文本。 1.电子书 NLTk语料库集合中存有古腾堡项目的一小部分样例文本，如果你对古腾堡项目其他的文本感兴趣，可以在http://www.gutenber 阅读全文

posted @ 2016-10-10 22:20 波比12 阅读(749) 评论(0) 推荐(0)

自然语言处理2.3——词典资源

摘要：词典或者词典资源是一个词和/或者短语及其相关信息的集合，例如：词性和词意定义等相关信息。词典资源隶属于文本，并且通过在文本的基础上创建和丰富。例如定义了一个文本my_text，然后通过vocab=sorted（set（my_text））建立my_text的词汇表，再利用word_Freq=FreqD 阅读全文

posted @ 2016-09-27 21:54 波比12 阅读(2594) 评论(0) 推荐(0)

自然语言处理2.2——条件频率分布

摘要：前面我们学习过使用FreqDist（textlist）函数来计算textlist链表中每个项目出现的次数，现在我们推广这一想法。当语料文本分为几类（文体、主题、作者）时，可以计算每个类别独立的频率分布，这样就可以研究类别之间的系统性差异。——nltk.ConditionalFreqDist来实现、阅读全文

posted @ 2016-09-27 12:48 波比12 阅读(1915) 评论(0) 推荐(0)

自然语言处理——NLTK中文语料库语料库

摘要：Python NLTK库中包含着大量的语料库，但是大部分都是英文，不过有一个Sinica（中央研究院）提供的繁体中文语料库，值得我们注意。在使用这个语料库之前，我们首先要检查一下是否已经安装了这个语料库。检查箭头所指的sinica_treebank是否安装，如果未安装，则首先要进行安装。安装完阅读全文

posted @ 2016-09-23 15:27 波比12 阅读(11030) 评论(0) 推荐(1)

自然语言处理2.1——NLTK文本语料库

摘要：1.获取文本语料库 NLTK库中包含了大量的语料库，下面一一介绍几个：（1）古腾堡语料库：NLTK包含古腾堡项目电子文本档案的一小部分文本。该项目目前大约有36000本免费的电子图书。使用：from nltk.corpus import gutenberg 写一段简短的程序，通过遍历前面所列出的阅读全文

posted @ 2016-09-23 12:57 波比12 阅读(7904) 评论(0) 推荐(0)

《Python自然语言处理》中文版-纠错【更新中。。。】

摘要：最近在看《Python自然语言处理》中文版这本书，可能由于是从py2.x到py3.x，加上nltk的更新的原因，或者作者的一些笔误，在书中很多代码都运行不能通过，下面我就整理一下一点有问题的代码。第一章： p3.该处为小建议，书中没有错误：关于nltk.book的下载，最好下载到'/nltk_da 阅读全文

posted @ 2016-08-31 14:43 波比12 阅读(2963) 评论(1) 推荐(0)

自然语言处理1——语言处理与Python（内含纠错）

摘要：学习Python自然语言处理，记录一下学习笔记。运用Python进行自然语言处理需要用到nltk库，关于nltk库的安装，我使用的pip方式。或者下载whl文件进行安装。（推荐pip方式，简单又适用）。安装完成后就可以使用该库了，但是还需要下载学习所需要的数据。启动ipython，键入下面两行阅读全文

posted @ 2016-08-31 11:03 波比12 阅读(5452) 评论(0) 推荐(2)

随笔分类 - 自然语言处理