摘要: 一元标注(Unigram Tagging) 一元标注基于简单的统计算法,对每个标识符分配这个独特的标识符最有可能的标记。 >>>from nltk.corpusimport brown>>>brown_tagged_sents= brown.tagged_sents(categories='news')>>>brown_sents= brown.sents(categories='new... 阅读全文
posted @ 2013-05-26 15:50 createMoMo 阅读(1588) 评论(0) 推荐(0)
摘要: 在这里有不同的方式来给文本自动添加词性标记。 一个词的标记,要依赖于这个词和它在句子中的上下文。 所以:我们将处理句子层次而不是词汇层次的数据。 下面的所有代码示例中都以这些代码为基础: >>>from nltk.corpusimport brown>>>brown_tagged_sents= brown.tagged_sents(categories='news')>>>brown... 阅读全文
posted @ 2013-05-26 11:00 createMoMo 阅读(989) 评论(0) 推荐(0)
摘要: 字典数据类型(其他编程语言可能称为关联数组或者哈希数组) 索引链表VS字典(略) Python字典 #初始化一个空字典 pos={} #字典的一些其他用法pos.keys0,pos.values(),pos.items() #定义一个非空字典 >>>pos= {'colorless':'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously':... 阅读全文
posted @ 2013-05-25 23:18 createMoMo 阅读(767) 评论(0) 推荐(0)
摘要: 什么是词性标注? 将词性按照它们的词性分类以及相应的标注它们的过程被成为词性标注。 词性也成为词类,或者词汇范畴。 用于特定任务的标记的集合被称为一个标记集。 5.1使用词性标注器 词性标注器的简单例子 text=nltk.word_tokenize(“And now for something completely different”)nltk.pos_tag(text)#查... 阅读全文
posted @ 2013-05-25 22:24 createMoMo 阅读(1141) 评论(0) 推荐(0)
摘要: Matplotlib绘图工具、NetwordX工具可以自行查阅相关资料。CSV读取CSV的格式import csvinput_file=open('lexicon.csv','rb')for row in csv.reader(input_file): print rowNumPyNumPy中的多维数组对象>>>from numpy import array167>>>cube = array([ [[0,0,0], [1,1,1], [2,2,2]],... [[3,3,3], [4,4,4], [5,5,5]],... [ 阅读全文
posted @ 2013-05-25 15:12 createMoMo 阅读(266) 评论(0) 推荐(0)
摘要: 自然语言处理当中常用的算法分而治之:1、分成两半分给另外两个人来排序,他们又可以做同样的事情2、得到两个排序号的卡片堆,合并成单一的排序堆递归在这里用一个例子来说明递归、构建一个字母查找树。def insert(trie,key,value): if key: fist,rest=key[0],key[1:] if fist not in trie: trie[first]={} insert(trie[first],rest,value) else: trie['value']=value >>>trie = nltk.defaultdict(dict) & 阅读全文
posted @ 2013-05-25 15:00 createMoMo 阅读(436) 评论(0) 推荐(0)
摘要: Python模块的结构一个模块可以包含用于创建和操纵一种特定的数据结构,如语法树的代码,或者执行特定的处理任务,如绘制语料统计图表的代码。下面是一个比较标准的模块文件的docstring的写法,仅供参考:#NaturalLanguageToolkit:DistanceMetrics##Copyright(C) 2001-2009 NLTKProject#Author:EdwardLoper <edloper@gradient.cis.upenn.edu># StevenBird<sb@csse.unimelb.edu.au># TomLippincott<tom@ 阅读全文
posted @ 2013-05-25 14:31 createMoMo 阅读(324) 评论(0) 推荐(0)
摘要: 最近在读导师给的《Natural Language Processing with Python》.在读到11章11.5这一小节时,遇到这样一段代码。from nltk_contrib import toolbox其实,在我安装的Python和nltk包里面,并没有nltk_contirb。我是又单独在官网上下载的nltk_contrib。尽管现在可以使用了,但是我还是在疑问nltk和nltk_contrib之间的关系。由于国内的网站上相关的资料太少,貌似又没有人提出这个疑问(难道是我太钻牛角了?)。于是,我在谷歌论坛上,发表了一个帖子。问题如下:My questions are as fol 阅读全文
posted @ 2013-05-25 14:24 createMoMo 阅读(618) 评论(0) 推荐(0)
摘要: 4.3风格的问题详细请参考Python相关书籍或者资料。4.4函数:结构化编程的基础#怎样比较正规的写一个函数import re def get_text(file): “””Read text from a file,normailizing whites space and stripping HTML markup.””” text=….. …. return text文档说明函数docstringdef accuracy(reference, test): """Calculatethe fraction of test items that equal 阅读全文
posted @ 2013-05-24 23:24 createMoMo 阅读(355) 评论(0) 推荐(0)
摘要: 我们应该知道,我们常用的有三种序列。他们分别是:字符串、链表、还有一种为元组。 >>>t ='walk', 'fem', 3 >>>t ('walk', 'fem', 3) >>>t[0] 'walk' >>>t[1:] ('fem', 3) >>len(t)序列类型上的操作遍历操作:zip函数 >>>words= ['I', '... 阅读全文
posted @ 2013-05-24 20:41 createMoMo 阅读(215) 评论(0) 推荐(0)