摘要: 字典数据类型(其他编程语言可能称为关联数组或者哈希数组) 索引链表VS字典(略) Python字典 #初始化一个空字典 pos={} #字典的一些其他用法pos.keys0,pos.values(),pos.items() #定义一个非空字典 >>>pos= {'colorless':'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously':... 阅读全文
posted @ 2013-05-25 23:18 createMoMo 阅读(775) 评论(0) 推荐(0)
摘要: 什么是词性标注? 将词性按照它们的词性分类以及相应的标注它们的过程被成为词性标注。 词性也成为词类,或者词汇范畴。 用于特定任务的标记的集合被称为一个标记集。 5.1使用词性标注器 词性标注器的简单例子 text=nltk.word_tokenize(“And now for something completely different”)nltk.pos_tag(text)#查... 阅读全文
posted @ 2013-05-25 22:24 createMoMo 阅读(1149) 评论(0) 推荐(0)
摘要: Matplotlib绘图工具、NetwordX工具可以自行查阅相关资料。CSV读取CSV的格式import csvinput_file=open('lexicon.csv','rb')for row in csv.reader(input_file): print rowNumPyNumPy中的多维数组对象>>>from numpy import array167>>>cube = array([ [[0,0,0], [1,1,1], [2,2,2]],... [[3,3,3], [4,4,4], [5,5,5]],... [ 阅读全文
posted @ 2013-05-25 15:12 createMoMo 阅读(269) 评论(0) 推荐(0)
摘要: 自然语言处理当中常用的算法分而治之:1、分成两半分给另外两个人来排序,他们又可以做同样的事情2、得到两个排序号的卡片堆,合并成单一的排序堆递归在这里用一个例子来说明递归、构建一个字母查找树。def insert(trie,key,value): if key: fist,rest=key[0],key[1:] if fist not in trie: trie[first]={} insert(trie[first],rest,value) else: trie['value']=value >>>trie = nltk.defaultdict(dict) & 阅读全文
posted @ 2013-05-25 15:00 createMoMo 阅读(440) 评论(0) 推荐(0)
摘要: Python模块的结构一个模块可以包含用于创建和操纵一种特定的数据结构,如语法树的代码,或者执行特定的处理任务,如绘制语料统计图表的代码。下面是一个比较标准的模块文件的docstring的写法,仅供参考:#NaturalLanguageToolkit:DistanceMetrics##Copyright(C) 2001-2009 NLTKProject#Author:EdwardLoper <edloper@gradient.cis.upenn.edu># StevenBird<sb@csse.unimelb.edu.au># TomLippincott<tom@ 阅读全文
posted @ 2013-05-25 14:31 createMoMo 阅读(326) 评论(0) 推荐(0)
摘要: 最近在读导师给的《Natural Language Processing with Python》.在读到11章11.5这一小节时,遇到这样一段代码。from nltk_contrib import toolbox其实,在我安装的Python和nltk包里面,并没有nltk_contirb。我是又单独在官网上下载的nltk_contrib。尽管现在可以使用了,但是我还是在疑问nltk和nltk_contrib之间的关系。由于国内的网站上相关的资料太少,貌似又没有人提出这个疑问(难道是我太钻牛角了?)。于是,我在谷歌论坛上,发表了一个帖子。问题如下:My questions are as fol 阅读全文
posted @ 2013-05-25 14:24 createMoMo 阅读(619) 评论(0) 推荐(0)