随笔分类 -  NLP

摘要:什么是语料库?文本语料库是一个大型结构化文本的集合。NLTK包含了许多语料库:(1)古滕堡语料库 (2)网络和聊天文本(3)布朗语料库(4)路透社语料库(5)就职演讲语料库(6)标注文本语料库 词汇列表语料库(1)词汇列表:nltk.corpus.words.wor... 阅读全文
posted @ 2018-07-19 21:56 yucen 阅读(1735) 评论(0) 推荐(0)
摘要:WordNet是一种面向语义的英语词典,由Princeton大学的心理学家、语言学家和计算机工程师联合设计。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。NLTK库中包含了英语WordNet,里面共有155287个词以及117659个同义词集... 阅读全文
posted @ 2018-07-19 21:34 yucen 阅读(887) 评论(0) 推荐(0)
摘要:一. 列表&字符串1. 列表 list [ ]列表是python中使用最频繁的数据类型。列表中元素的类型可以不相同,它支持数字,字符串甚至可以包含列表。 方法 描述 list.append(x) 把一个元素添加到列表的... 阅读全文
posted @ 2018-07-18 21:15 yucen 阅读(633) 评论(0) 推荐(0)
摘要:nltk是一款常用的基于python的NLP工具包,本文介绍了nlkt的安装导入以及一些基础的函数操作。1. 安装(1)安装nltk库: pip install nlkt(2)下载nltk库中的book文件:import nltknltk.download()运行-... 阅读全文
posted @ 2018-07-18 15:19 yucen 阅读(3655) 评论(0) 推荐(0)