随笔分类 -  NLP

摘要:1. 安装NLTK安装比较方便,去nltk.org主页上就有安装的详细步骤。安装页面:http://nltk.org/install.html记下Linux步骤:Open Finder>Applications>Utilities>Terminal and type python -V to find out what version of Python is installedInstall Setuptools: Download the corresponding version of Setuptools from http://pypi.python.org/pyp 阅读全文
posted @ 2013-01-23 16:34 小卡的土豆园 阅读(4285) 评论(1) 推荐(1)
摘要:ICTCLAS是中科院计算所研发的中文分词软件,这个软件在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,是公认的当今最好的中文分词软件。综合性能:ICTCLAS 2011分词速500KB/s左右,分词精度98.45%。官网地址:http://ictclas.org/软件下载下载地址:http://ictclas.org/ictclas_download.aspx下载的时候需要填下姓名和邮箱,然后就可以下载,是免费的。我下载的是C++版的,当然也有Java版的,目前只支持这两种语言。下载解压后有四个文件夹,分别是: API: Demo: Doc:使用文档 Smaple:给 阅读全文
posted @ 2012-06-28 21:17 小卡的土豆园 阅读(2996) 评论(6) 推荐(0)
摘要:向量空间模型是一种比较广泛是一种用向量来表示文本的代数模型。在向量空间模型中,文档被表示成一个权值向量,其中的每一个权值都通过词频率表(TF),或者词逆向文档频率表(TF-IDF),或者他们的变异版本计算得到的。词频率表(Term Frequency(TF)Scheme):在这种方式中,文档di中token ti的权值就是在dj中ti出现的次数,被定义为fij,在此基础上还可以进行标准化。词逆向文档频率表(TF-IDF Scheme):这是最有名的权值表,这种表有很多种变异的版本,在这里给出最基本的形式在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件 阅读全文
posted @ 2011-12-14 20:05 小卡的土豆园 阅读(997) 评论(0) 推荐(0)