波比12 - 博客园

Python os模块

摘要：一、os模块概述 Python os模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话，这个模块是尤为重要的。(一语中的) 二、常用方法 1、os.name 输出字符串指示正在使用的平台。如果是window 则用'nt'表示，对于Linux/Unix用户，它是'posix'。 2、os 阅读全文

posted @ 2016-10-18 18:52 波比12 阅读(291) 评论(0) 推荐(0)

自然语言处理3.5——正则表达式的有益应用

摘要： 1、提出字符串通过re.findall()方法找出所有（无重叠）匹配指定正则表达式的字符串。例如找出一个词的所有元音字符，并计数在例如找出文本中两个或者两个以上的原因序列，并确定它们的相对频率 2、在字符串上做更多的事情英文文本是高度冗余的，忽略掉词内部的元音仍然可以轻松的阅读，有些时候这很明阅读全文

posted @ 2016-10-13 22:24 波比12 阅读(1451) 评论(0) 推荐(0)

自然语言处理3.4——使用正则表达式检测词组搭配

摘要：许多语言处理任务都涉及模式匹配。以前我们使用‘stsrtswith（str）’或者‘endswith（str）’来寻找特定的单词。但是下面引入正则表达式，正则表达式是一个强大的模块，他不属于哪一种特定的语言，是一个强大的语言处理工具。在Python中使用正则表达式需要使用import re来导入r 阅读全文

posted @ 2016-10-12 22:02 波比12 阅读(3996) 评论(0) 推荐(0)

自然语言处理3.3——使用Unicode进行文字处理

摘要：全世界有多种语言，经常需要应用程序处理不同的语言和字符集。下面将介绍如何利用Unicode处理使用非ASCII字符集文字。 1.什么是Unicode Unicode支持一百万种以上的字符，每一个字符分配一个编号，称为编码点。在Python中编码点写作\uXXXX，其中XXXX是四位十六进制数。在一阅读全文

posted @ 2016-10-11 22:20 波比12 阅读(836) 评论(0) 推荐(0)

自然语言处理3.1——从网络和硬盘访问文本

摘要：文本的最重要来源无疑是网络。探索现成的文本集合是很方便的，然而每个人都有自己的文本来源，需要学习如何去访问他们。首先，我们要学习从网络和硬盘访问文本。 1.电子书 NLTk语料库集合中存有古腾堡项目的一小部分样例文本，如果你对古腾堡项目其他的文本感兴趣，可以在http://www.gutenber 阅读全文

posted @ 2016-10-10 22:20 波比12 阅读(759) 评论(0) 推荐(0)

自然语言处理2.3——词典资源

摘要：词典或者词典资源是一个词和/或者短语及其相关信息的集合，例如：词性和词意定义等相关信息。词典资源隶属于文本，并且通过在文本的基础上创建和丰富。例如定义了一个文本my_text，然后通过vocab=sorted（set（my_text））建立my_text的词汇表，再利用word_Freq=FreqD 阅读全文

posted @ 2016-09-27 21:54 波比12 阅读(2611) 评论(0) 推荐(0)

自然语言处理2.2——条件频率分布

摘要：前面我们学习过使用FreqDist（textlist）函数来计算textlist链表中每个项目出现的次数，现在我们推广这一想法。当语料文本分为几类（文体、主题、作者）时，可以计算每个类别独立的频率分布，这样就可以研究类别之间的系统性差异。——nltk.ConditionalFreqDist来实现、阅读全文

posted @ 2016-09-27 12:48 波比12 阅读(1925) 评论(0) 推荐(0)

自然语言处理——NLTK中文语料库语料库

摘要： Python NLTK库中包含着大量的语料库，但是大部分都是英文，不过有一个Sinica（中央研究院）提供的繁体中文语料库，值得我们注意。在使用这个语料库之前，我们首先要检查一下是否已经安装了这个语料库。检查箭头所指的sinica_treebank是否安装，如果未安装，则首先要进行安装。安装完阅读全文

posted @ 2016-09-23 15:27 波比12 阅读(11060) 评论(0) 推荐(1)

自然语言处理2.1——NLTK文本语料库

摘要： 1.获取文本语料库 NLTK库中包含了大量的语料库，下面一一介绍几个：（1）古腾堡语料库：NLTK包含古腾堡项目电子文本档案的一小部分文本。该项目目前大约有36000本免费的电子图书。使用：from nltk.corpus import gutenberg 写一段简短的程序，通过遍历前面所列出的阅读全文

posted @ 2016-09-23 12:57 波比12 阅读(7921) 评论(0) 推荐(0)

【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐

摘要：最近在拜读项亮博士的《推荐系统实践》，系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用，在此做一个总结。隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始阅读全文

posted @ 2016-09-08 10:01 波比12 阅读(739) 评论(0) 推荐(0)