随笔分类 -  Python

自然语言处理3.3——使用Unicode进行文字处理
摘要:全世界有多种语言,经常需要应用程序处理不同的语言和字符集。下面将介绍如何利用Unicode处理使用非ASCII字符集文字。 1.什么是Unicode Unicode支持一百万种以上的字符,每一个字符分配一个编号,称为编码点。在Python中编码点写作\uXXXX,其中XXXX是四位十六进制数。 在一 阅读全文

posted @ 2016-10-11 22:20 波比12 阅读(820) 评论(0) 推荐(0)

自然语言处理3.1——从网络和硬盘访问文本
摘要:文本的最重要来源无疑是网络。探索现成的文本集合是很方便的,然而每个人都有自己的文本来源,需要学习如何去访问他们。 首先,我们要学习从网络和硬盘访问文本。 1.电子书 NLTk语料库集合中存有古腾堡项目的一小部分样例文本,如果你对古腾堡项目其他的文本感兴趣,可以在http://www.gutenber 阅读全文

posted @ 2016-10-10 22:20 波比12 阅读(741) 评论(0) 推荐(0)

自然语言处理2.3——词典资源
摘要:词典或者词典资源是一个词和/或者短语及其相关信息的集合,例如:词性和词意定义等相关信息。词典资源隶属于文本,并且通过在文本的基础上创建和丰富。例如定义了一个文本my_text,然后通过vocab=sorted(set(my_text))建立my_text的词汇表,再利用word_Freq=FreqD 阅读全文

posted @ 2016-09-27 21:54 波比12 阅读(2573) 评论(0) 推荐(0)

自然语言处理2.2——条件频率分布
摘要:前面我们学习过使用FreqDist(textlist)函数来计算textlist链表中每个项目出现的次数,现在我们推广这一想法。 当语料文本分为几类(文体、主题、作者)时,可以计算每个类别独立的频率分布,这样就可以研究类别之间的系统性差异。——nltk.ConditionalFreqDist来实现、 阅读全文

posted @ 2016-09-27 12:48 波比12 阅读(1905) 评论(0) 推荐(0)

自然语言处理——NLTK中文语料库语料库
摘要:Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。 检查箭头所指的sinica_treebank是否安装,如果未安装,则首先要进行安装。 安装完 阅读全文

posted @ 2016-09-23 15:27 波比12 阅读(11022) 评论(0) 推荐(1)

自然语言处理2.1——NLTK文本语料库
摘要:1.获取文本语料库 NLTK库中包含了大量的语料库,下面一一介绍几个: (1)古腾堡语料库:NLTK包含古腾堡项目电子文本档案的一小部分文本。该项目目前大约有36000本免费的电子图书。 使用:from nltk.corpus import gutenberg 写一段简短的程序,通过遍历前面所列出的 阅读全文

posted @ 2016-09-23 12:57 波比12 阅读(7887) 评论(0) 推荐(0)

【转载】使用LFM(Latent factor model)隐语义模型进行Top-N推荐
摘要:最近在拜读项亮博士的《推荐系统实践》,系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结。 隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始 阅读全文

posted @ 2016-09-08 10:01 波比12 阅读(725) 评论(0) 推荐(0)

Sklearn库例子4:分类——Lasso分类例子
摘要:Lasso回归: 输出: 阅读全文

posted @ 2016-09-06 14:11 波比12 阅读(8279) 评论(1) 推荐(0)

Sklearn库例子3:分类——岭回归分类(Ridge Regression )例子
摘要:为了解决数据的特征比样本点还多的情况,统计学家引入了岭回归。 岭回归通过施加一个惩罚系数的大小解决了一些普通最小二乘的问题。回归系数最大限度地减少了一个惩罚的误差平方和。 这里是一个复杂的参数,用来控制收缩量,其值越大,就有更大的收缩量,从而成为更强大的线性系数。 Ridge和Line_Model一 阅读全文

posted @ 2016-09-05 13:54 波比12 阅读(7900) 评论(0) 推荐(0)

Sklearn库例子2:分类——线性回归分类(Line Regression )例子
摘要:线性回归:通过拟合线性模型的回归系数W =(w_1,…,w_p)来减少数据中观察到的结果和实际结果之间的残差平方和,并通过线性逼近进行预测。 从数学上讲,它解决了下面这个形式的问题: LinearRegression()模型在Sklearn.linear_model下,他主要是通过fit(x,y)的 阅读全文

posted @ 2016-09-02 14:22 波比12 阅读(11109) 评论(0) 推荐(0)

Sklearn库例子1:Sklearn库中AdaBoost和Decision Tree运行结果的比较
摘要:DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4581651.html 本例是Sklearn网站上的关于决策树桩、决策树、和分别使用AdaBoost 阅读全文

posted @ 2016-09-01 15:10 波比12 阅读(7270) 评论(1) 推荐(0)

《Python自然语言处理》中文版-纠错【更新中。。。】
摘要:最近在看《Python自然语言处理》中文版这本书,可能由于是从py2.x到py3.x,加上nltk的更新的原因,或者作者的一些笔误,在书中很多代码都运行不能通过,下面我就整理一下一点有问题的代码。 第一章: p3.该处为小建议,书中没有错误:关于nltk.book的下载,最好下载到'/nltk_da 阅读全文

posted @ 2016-08-31 14:43 波比12 阅读(2956) 评论(1) 推荐(0)

自然语言处理1——语言处理与Python(内含纠错)
摘要:学习Python自然语言处理,记录一下学习笔记。 运用Python进行自然语言处理需要用到nltk库,关于nltk库的安装,我使用的pip方式。 或者下载whl文件进行安装。(推荐pip方式,简单又适用)。 安装完成后就可以使用该库了,但是还需要下载学习所需要的数据。启动ipython,键入下面两行 阅读全文

posted @ 2016-08-31 11:03 波比12 阅读(5442) 评论(0) 推荐(2)

python [吐槽]关于nan类型时遇到的问题
摘要:今天在用写一段求和的代码时候,发现最后返回的是nan的结果,这段循环求和代码依次调用了三个函数,于是依次打印这三个函数的返回值,发现其中一个函数的返回值为nan,原来是因为这段函数里面没有相似的用户,所有返回结果为nan,于是我就想加一个判断条件,当结果为空时,跳过本次循环: 本以为加上这一句话就可 阅读全文

posted @ 2016-08-25 14:34 波比12 阅读(26199) 评论(0) 推荐(3)

[机器学习之13]降维技术——主成分分析PCA
摘要:始终贯彻数据分析的一个大问题就是对数据和结果的展示,我们都知道在低维度下数据处理比较方便,因而数据进行简化成为了一个重要的技术。对数据进行简化的原因: 1.使得数据集更易用使用。2、降低很多算法的计算开销。3、去除噪音、4.使得结果易懂 这里我们关心的数据降维技术为主成分分析(PCA)。在PCA中, 阅读全文

posted @ 2016-08-22 21:01 波比12 阅读(1656) 评论(0) 推荐(0)

numpy下的flatten()函数用法
摘要:flatten是numpy.ndarray.flatten的一个函数,其官方文档是这样描述的: Return a copy of the array collapsed into one dimension. Parameters: order : {‘C’, ‘F’, ‘A’, ‘K’}, opt 阅读全文

posted @ 2016-08-22 19:59 波比12 阅读(70463) 评论(0) 推荐(3)

Python 列表如何获得一个指定元素所在的下标
摘要:在使用Python3.4读取txt数据到列表,由于编码问题,读取到的数据通常会出现'\ufeffX'(x为你想要的数据)。这时候如果需要把列表中的数据由字符串转换到数值型的数据的进行数据分析的话就会出现问题,我们可以采取获取到该异常数据所在的位置,将该位置换成格式合适的数据。 那么Python列表如 阅读全文

posted @ 2016-08-18 15:36 波比12 阅读(88728) 评论(3) 推荐(0)

Python的numpy库下的几个小函数的用法
摘要:numpy库是Python进行数据分析和矩阵运算的一个非常重要的库,可以说numpy让Python有了matlab的味道 本文主要介绍几个numpy库下的小函数。 1、mat函数 mat函数可以将目标数据的类型转换为矩阵(matrix) 因此可以使用mat函数将一个列表a转换成相应的矩阵类型。 2、 阅读全文

posted @ 2016-08-15 16:22 波比12 阅读(15944) 评论(0) 推荐(2)

【转】Python numpy库的nonzero函数用法
摘要:当使用布尔数组直接作为下标对象或者元组下标对象中有布尔数组时,都相当于用nonzero()将布尔数组转换成一组整数数组,然后使用整数数组进行下标运算。 nonzeros(a) 返回数组a中值不为零的元素的下标,它的返回值是一个长度为a.ndim(数组a的轴数)的元组,元组的每个元素都是一个整数数组, 阅读全文

posted @ 2016-08-12 21:54 波比12 阅读(2660) 评论(0) 推荐(0)

Python合并两个numpy矩阵
摘要:numpy是Python用来科学计算的一个非常重要的库,numpy主要用来处理一些矩阵对象,可以说numpy让Python有了Matlab的味道。 实际的应用中,矩阵的合并是一个经常发生的操作,如何利用numpy来合并两个矩阵呢?我们可以利用numpy向我们提供的两个函数来进行操作。 首先我们先随机 阅读全文

posted @ 2016-08-04 11:07 波比12 阅读(117097) 评论(0) 推荐(3)

导航