摘要: 我们都知道进行自然语言处理的第一步就是分词,下面使用jieba模块对最近比较热的电视剧《人民的名义》进行分词,并对它进行一些简单的文本分析。 一、jieba模块中常用的方法说明(github): 1.分词: jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是阅读全文
posted @ 2017-04-21 19:38 视野 阅读(1428) 评论(10) 编辑
摘要: Python中对open()函数的说明: Definition : open(name[, mode[, buffering]]) Type : Function of __builtin__ module open(name[, mode[, buffering]]) -> file object阅读全文
posted @ 2017-04-20 11:16 视野 阅读(5) 评论(0) 编辑
摘要: 最小(大)堆是按完全二叉树的排序顺序的方式排布堆中元素的,并且满足:ai >a(2i+1) and ai>a(2i+2)( ai <a(2i+1) and ai<a(2i+2)).堆是一种高级的数据结构,在Python中,有相应的模块deapq。 下面给出自己编写的代码实现最小堆与使用heapq模块阅读全文
posted @ 2017-04-04 16:31 视野 阅读(27) 评论(0) 编辑
摘要: 对于一个没学过数据结构这门课程的编程菜鸟来说,自己能理解数据结构中的相关概念,但是自己动手通过Python,C++来实现它们却总感觉有些吃力。递归,指针,类这些知识点感觉自己应用的不够灵活,这是自己以后需要加强的地方。以下给出Python实现二叉树四种的遍历。阅读全文
posted @ 2017-04-03 23:01 视野 阅读(41) 评论(0) 编辑
摘要: 一,返回值为bool类型的函数 1.any()函数 any(iterable)->bool 当迭代器中有一个是Ture,则返回Ture;若interable=NUll,则返回False. >>> any([1,0])True>>> any([0,0])False>>> any([])False>>>阅读全文
posted @ 2017-04-01 22:58 视野 阅读(39) 评论(0) 编辑
摘要: python科学计算阅读全文
posted @ 2016-11-02 19:36 视野 阅读(369) 评论(0) 编辑
摘要: 一、条形图 1.安装包install.packages("vcd"); library(vcd);count<-table(Arthritis$Improved);#table统计病人的提高情况(表格化)。barplot(count,main="Bar plot",xlab="Imrovement"阅读全文
posted @ 2016-08-03 16:55 视野 阅读(39) 评论(0) 编辑
摘要: R语言与SQL server链接阅读全文
posted @ 2016-07-24 16:33 视野 阅读(46) 评论(0) 编辑
摘要: 数据缺失处理阅读全文
posted @ 2016-07-17 15:17 视野 阅读(35) 评论(0) 编辑
摘要: 聚类算法(K-means)目的是将n个对象根据它们各自属性分成k个不同的簇,使得簇内各个对象的相似度尽可能高,而各簇之间的相似度尽量小。 而如何评测相似度呢,采用的准则函数是误差平方和(因此也叫K-均值算法): 其中,E是数据集中所有对象的平方误差和,P是空间中的点,表示给定对象,mi为簇Ci的均值阅读全文
posted @ 2016-06-20 20:41 视野 阅读(90) 评论(0) 编辑