05 2014 档案
摘要:Ubuntu12.04安装R语言的时候出现的报错。研究了两个晚上,解决办法如下,跟参考贴有点出入:###########################################################1.首先我直接运行下面命令不能解决问题:代码:gpg --keyserver sub...
阅读全文
摘要:环境:Ubuntu12.04R-3.1.00.Ubuntu安装R官网的介绍http://mirrors.ustc.edu.cn/CRAN/Precise Pangolin (12.04; LTS), 与12.04对应的是add deb http:///bin/linux/ubuntu precis...
阅读全文
摘要:《mahout in action》第六章。datafile/cluster/simple_k-means.txt数据集如下:1 12 11 22 23 38 88 99 89 91. k-means聚类算法原理1、从D中随机取k个元素,作为k个簇的各自的中心。2、分别计算剩下的元素到k个簇中心的相...
阅读全文
摘要:只有这个算法思想比较对,其他的都没有一开始的remove:原网址:http://www.shahuwang.com/?p=1021CanopyClustering这个算法是2000年提出来的,此后与Hadoop配合,已经成为一个比较流行的算法了。确切的说,这个算法获得的并不是最终结果,它是为其他算法...
阅读全文
摘要:环境:mahout-0.8hadoop-1.1.2ubuntu-12.04理论这里就不说了,直接上实例:下面举一个例子。数据准备:canopy.dat文件,COPY到HDFS上,文件内容如下:8.1 8.1 7.1 7.1 6.2 6.2 7.1 7.1 2.1 2.1 1.1 ...
阅读全文
摘要:Mahout – Clustering (聚类篇)Leave a reply什么是Mahout?” Apache Mahout™ project’s goal is to build a scalable machine learning library ”我来拓展一下:(1) Mahout 是Ap...
阅读全文
摘要:Mahout canopy聚类分类:机器学习2014-05-23 15:37192人阅读评论(0)收藏举报mahout机器学习目录(?)[-]Canopy 聚类一Canopy算法流程二MapReduce实现一簇定义二发现中心点三划分数据三API说明四参考文献Canopy 聚类一、Canopy算法流程...
阅读全文
摘要:使用mahout fpgrowth 首先,这篇文章的内容大部分取自国外一篇博客Finding association rules with Mahout Frequent Pattern Mining,写这个出于几个原因,一 原文是英文的;二该博客貌似还被墙了,反正我是用了goagent才看到的;...
阅读全文
摘要:apriori(arules)apriori()所属R语言包:arules Mining Associations with Apriori 矿业协会的Apriori 译者:生物统计家园网 机器人LoveR描述--------...
阅读全文
摘要:生成规则数据1、使用“:“,如x=1:10,注意该方法既可以递增也可以递减,如y=10:12、seq,有两种用法:①seq(起点,终点,步长); ②seq(length=9, from=1, to=5) seq还有一种简写:seq(x) #相当于1:length(x),但当length(x)为0时,...
阅读全文
摘要:基本运算符号1、基本数学计算+、-、*、/、^、%%(求模)、%/%(整除)注意:求模运算两边若为小数,则整数和小数部分分别求模。例:5.6%%2.22、比较运算>、=、 8) #返回一个向量 which(x > 8, arr.ind=T) #返回一个指示行列号的矩阵diff:差分,即x[i+1]-...
阅读全文
摘要:[plain]view plaincopya<-c(5,4,3,2,1)b<-c(1,2,3,4,5)c<-cbind(a,b)[plain] view plaincopyc[order(c[,1]),]#按第一列递增排序
阅读全文
摘要:R语言中的字符处理(2011-07-10 22:29:48)转载▼标签:r语言字符处理字符串连接分割分类:RR的字符串处理能力还是很强大的,具体有base包的几个函数和stringr包。1.计算字符串的字符数nchar()2. 字符串连接paste(...,sep="",collapse=NULL)...
阅读全文
摘要:基本运算符号1、基本数学计算+、-、*、/、^、%%(求模)、%/%(整除)注意:求模运算两边若为小数,则整数和小数部分分别求模。例:5.6%%2.22、比较运算>、=、 8) #返回一个向量 which(x > 8, arr.ind=T) #返回一个指示行列号的矩阵diff:差分,即x[i+1]-...
阅读全文
摘要:R语言:文本(字符串)处理与正则表达式(2014-03-27 16:40:44)转载▼标签:教育分类:R处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强,...
阅读全文
摘要:本文为原创,转载注明出处。系统环境:win7 x64R-3.1.0-win.exeRStudio-0.98.507.exe前置条件:必须拥有github仓库: 如:https://github.com/xxx/Rproject在已经有Github的用户基础上,执行下面操作1.下载git http:/...
阅读全文
摘要:Git操作指南(2) —— Git Gui for Windows的建库、克隆(clone)、上传(push)、下载(pull)、合并 关于linux上建库等操作请看文章:http://hi.baidu.com/mvp_xuan/blog/item/30f5b700a832f0261d9583ad....
阅读全文
摘要:参考:http://www.rstudio.com/ide/docs/debugging/overview1.进入调试模式全选代码,点击source即可进入调试模式。2.进入for 调试在For中加browser(),即可进入For语句中,在右边可以看到每个值的变化。如:for(){browser(...
阅读全文
摘要:转:使用 python Matplotlib 库 绘图 及 相关问题使用 python Matplotlib 库绘图转:http://blog.csdn.net/daniel_ustc/article/details/9714163Matplotlib的安装matplotlib 是python最著名...
阅读全文
摘要:操作系统:win7 64位,但选择安装32位的python。1,python下载安装https://www.python.org/downloads/下载2.7版,一路下一步安装。并在path环境变量中加入python路径2.安装Numpy下载地址http://sourceforge.net/pro...
阅读全文
摘要:1、下载hive包wget http://labs.mop.com/apache-mirror/hive/stable/hive-0.8.1.tar.gz,并用tar -xzvf 将其解压到要安装的目录,我是放在/home/ckl/hadoop-0.20.2/hive2、vim ~/.bashrce...
阅读全文
摘要:PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经...
阅读全文
摘要:c()功能函数,产数据用向量:一维数组,要求存放的数据类型一致矩阵:二维数组,要求存放的数据类型一致,用通过matrix函数创建数组:维度超过二维时建议用数组,用可araay函数创建数据框:相当于关系数据库的一张表,有多种模式的数据时建议用数据框。data.frame ...
阅读全文
摘要:1、内连接(自然连接): 只有两个表相匹配的行才能在结果集中出现 2、外连接: 包括 (1)左外连接(左边的表不加限制) (2)右外连接(右边的表不加限制) (3)全外连接(左右两表都不加限制) 3. 例子 a.txt1 2 3 4 2 18 3 44 3 37 2 58 4 3b....
阅读全文
摘要:Flatten OperatorThe FLATTEN operator looks like a UDF syntactically, but it is actually an operator that changes the structure of tuples and bags in a...
阅读全文
摘要:Example: Nested BlockSuppose we have relations A and B. Note that relation B contains an inner bag.A = LOAD 'data' AS (url:chararray,outlink:chararray...
阅读全文

浙公网安备 33010602011771号