随笔分类 -  R

R语言学习分享
摘要:dplyr and data.table are amazing packages that make data manipulation in R fun. Both packages have their strengths. While dplyr is more elegant and re 阅读全文
posted @ 2016-05-19 11:38 payton数据之旅 阅读(272) 评论(0) 推荐(0)
摘要:We use network visualizations to look into the voting patterns in the current German parliament. I downloaded the data here and all figures can be rep 阅读全文
posted @ 2016-05-19 11:33 payton数据之旅 阅读(250) 评论(0) 推荐(0)
摘要:In this note, we discuss principal components regression and some of the issues with it: The need for scaling. The need for pruning. The lack of “y-aw 阅读全文
posted @ 2016-05-18 10:31 payton数据之旅 阅读(417) 评论(0) 推荐(0)
摘要:FCM 0.001 && (iter 1) { minJ = 0 i = 2 while (i lim && step 0) n.misclass = length(i.misclass) f.misclass = n.misclass/length(dat$class) } # 同一数据,使用 kmeans 聚类 kmea... 阅读全文
posted @ 2016-05-13 23:21 payton数据之旅 阅读(2771) 评论(0) 推荐(0)
摘要:INTRODUCTION GPUs (Graphic Processing Units) have become much more popular in recent years for computationally intensive calculations. Despite these g 阅读全文
posted @ 2016-05-06 11:48 payton数据之旅 阅读(949) 评论(0) 推荐(0)
摘要:本文旨在介绍R语言中ggplot2包的一些精细化操作,主要适用于对R画图有一定了解,需要更精细化作图的人,尤其是那些刚从excel转ggplot2的各位,有比较频繁的作图需求的人。不讨论那些样式非常酷炫的图表,以实用的商业化图表为主。包括以下结构: 1、画图前的准备:自定义ggplot2格式刷 2、 阅读全文
posted @ 2016-04-20 19:02 payton数据之旅 阅读(905) 评论(0) 推荐(0)
摘要:#####开一个新的系列。关于R的一些笔记,就是遇到过的一些问题的简单整理。可能很基本,也可能没什么大的用处,作为一个记录而已。 R笔记(1):formula和Formula1.基本的R公式对象formula在R当中,公式fomula是一个把响应变量(在~左侧)和解释变量(在~右侧)联系起来的对象。 阅读全文
posted @ 2016-04-20 13:50 payton数据之旅 阅读(1449) 评论(0) 推荐(0)
摘要:近年来,深度学习可谓是机器学习方向的明星概念,不同的模型分别在图像处理与自然语言处理等任务中取得了前所未有的好成绩。在实际的应用中,大家除了关心模型的准确度,还常常希望能比较快速地完成模型的训练。一个常用的加速手段便是将模型放在GPU上进行训练。然而由于种种原因,R语言似乎缺少一个能够在GPU上训练 阅读全文
posted @ 2016-04-18 12:38 payton数据之旅 阅读(2811) 评论(0) 推荐(0)
摘要:COS论坛里面经常会遇到的一个问题就是绘图时中文字体怎么解决。最初,一个流行的方法是使用family = "GB1",但一般这样做出来的图比较难看,而且并没有完全解决问题。后来发现了Cairo包,喜大普奔,但后来又发现它选字体的时候不太明确,也就是说我不知道怎样才能选中我想要的那个字体。再然后,Wi 阅读全文
posted @ 2016-04-14 16:53 payton数据之旅 阅读(1638) 评论(0) 推荐(0)
摘要:前言 R语言不仅在统计分析,数据挖掘领域,计算能力强大。在数据可视化上,也不逊于昂贵的商业。当然,背后离不开各种开源软件包的支持,Cairo就是这样一个用于矢量图形处理的类库。 Cairo可以创建高质量的矢量图形(PDF, PostScript, SVG) 和 位图(PNG, JPEG, TIFF) 阅读全文
posted @ 2016-04-14 16:40 payton数据之旅 阅读(7232) 评论(0) 推荐(0)
摘要:前言 经常用R处理数据的分析师都会对dplyr包情有独钟,它强大的数据整理功能让原始数据从杂乱无章到有序清晰,便于后期进一步的深入分析,特别是配合上数据库的使用,更是让分析师如虎添翼,轻松搞定Excel难以驾驭的数据容量,下面我们通过一个实用案例来具体看看如何将R和数据库完美融合在一起。在以后的博客 阅读全文
posted @ 2016-04-07 16:08 payton数据之旅 阅读(1189) 评论(0) 推荐(0)
摘要:data.table包主要特色是:设置keys、快速分组和滚得时序的快速合并。data.table主要通过二元检索法大大提高数据操作的效率,同时它也兼容适用于data.frame的向量检索法。 1.创建data.table格式数据 类似于data.frame数据的创建,使用data.table函数 阅读全文
posted @ 2016-04-07 15:20 payton数据之旅 阅读(572) 评论(0) 推荐(0)
摘要:Prepare the data 数据来自UCIhttp://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening,一个信a用卡的数据,具体各项变量名以及变量名代表的含义不明(应该是出于保护隐私的目的),本文会用logi 阅读全文
posted @ 2016-03-31 11:38 payton数据之旅 阅读(9501) 评论(0) 推荐(0)
摘要:通常来说,我们可以从两个方面来提高一个预测模型的准确性:完善特征工程(feature engineering)或是直接使用Boosting算法。通过大量数据科学竞赛的试炼,我们可以发现人们更钟爱于Boosting算法,这是因为和其他方法相比,它在产生类似的结果时往往更加节约时间。 Boosting算 阅读全文
posted @ 2016-03-30 00:56 payton数据之旅 阅读(1427) 评论(0) 推荐(0)
摘要:dummyVars函数:dummyVars creates a full set of dummy variables (i.e. less than full rank parameterization----建立一套完整的虚拟变量先举一个简单的例子: survey<-data.frame(ser 阅读全文
posted @ 2016-03-09 23:51 payton数据之旅 阅读(3748) 评论(0) 推荐(0)
摘要:在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原 阅读全文
posted @ 2016-03-09 23:27 payton数据之旅 阅读(2027) 评论(0) 推荐(0)
摘要:kf=read.csv('d:/kf.csv') # 读取康复数据kfsl=as.matrix(kf[,1:3]) #生成生理指标矩阵xl=as.matrix(kf[,4:6]) #生成训练指标矩阵x=slxy=xlyx0=scale(x)x0y0=scale(y)y0m=t(x0)%*%y0%*% 阅读全文
posted @ 2016-03-08 10:28 payton数据之旅 阅读(2052) 评论(0) 推荐(0)
摘要:在大数据如火如荼的时候,机器学习无疑成为了炙手可热的工具,机器学习是计算机科学和统计学的交叉学科, 旨在通过收集和分析数据的基础上,建立一系列的算法,模型对实际问题进行预测或分类。 R语言无疑为我们提供了很好的工具,它正是计算机科学和统计科学结合的产物,开源免费, 相对于Python、Orange 阅读全文
posted @ 2016-03-08 10:13 payton数据之旅 阅读(17159) 评论(1) 推荐(0)
摘要:数据的清理如同列夫托尔斯泰所说的那样:“幸福的家庭都是相似的,不幸的家庭各有各的不幸”,糟糕的恶心的数据各有各的糟糕之处,好的数据集都是相似的。一份好的,干净而整洁的数据至少包括以下几个要素:1、每一个观测变量构成一列2、每一个观测对象构成一行3、每一个类型的观测单元构成一个表就像我们最常接触的鸢尾... 阅读全文
posted @ 2015-10-20 14:32 payton数据之旅 阅读(15150) 评论(1) 推荐(0)
摘要:RColorBrewer是一个R包,使用http://colorbrewer2.org/这个网站提供的颜色。我们画一个包括八个box的boxplot时,或者在x-y散点图上画六条线时,该怎样选择颜色呢?这个包就可以帮你。=======哪些颜色系可以使用?=======让我们先看看RColorBrew... 阅读全文
posted @ 2015-09-14 11:59 payton数据之旅 阅读(5881) 评论(0) 推荐(0)