随笔分类 -  R

摘要:基础概念 主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 原理: 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数 阅读全文
posted @ 2017-01-15 16:54 molearner 阅读(11302) 评论(0) 推荐(0) 编辑
摘要:决策树基础概念 在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy (熵) 表示的是系统的凌乱程度,它是决策树的决策依据,熵的概念来源于香侬的信息论。 决策树的决策过程 选择分裂特征:根据某一指标(信息增益,信息增益比或基尼系数)计算不同特征的指标值,选 阅读全文
posted @ 2017-01-15 14:49 molearner 阅读(7915) 评论(0) 推荐(0) 编辑
摘要:在用R语言做关联规则分析之前,我们先了解下关联规则的相关定义和解释。 关联规则的用途是从数据背后发现事物之间可能存在的关联或者联系,是无监督的机器学习方法,用于知识发现,而非预测。 关联规则挖掘过程主要包含两个阶段:第一阶段从资料集合中找出所有的高频项目组,第二阶段再由这些高频项目组中产生关联规则。 阅读全文
posted @ 2016-12-04 15:47 molearner 阅读(6148) 评论(1) 推荐(2) 编辑
摘要:使用R做回归分析整体上是比较常规的一类数据分析内容,下面我们具体的了解用R语言做回归分析的过程。 首先,我们先构造一个分析的数据集 x|t|) (Intercept) 168.4453 15.2812 11.023 1.96e 09 x$var1 0.4947 0.4747 1.042 0.311 阅读全文
posted @ 2016-11-25 12:01 molearner 阅读(30546) 评论(0) 推荐(0) 编辑
摘要:在对短期数据的预测分析中,我们经常用到时间序列中的指数平滑做数据预测,然后根据不同。 下面我们来看下具体的过程 x 阅读全文
posted @ 2016-11-24 14:04 molearner 阅读(21971) 评论(6) 推荐(0) 编辑
摘要:在R的使用中,为了方便提取数据, 我们经常要进行数据库进行操作,接下来我们尝试使用R进行连接数据。 这里我们使用R中的RODBC进行操作, 首先,我们需要先配置ODBC资源管理器 通过任务管理器或者win+R运行odbcad32.exe,进入odbc数据源管理器 点击添加,选择native clie 阅读全文
posted @ 2016-10-12 17:25 molearner 阅读(3227) 评论(0) 推荐(0) 编辑
摘要:继续来了解dplyr中的其他有用函数 1、sample() 目的是可以从一个数据框中,随机抽取一些行,然后组成新的数据框。 sample_n(tbl, size, replace = FALSE, weight = NULL, .env = parent.frame()) sample_frac(t 阅读全文
posted @ 2016-08-17 20:38 molearner 阅读(1645) 评论(0) 推荐(0) 编辑
摘要:接下来我们继续了解一些dplyr中的常用函数。 1、ranking 以下各个函数可以实现对数据进行不同的排序 row_number(x) ntile(x, n) min_rank(x) dense_rank(x) percent_rank(x) cume_dist(x) 具体的看些例子。 row_n 阅读全文
posted @ 2016-08-13 20:55 molearner 阅读(2574) 评论(0) 推荐(0) 编辑
摘要:接下了我们继续了解dplyr中有用的函数 1、if_else() if_else主要用于在数据做判断用 以上结果是对数据框中第3和第4列数据进行判断后显示的。 2、lead()和lag() lead(x, n = 1L, default = NA, order_by = NULL, ...) lag 阅读全文
posted @ 2016-08-11 16:03 molearner 阅读(3137) 评论(0) 推荐(0) 编辑
摘要:继上一节常用函数,继续了解其他函数 1、desc() 这个函数和SQL中的排序用法是一样的,表示对数据进行倒序排序。 接下来我们看些例子。 在使用desc后是直接在数据前面加上一个负号,一般情况下配合arrange()函数一起使用,功能强大。 2、distinct() 跟SQL中distinct函数 阅读全文
posted @ 2016-08-10 15:54 molearner 阅读(1147) 评论(0) 推荐(0) 编辑
摘要:上面介绍完dplyr中,几个主要的操作函数后,我们再进一步了解dplyr中那些函数可能我们会经常要用到。 这里主要根据dplyr包作者的书籍目录来把它列出来。 1、add_rownames 添加行名称,把数据转换成列。 add_rownames(df, var = "rowname") 下面来看个具 阅读全文
posted @ 2016-08-08 22:59 molearner 阅读(3116) 评论(1) 推荐(0) 编辑
摘要:在R中,summary()是一个基础包中的重要统计描述函数,同样的在dplyr中summarise()函数也可以对数据进行统计描述。 不同的是summarise()更加的灵活多变,下面来看下summarise这个函数 summarise(.data, ...) 其灵活性和其他dplyr函数一样,主要 阅读全文
posted @ 2016-08-06 15:03 molearner 阅读(32408) 评论(0) 推荐(0) 编辑
摘要:在R中,我们通常需要对数据列进行各种各样的操作,比如选取某一列、重命名某一列等。 dplyr中的select函数子在数据列的操作上也同样表现了它的简洁性,而且各种操作眼花缭乱。 select(.data, ...) 参数主要在于如何添加条件。配合select()进行使用的函数有: starts_wi 阅读全文
posted @ 2016-08-05 15:38 molearner 阅读(38728) 评论(0) 推荐(0) 编辑
摘要:在R中,我们在整理数据时,经常需要对数据排序,以便数据增强数据的可读性。 下面我们来看下dplyr中的,arrange函数 arrange(.data, ...) 跟filter()类似,arrange()的参数也很简单,出来data外,余下的是排序条件。 下面来看些具体的例子 按照字母的顺序进行排 阅读全文
posted @ 2016-08-05 11:23 molearner 阅读(17272) 评论(0) 推荐(0) 编辑
摘要:在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2、reshape2以及即将要讲的dplyr 因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离,操作过程简洁,最重要的是数据结果也异常简洁。 首先我们来了解下第一个函数filter() filte 阅读全文
posted @ 2016-08-04 22:46 molearner 阅读(21661) 评论(0) 推荐(1) 编辑
摘要:前面一篇讲了cast,想必已经见识到了reshape2的强大,当然在使用cast时配合上melt这种强大的揉数据能力才能表现的淋漓尽致。 下面我们来看下,melt这个函数以及它的特点。 melt(data, ..., na.rm = FALSE, value.name = "value") 从这里来 阅读全文
posted @ 2016-08-03 22:52 molearner 阅读(11002) 评论(0) 推荐(0) 编辑
摘要:我们在做数据分析的时候,对数据进行操作也是一项极其重要的内容,这里我们同样介绍强大包reshape2,其中的几个函数,对数据进行操作cast和melt两个函数绝对少不了。 首先是cast,把长型数据转换成你想要的任何宽型数据, dcast(data, formula, fun.aggregate = 阅读全文
posted @ 2016-08-02 22:33 molearner 阅读(7733) 评论(0) 推荐(0) 编辑
摘要:在ggplot中,未来更好的数据可视化效果,我们有时候可能要用到一些坐标转换的操作,比如要画横向条形图或者蜘蛛图等。 coord_cartesian(xlim = NULL, ylim = NULL) 笛卡尔坐标:从来看coord_cartesian的参数相对比较简单,x和y的数据限定范围 coor 阅读全文
posted @ 2016-07-31 10:31 molearner 阅读(15302) 评论(0) 推荐(0) 编辑
摘要:分面设置在ggplot2应该也是要经常用到的一项画图内容,在数据对比以及分类显示上有着极为重要的作用, 下面是两个经常要用到的分面函数。 facet_wrap(facets, nrow = NULL, ncol = NULL, scales = "fixed", shrink = TRUE, as. 阅读全文
posted @ 2016-07-28 19:58 molearner 阅读(45555) 评论(0) 推荐(1) 编辑
摘要:在主题设置中,rect设置主要用于设置图例和面板 element_rect(fill = NULL, colour = NULL, size = NULL, linetype = NULL, color = NULL) 参数也相对简单,基本上是常用的参数,从设置来看,灵活性还是很高的。 下面看些例子 阅读全文
posted @ 2016-07-26 22:42 molearner 阅读(13962) 评论(0) 推荐(0) 编辑