关联规则
摘要:关联规则的定义:关联规则是数据挖掘的一个重要课题,用于从大数据中挖掘有价值的数据项之间的相关关系,意图寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。(比如啤酒与尿布的关系) 有三种方法: 1.Apriori 2.FP-Growth 3.Eclat 实例:
阅读全文
回归分析——logic回归
摘要:回归分析的定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
阅读全文
聚类分析——层次聚类
摘要:聚类的定义:聚类分析将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类,在同一类内对象之间具有较高的相似度,不同类之间的对象差别较大。 层次聚类法:
阅读全文
创建一个用二分法求近似根的函数
摘要:root <- function(){ x = as.numeric(readline("please input the number")) if (x<0){ cat("The number you input is illegal","\n") root() } else{ epsilon =
阅读全文
R语言中描述统计量的多种方法summary、str等
摘要:http://blog.csdn.net/ssxysxy123/article/details/51878487
阅读全文
数据框中的基本操作
摘要:1.加列名 2.subset某一列 subset函数的应用:http://blog.163.com/jiaqiang_wang/blog/static/11889615320158300180642/ 3.数据框中加入新的一列(有三种方法) (1) (2) (3) 4.数据框中加入新的一行
阅读全文
列表的基本操作
摘要:1.创建列表 2.在一个列表中加入一个新的列表 3.选择某几项(有三种方法)
阅读全文
因子的基本操作
摘要:1.创建一个因子(先创建一个向量,然后用factor创建一个因子 2.改变因子的水平 3.改变因子中变量的名称 4.把因子变为有序变量
阅读全文
数据框的基本操作
摘要:1.创建数据框 2.选择某两列(有三种方法) 3.选择前几行 4.选择后几行
阅读全文
数组的基本操作
摘要:1.创建带名字的数组 2.选择某一维的元素 常见的统计指标包括:平均值(mean())、求和(sum())、连乘(prod())、最值(min()、max())、方差(var())、标准差(sd()) 自排序函数(sort())和数组反转函数(rev());
阅读全文
矩阵的基本操作
摘要:1.创建矩阵 2.创建有行名和列名的矩阵 2)、取对角线(diag())、转置(t()) 3)、求逆(solve)、解线性方程组(solve): 求特征值特征向量(eigen())
阅读全文
R语言向量化运算操作
摘要:http://blog.csdn.net/qq_34941023/article/details/51571191 apply函数族:http://www.cnblogs.com/aquastone/p/r-apply.html 向量化代替for循环赋值:http://bbs.pinggu.org/
阅读全文
决策树C4.5选择信息增益比而不考虑信息增益的原因
摘要:从熵(Entropy)开始说起,熵最初是一个物理学概念,后来在数学中用来描述“一个系统的混乱程度”,因此一个系统的信息熵越高就越无序,信息熵越低就越有序,信息熵越高,使其有序所要消耗的信息量就越大。我们的目的就是将系统变得有序并找出确定的信息假设变量 ,其中每个元素对应的概率(比例)为 ,则对应熵的
阅读全文
R语言绘图
摘要:1.plot()和lines()函数工作原理不同。plot()函数是在被调用时创建一副新图,而lines()函数则是在已存在是图形上添加信息,并不能自己生成图形。 2.图形参数:其中一种方法是通过函数par()来指定这些选项,以这种方式设定的参数除非被再次修改,否则将在会话结束前一直有效。其调用格式
阅读全文