2018年7月5日

R语言中聚类确定最佳K值之Calinsky criterion

摘要: Calinski-Harabasz准则有时称为方差比准则 (VRC),它可以用来确定聚类的最佳K值。Calinski Harabasz 指数定义为: 其中,K是聚类数,N是样本数,SSB是组与组之间的平方和误差,SSw是组内平方和误差。因此,如果SSw越小、SSB越大,那么聚类效果就会越好,即Cal 阅读全文

posted @ 2018-07-05 20:22 小明在线 阅读(3112) 评论(0) 推荐(0)

R语言中的聚类的使用

摘要: 这里的聚类主要用到K-Means和K-Medoide聚类。在进行聚类之前,为了避免不同参数之间量纲不同所造成的影响,先将数据进行(0-1)标准化 K-Means算法 1.读取数据 2.调用kmeans算法 3.查看分类情况和总体汇总 4.将结果保存 K-Medoide算法 这里用到K-Medoide 阅读全文

posted @ 2018-07-05 16:41 小明在线 阅读(639) 评论(0) 推荐(0)

R语言中的Apriori关联规则的使用

摘要: 1.下载Matrix和arules包 2.载入引入Matrix和arules包 3.读取数据 4.数据转换 5.调用apriori算法 6.将结果保存 封装AprioriHelper.R类 阅读全文

posted @ 2018-07-05 15:38 小明在线 阅读(725) 评论(0) 推荐(0)

R语言中的MySQL操作

摘要: R语言中,针对MySQL数据库的操作执行其实也有很多中方式。本人觉得,熟练掌握一种便可,下面主要就个人的学习使用情况,总结其中一种情况 使用RMySQL操作数据库。 1.下载DBI和RMySQL包 2.载入DBI和RMySQL包 3.创建连接和设置字符集获取编码格式 4.查询操作 5.增删改操作 6 阅读全文

posted @ 2018-07-05 15:20 小明在线 阅读(487) 评论(0) 推荐(0)

导航