Terry's blog

Focus on bigdata and cloud.

博客园 首页 新随笔 联系 订阅 管理
  383 Posts :: 1 Stories :: 256 Comments :: 51 Trackbacks

2018年10月23日 #

摘要:决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值函数的方法,主要的算法有:ID3算法、C4.5算法及CART。 在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点 阅读全文
posted @ 2018-10-23 18:15 王晓成 阅读(412) 评论(0) 推荐(0) 编辑

摘要:K均值(K-means)算法 K-means 算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为形心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各簇的形心的值,直至得到最好的聚类结果。(形心可以是实际的点、或者是虚拟点) 假 阅读全文
posted @ 2018-10-23 16:17 王晓成 阅读(359) 评论(0) 推荐(0) 编辑

摘要:基本概念 关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequent item sets)是经常出现在一块的物品的集合,关联规则(association rules)暗示两种物品之间可能存在很强的关系。 下图是一个乒乓球店的交 阅读全文
posted @ 2018-10-23 14:10 王晓成 阅读(1118) 评论(0) 推荐(0) 编辑