机器学习 - 随笔分类 - 奋斗的珞珞

C4.5算法

摘要：一，C4.5算法是基于ID3算法的改进（优点）对连续的数据也能处理可以在决策树构造过程中进行剪枝，因为某些具有很少元素的结点可能会使构造的决策树过拟合（Overfitting），如果不考虑这些结点可能会更好能够对不完整数据进行处理。用信息增益率来进行属性选择的度量二，算法流程三，属性选择度量（和ID3对比）属性选择度量又称分裂规则，因为它们决定给定节点上的元组如何分裂。属... 阅读全文

posted @ 2015-11-19 17:02 奋斗的珞珞阅读(3452) 评论(0) 推荐(0)

浅谈机器学习方法

摘要：一，公开数据集 UCI数据集是一个常用的标准测试数据集，下载地址UCI数据集在看别人的论文时，一般会给出使用的数据集的出处或下载地址（除非是很机密的数据，例如与国家安全有关）。如果你看的论文没有给出数据集的出处，建议停止看这篇论文，并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些论文的质量一定不怎么好。二，源代码网上有很多公开源码的算法包，例如最为著名的Weka，MLC+... 阅读全文

posted @ 2015-11-19 15:45 奋斗的珞珞阅读(249) 评论(0) 推荐(0)

ID3算法（决策树）

摘要：一，预备知识：信息量：单个类别的信息熵：条件信息量：单个类别的条件熵：信息增益：信息熵：条件熵：（表示分类的类，表示属性V的取值，m为属性V的取值个数，n为分类的个数）二.算法流程: 实质:递归的先根建树,结束条件(当前子集类别一致)，建树量化方法（信息增益）三.示例代码： package com.mechinelearn.id3; import java.io.Buff... 阅读全文

posted @ 2015-11-19 12:49 奋斗的珞珞阅读(759) 评论(0) 推荐(0)

机器学习（分类器）

摘要：构造分类器的主要步骤：一,数据的划分：训练数据和测试数据保持的方法：三分之二的数据做训练集，另外三分之一的数据做测试集。在测试集上的分类精度作为最终的分类精度 k折交叉验证方法：将数据集随机分成大致相当的k份，s1,s2,s3,s4…….sk,训练和测试重复进行k次。在第i次的测试中ki做为测试集，其它的作为训练集，最终分类器的分类精度取k次测试分类精度的平均值，这种方法适用于原始数... 阅读全文

posted @ 2015-11-13 12:58 奋斗的珞珞阅读(1098) 评论(0) 推荐(0)

奋斗的珞珞

奔跑吧，骚年~

随笔分类 - 机器学习

公告