摘要: 概率论是许多机器学习算法的基础,因而本篇将会用到一些概率论知识,我们先统计在数据集中取某个特定值的次数,然后除以数据集的实例总数,就得到了取该值的概率。 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对输入数据的准备方式比较敏感 适用于标称型数据 如果P1(X,Y)>P2(X,Y),那 阅读全文
posted @ 2018-05-02 17:14 findtruth123 阅读(595) 评论(0) 推荐(0)
摘要: 上一篇我们介绍的K邻近算法可以解决很多分类的问题,但它的最大的缺点是无法给出数据内在的含义,决策树的主要优势在数据形式非常易于理解。 决策树的构造 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关数据特征。 缺点:可能会产生过度匹配的问题。 适用数据类型:数值型和标称型 阅读全文
posted @ 2018-05-02 16:00 findtruth123 阅读(160) 评论(0) 推荐(0)
摘要: 算法描述 K邻近算法采用测量不同特征值之间的距离方法进行分类 工作原理 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较 然后算法提取样本集中最相似的数据 阅读全文
posted @ 2018-05-02 15:38 findtruth123 阅读(315) 评论(0) 推荐(0)