随笔分类 -  ML

摘要:随机森林(可用于分类和回归) 随机森林主要应用于回归和分类。 随机森林在运算量没有显著提高的前提下提高了预测精度。 1、简介 随机森林由多棵决策树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。 处理分类问题时,对于测试样本,森林中每棵决策树会给出最终类别,最 阅读全文
posted @ 2017-08-18 22:54 ahu-lichang 阅读(30358) 评论(0) 推荐(0)
摘要:SVM算法比较复杂,数学功底要求很高。 详见七月大神博客《 支持向量机通俗导论(理解SVM的三层境界)》 阅读全文
posted @ 2017-07-15 09:50 ahu-lichang 阅读(632) 评论(0) 推荐(0)
摘要:协同过滤推荐算法分为基于用户的协同过滤推荐UserCF和基于物品的协同过滤推荐ItemCF。介绍见《协同过滤的实现步骤》 1、指导思想 这种过滤算法的有效性基础在于: 1、用户偏好具有相似性,即用户可分类。这种分类的特征越明显,推荐准确率越高 2、物品之间具有相似性,即偏好某物品的人,都很可能也同时 阅读全文
posted @ 2017-07-14 21:32 ahu-lichang 阅读(842) 评论(0) 推荐(0)
摘要:Lineage逻辑回归分类算法 线性回归和逻辑回归参考文章: http://blog.csdn.net/viewcode/article/details/8794401 http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html 阅读全文
posted @ 2017-07-14 20:29 ahu-lichang 阅读(9140) 评论(0) 推荐(0)
摘要:决策树分类算法 1、概述 决策树(decision tree)——是一种被广泛使用的分类算法。 相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置 在实际应用中,对于探测式的知识发现,决策树更加适用。 2、算法思想 通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这 阅读全文
posted @ 2017-07-14 11:04 ahu-lichang 阅读(26400) 评论(0) 推荐(0)
摘要:K-means聚类算法(事先数据并没有类别之分!所有的数据都是一样的) 1、概述 K-means算法是集简单和经典于一身的基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 2、 阅读全文
posted @ 2017-07-13 17:22 ahu-lichang 阅读(157209) 评论(207) 推荐(26)
摘要:朴素贝叶斯分类算法 1、朴素贝叶斯分类算法原理 1.1、概述 贝叶斯分类算法是一大类分类算法的总称 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据 朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种 注:朴素的意思是条件概率独立性 P(A|x1x2x3x4)=p(A|x1)*p(A|x2)p(A 阅读全文
posted @ 2017-07-12 21:48 ahu-lichang 阅读(33724) 评论(5) 推荐(3)
摘要:KNN补充: 1、K值设定为多大? k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。 (对距离加权,可以降低k值设定的影响) k值通常是采用交叉检验来确定(以k=1为基准) 经验规则:k一般低于训练样本数的平方根 2、类别如何判定最合适? 加权投票法更恰当一些。而具体如何 阅读全文
posted @ 2017-07-11 20:51 ahu-lichang 阅读(562) 评论(0) 推荐(0)
摘要:需求: 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别; 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多。 ♦ 数据集包括数字0-9的手写体。 ♦每个数字大约有200个样本。 ♦每个样本保持在一个txt文件中。 ♦手写体图像本身的大小是32x32的二值图,转换到t 阅读全文
posted @ 2017-07-11 20:44 ahu-lichang 阅读(11724) 评论(0) 推荐(0)
摘要:KNN分类算法(先验数据中就有类别之分,未知的数据会被归类为之前类别中的某一类!) 1、KNN介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 机器学习,算法本身不是最难的,最难的是: 1、数学建模:把业务中的特性抽象成向量的过程; 2、选取适合模型的数 阅读全文
posted @ 2017-07-11 15:58 ahu-lichang 阅读(47160) 评论(4) 推荐(2)
摘要:数据挖掘 1、定义: 数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。 2、数据挖掘与机器学习的关系: 机器学习可以用来作为数据挖掘的一种工具或手段; 数据挖掘的手段不限于机器学习,譬如还有诸如统计学等众多方法 阅读全文
posted @ 2017-07-10 20:40 ahu-lichang 阅读(888) 评论(0) 推荐(0)