上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。 1、Bagging ( 阅读全文
posted @ 2017-09-13 15:50 追梦的独行者 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 1.算法介绍 分类回归树算法:CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。 分类树两个基本思想:第一个是将训练 阅读全文
posted @ 2017-09-13 09:12 追梦的独行者 阅读(5648) 评论(0) 推荐(0) 编辑
摘要: 概念 概念 对象-关系映射(OBJECT/RELATIONALMAPPING,简称ORM),是随着面向对象的软件开发方法发展而产生的。用来把对象模型表示的对象映射到基于S Q L 的关系模型数据库结构中去。这样,我们在具体的操作实体对象的时候,就不需要再去和复杂的 SQL语句打交道,只需简单的操作实 阅读全文
posted @ 2017-09-12 20:05 追梦的独行者 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 一、EM算法的预备知识 1、极大似然估计 (1)举例说明:经典问题——学生身高问题 我们需要调查我们学校的男生和女生的身高分布。 假设你在校园里随便找了100个男生和100个女生。他们共200个人。将他们按照性别划分为两组,然后先统计抽样得到的100个男生的身高。假设他们的身高是服从高斯分布的。但是 阅读全文
posted @ 2017-09-12 13:40 追梦的独行者 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 为什么要有m-估计? 当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例, 阅读全文
posted @ 2017-09-12 11:04 追梦的独行者 阅读(1618) 评论(0) 推荐(0) 编辑
摘要: 1、贝叶斯定理 P(A∣B)=P(A)P(B∣A)P(B) P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。 P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。 P(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面 阅读全文
posted @ 2017-09-12 10:16 追梦的独行者 阅读(4586) 评论(0) 推荐(0) 编辑
摘要: 言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列 阅读全文
posted @ 2017-09-11 20:24 追梦的独行者 阅读(932) 评论(1) 推荐(0) 编辑
摘要: 聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。 1、层次聚类 阅读全文
posted @ 2017-09-11 20:22 追梦的独行者 阅读(756) 评论(0) 推荐(0) 编辑
摘要: 在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 基本K均值:选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数。每次循环中,每个点被指派到最近的质心,指派到同一个质心的点集构成一个簇。然后 阅读全文
posted @ 2017-09-11 19:54 追梦的独行者 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 凝聚层次聚类: 所谓凝聚的,指的是该算法初始时,将每个点作为一个簇,每一步合并两个最接近的簇。另外即使到最后,对于噪音点或是离群点也往往还是各占一簇的,除非过度合并。对于这里的“最接近”,有下面三种定义。我在实现是使用了MIN,该方法在合并时,只要依次取当前最近的点对,如果这个点对当前不在一个簇中, 阅读全文
posted @ 2017-09-11 19:50 追梦的独行者 阅读(1162) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页