随笔分类 - 算法
摘要:常用的分类算法一般假设不同类的比例是均衡的,现实生活中经常遇到不平衡的数据集,比如广告点击预测(点击转化率一般都很小)、商品推荐(推荐的商品被购买的比例很低)、信用卡欺诈检测等等。 对于不平衡数据集,一般的分类算法都倾向于将样本划分到多数类,体现在整体的准确率很高。 但对于极不均衡的分类问题,比如仅
阅读全文
摘要:一、SVM SVM的英文全称是Support Vector Machines,我们叫它支持向量机。支持向量机是我们用于分类的一种算法。 1 示例: 先用一个例子,来了解一下SVM 桌子上放了两种颜色的球,用一根棍分开它们,要求:尽量在放更多球之后,仍然适用。 我们可以这样放: 又在桌上放了更多的球,
阅读全文
摘要:一、示例 给定下列训练样本,用AdaBoost算法学习一个强分类器。 求解过程:初始化训练数据的权值分布,令每个权值W1i = 1/N = 0.1,其中,N = 10,i = 1,2, ..., 10,然后分别对于m = 1,2,3, ...等值进行迭代。 1 迭代过程1 对于m=1,在权值分布为D
阅读全文
摘要:一、Boosting算法 .Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方
阅读全文
摘要:一、条件概率 在学习计算p1和p2概率之前,我们需要了解什么是条件概率,就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。 根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。 这就是条件概率的计算公式。 二、贝叶斯推断 对条件概率公式进
阅读全文
摘要:一、决策树 决策树是什么?决策树(decision tree)是一种基本的分类与回归方法。举个通俗易懂的例子,如下图所示的流程图就是一个决策树,长方形代表判断模块(decision block),椭圆形成代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引
阅读全文
摘要:一、背景 海伦女士一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的任选,但她并不是喜欢每一个人。经过一番总结,她发现自己交往过的人可以进行如下分类 不喜欢的人 魅力一般的人 极具魅力的人 海伦收集约会数据已经有了一段时间,她把这些数据存放在文本文件datingTestSet.tx
阅读全文
摘要:一、机器学习是什么 机器学习的英文名称叫Machine Learning,简称ML,该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识和技能,并且重新组织已学习到的知识和和技能,使之在应用中能够不断完善自身的缺陷与不足。 简单来说,机器学习就是让计算机从大量的数据中学习到相关的规律
阅读全文

浙公网安备 33010602011771号