随笔分类 - 数据挖掘 & 机器学习
摘要:逻辑回归模型(Logistic Regression)是一种分类模型,属于广义的线性回归模型,它也是一种判别模型,由条件概率$P(Y|X)$表示。二项逻辑回归中,随机变量$X$取实数,$Y$的取值为1或者0。逻辑回归模型简单高校,在实际应用中非常广泛,如预测一个用户是否点击广告,判断用户性别等。 s
阅读全文
摘要:一、统计学习三要素 统计学习方法由模型、策略、和算法构成的。下面主要以监督学习为例子。 1.1 模型 统计学习首要考虑的是学习什么样的模型。在监督学习中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含了所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型假
阅读全文
摘要:一、向量的性质 1. 设$n$维向量$x=[x_1,x_2,...,x_n]^T$与$n$维向量$y=[y_1,y_2,...,y_n]^T$,则定义 $$ [x,y]=x_1y_1+x_2y_2+...+x_ny_n $$ 称作 向量内积 ,即$[x,y]=x^Ty$(这种表示用的比
阅读全文
摘要:一、了解支持向量机 支持向量机(support vector machings, SVM) 是一种二分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 支持向量机学习方法的构建由简单到复杂:线性可分
阅读全文
摘要:一、决策树 决策树的方法在分类、预测、规则提取等领域有着广泛的应用。决策树是一种树形结构,它的每一个叶节点对应一个分类,非叶节点对应某个属性上的划分,根据样本在属性上的取值将其划分为若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点样本所属的类。 例如上图是一颗决策树,首先它根
阅读全文
摘要:一、一些数学基础 首先我们总结一下有关朴素贝也斯中遇到的概率知识。 1. 条件概率 定义 若$(\Omega,F,P)$ 是一个概率空间,$B \in F$,且$P(B) 0$,对任意的$A \in F$,称 $$ P(A|B)=\frac{P(AB)}{P(B)} $$
阅读全文
摘要:一、主成分分析(PCA)介绍 什么是主成分分析? 主成分分析是一种用于连续属性降维的方法,把多指标转化为少数几个综合指标。 它构造了原始属性的一个正交变换,将一组可能相关的变量转化为一组不相关的变量,只需要少量变量就可以解释原始数据大部分信息。 主成分分析其实就是一个线性
阅读全文