随笔分类 - 1020-数据科学
摘要:具体讨论可见于此知乎问题,有很多种理解方向,甚至这一个命题可能本来就不成立!
阅读全文
摘要:0 - 算法 给定如下数据集 $$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},$$ 假设$X$有$J$维特征,且各维特征是独立分布的,$Y$有$K$种取值。则对于输入$x$,朴素贝叶斯算法的输出为 $$y=arg\max_{c_k}P(Y=c_k)\prod
阅读全文
摘要:0 - 算法描述 感知机算法是一类二分类算法,其问题描述为,给定一个训练数据集 $$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},$$ 其中$x_i\in \mathbb{R}^n,y_i\in\{-1,1\},i=1,2,\cdots,N$,求参数$w,b$
阅读全文
摘要:0 - 思想 Bagging算法思想是减少预测方差(variance),Boosting算法思想是为了减少预测偏差(bias)。 Boosting算法思想是将“弱学习算法”提升为“强学习算法”。一般来说,弱学习算法容易找到,而后通过反复学习得到一系列弱分类器,再通过加权将他们组合起来得到一个强分类器
阅读全文
摘要:0 - 思路 Stacking是许多集成方法的综合。其主要思路如下图所示,通过训练数据训练多个base learners(the first-level learners),这些learners的输出作为下一阶段meta-learners(the second-level learners)的输入,
阅读全文
摘要:0 - 思想 如下图所示,Bagging(Bootstrap Aggregating)的基本思想是,从训练数据集中有返回的抽象m次形成m个子数据集(bootstrapping),对于每一个子数据集训练一个基础分类器,最后将它们的结果综合起来获得最终输出。 1 - 特点 Bagging需要不同的/独立
阅读全文
摘要:线性回归(Linear Regression) 求解方法 最小二乘法 极大似然估计法(MLE) 梯度下降法 推广 多项式线性回归 广义线性回归 正则化 L1正则化(Lasso) L2正则化(Ridge,岭回归) 代码 分类(Classification) 最近邻(Nearest Neighbor)
阅读全文
摘要:(注:本篇博文是对《统计学习方法》中决策树一章的归纳总结,下列的一些文字和图例均引自此书~) 决策树(decision tree)属于分类/回归方法。其具有可读性、可解释性、分类速度快等优点。决策树学习包含3个步骤:特征选择、决策树生成、决策树修剪(剪枝)。 0 - 决策树问题 0.0 - 问题描述
阅读全文
摘要:K近邻(KNN)的核心算法是kd树,转载如下几个链接: 【量化课堂】一只兔子帮你理解 kNN 【量化课堂】kd 树算法之思路篇 【量化课堂】kd 树算法之详细篇
阅读全文
摘要:0 - 基本问题 线性回归考虑的是有$n$个样本$\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\}$,每一个样本对应$m+1$维特征$\mathbf{x}_i=\{x_{i0},x_{i1},x_{i2},\cdots,x_{im}\}$(其中$x_
阅读全文
摘要:0 - 背景 0.0 - 为什么需要字典学习? 这里引用这个博客的一段话,我觉得可以很好的解释这个问题。 0.1 - 为什么需要稀疏表示? 同样引用这个博客的一段话,我觉得可以很好的解释这个问题。 左图是新飞行员(不熟练的飞行员)的大脑。图中黄色的部分,是被认为活跃的脑区。右图是老飞行员(熟练的飞行
阅读全文
摘要:0 - 特征值分解(EVD) 奇异值分解之前需要用到特征值分解,回顾一下特征值分解。 假设$A_{m \times m}$是一个是对称矩阵($A=A^T$),则可以被分解为如下形式, $$A_{m\times m}=Q_{m\times m}\Sigma_{m\times m} Q_{m\times
阅读全文

浙公网安备 33010602011771号