随笔分类 -  机器学习

摘要:最大熵模型 熵的概念 熵度量了事物的不确定性,越不确定的事物,它的熵越大,表示如下: $$ H(X)= \sum_{i=1}^np_i\log p_i $$ n代表X的n种不同离散取值,而$p_i$代表了X取值为i的概率。 多个变量联合熵表示为 $$ H(X,Y)= \sum_{i=1}^np(x_ 阅读全文
posted @ 2020-05-13 15:55 hi_heisen 阅读(277) 评论(0) 推荐(0)
摘要:PCA原理 PCA思想 PCA是一种重要的降维方法之一,就是找出数据里最主要的方面,用主要方面代替原数据,并希望损失尽可能小。 PCA推导:基于最小投影距离 假设m个n维数据$(x^{(1)},x^{(2)},...,x^{(m)})$都已经进行了中心化,即$\sum\limits_{i=1}^mx 阅读全文
posted @ 2020-05-13 15:53 hi_heisen 阅读(175) 评论(0) 推荐(0)
摘要:逻辑回归、正则化、感知机 正则化 为避免过拟合,增强模型的泛化能力,可以使用正则化的方法。 1. Lasso回归 L1正则化 $$ J(\theta)=\frac{1}{2n}(\mathtt X\theta Y)^T(\mathtt X\theta Y)+\alpha\lVert \theta\r 阅读全文
posted @ 2020-05-13 15:51 hi_heisen 阅读(401) 评论(0) 推荐(0)
摘要:LDA原理 LDA思想 这里的LDA是指Linear Discriminant Analysis,简称LDA,全称线性判别分析。要与自然语言处理领域的LDA(Latent Dirichlet Allocation)隐含狄利克雷分布区分开来。 LDA是一种监督学习降维技术,它的数据集的每个样本是有类别 阅读全文
posted @ 2020-05-13 15:50 hi_heisen 阅读(582) 评论(0) 推荐(0)
摘要:梯度提升树GBDT GBDT是Boosting家庭中,除AdaBoost外另一个重要的算法。算法思想同样是让本轮迭代找到的决策树的损失比上轮更小。 GBDT负梯度拟合 用损失函数负梯度来拟合本轮损失近似值,进而拟合一个CART回归树。第t轮的第i个样本的损失函数的负梯度表示为: $$ r_{ti}= 阅读全文
posted @ 2020-05-13 15:49 hi_heisen 阅读(206) 评论(0) 推荐(0)
摘要:奇异值分解SVD原理 特征值和特征向量 特征值和特征向量表示: $$ Ax=\lambda x $$ 其中A是一个$n\times n$的实对称矩阵,x是一个n维向量,则我们说$\lambda$是一个特征值,而x是矩阵A的特征值$\lambda$对应的特征向量。有了特征值和特征向量,我们就可以将矩阵 阅读全文
posted @ 2020-05-13 15:47 hi_heisen 阅读(206) 评论(0) 推荐(0)
摘要:朴素贝叶斯 朴素贝叶斯原理 朴素贝叶斯:条件分布+条件独立+全概率 算法原理 条件分布 $$ P(Y|X)=\frac{P(X,Y)}{P(X)} $$ 贝叶斯可以概括为:先验概率+数据=后验概率。 如果X和Y相互独立,那么 $$ P(X,Y)=P(X)P(Y) $$ 条件概率表示为: $$ P(Y 阅读全文
posted @ 2020-05-13 15:46 hi_heisen 阅读(273) 评论(0) 推荐(0)
摘要:决策树 ID3算法 1. 信息论基础 信息论中,熵度量了事务的不确定性,越不确定的事务,它的熵就越大。表示形式如下: $$ H(X)= \sum_{i=1}^np_i\log_2 p_i $$ 多个变量联合熵表示如下: $$ H(X,Y)= \sum_{i=1}^np(x_i,y_i)\log p( 阅读全文
posted @ 2020-05-13 15:45 hi_heisen 阅读(183) 评论(0) 推荐(0)
摘要:交叉熵 $$ H(p,q)= \sum\limits_{x}p(x)\log q(x) $$ 它刻画的是通过概率分布q来表达概率分布p的困难程度。交叉熵作为神经网络的损失函数时,p代表正确答案,q代表预测值,它刻画两个概率分布的距离,即交叉熵越小,两个概率分布越近。 或写为 $$ \sum_ip_k 阅读全文
posted @ 2020-05-13 15:44 hi_heisen 阅读(237) 评论(0) 推荐(0)
摘要:集成学习 基本思想 集成学习主要思想是:通过构建并结合多个机器学习来完成任务,通过一定的策略将各学习器结合。主要有两类:一类是Boosting,另一类是Bagging Boosting:同质学习器,存在信赖关系,往往是串行的,根据误差调节样本权重,代表AdaBoost和Boost tree; Bag 阅读全文
posted @ 2020-05-13 15:42 hi_heisen 阅读(279) 评论(0) 推荐(0)
摘要:SVM算法 间隔的定义 在分隔超平面定义为$w^Tx+b=0$时,我们定义点到超平面的距离为$\gamma=\frac{y(x^Tx+b)}{\lVert w\rVert_2}$。 目标函数与优化 定义了点到超平面的距离后,我们的目标就是让所有的点到分隔超平面的距离之各最小,我们定义优化函数如下: 阅读全文
posted @ 2020-05-13 15:40 hi_heisen 阅读(297) 评论(0) 推荐(0)
摘要:MCMC是(Markov Chain Monte Carlo)缩写,中文马尔科夫链蒙特卡罗。 蒙特卡罗方法 Monte Carlo思想 最早的蒙特卡罗方法是为了求各或积分问题,比如 $$ \theta=\int_a^bf(x)dx $$ 使用蒙特卡罗方法求得积分的近似值。在$[a,b]$区间上随机采 阅读全文
posted @ 2020-05-13 15:39 hi_heisen 阅读(403) 评论(0) 推荐(0)
摘要:K近邻 KNN KNN算法 KNN是选择距离最近的几个样本,做分类或者回归。分类时,选择多数表决法,回归时,一般选择平均值法。 1. KNN三要素 1)K的选择:可通过交叉验证法寻找合适的K 2)距离度量: 对于两个n维向量x和y,两者的欧式距离、曼哈顿距离和闵可斯基距离定义如下: $$ D(x,y 阅读全文
posted @ 2020-05-13 15:37 hi_heisen 阅读(168) 评论(0) 推荐(0)
摘要:K Means聚类 K Means算法思想 给定样本集,按照样本之间的距离大小,将样本集分为K个簇,让簇内尽量紧密,让簇间尽量大。 假设簇划分为$C_1,C_2,...,C_k$,则我们的目标是最小化平方误差E $$ E=\sum_{i=1}^k\sum_{x\in C_i}\lVert x \mu 阅读全文
posted @ 2020-05-13 15:35 hi_heisen 阅读(213) 评论(0) 推荐(0)
摘要:DBSCAN密度聚类 基本原理 DBSCAN是具有噪声的基于密度聚类的方法,可应用于凸样本集,也可应用于非凸样本集。同一类别的样本是紧密相连的。 DBSCAN密度定义 假设样本集$D=(x_1,x_2,...,x_m)$,参数$(\epsilon,MinPts)$用来描述邻域的样本分布紧密程度,其中 阅读全文
posted @ 2020-05-13 15:23 hi_heisen 阅读(222) 评论(0) 推荐(0)
摘要:Bagging原理 Bagging是n个相互无信赖的弱学习器,通过一定的策略,得到一个强学习器。 随机采样 Bagging一个主要的特点是随机采样,bagging是有放回的采样。 对于一个有m个样本的数据集,每次采集一个样本,被采的概率是$\frac{1}{m}$,不被采的概率是$1 \frac{1 阅读全文
posted @ 2020-05-13 15:22 hi_heisen 阅读(258) 评论(0) 推荐(0)
摘要:1 基本概念 支持向量机核心在于寻找分隔超平面,写为$\mathtt{w}^T\mathtt{x}+b$,任意一点到超平面的距离为$\frac{|\mathtt{w}^T\mathtt{A}+b|}{||\mathtt{w}||}$。 以平台上的直线为例,直线$Ax+By+C=0$,点$(x_0,y 阅读全文
posted @ 2020-05-13 15:21 hi_heisen 阅读(191) 评论(0) 推荐(0)
摘要:参考简书中Logistic回归及Python代码实现。 Logistic函数的损失函数的偏导数为$\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)x_i^j$,所以$\theta$的更新可以写为:$\theta_j=\theta_j-\alpha\frac{1 阅读全文
posted @ 2019-08-01 22:18 hi_heisen 阅读(552) 评论(0) 推荐(0)
摘要:2016年10月 1. 梯度下降(Gradient Descent)小结 对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。沿着梯度向量的方向就是f(x,y)增加最快的地方,容易找到函数的最大值。反过来说,沿着梯度向量相反的方向,梯度减少最快,也就是更加容易找到函数的 阅读全文
posted @ 2019-08-01 17:55 hi_heisen 阅读(2110) 评论(0) 推荐(1)
摘要:1 拉格朗日乘子法基本概念 拉格朗日乘子法是在约束条件$g(x_1,x_2,...)=0$下,计算函数$f(x_1,x_2,...)$极值的方法。 以二元函数为例,约束条件为$g(x,y)=0$,求函数$f(x,y)$的极值,定义一个新的函数$F(x,y,\lambda)=f(x,y)+\lambd 阅读全文
posted @ 2019-07-31 21:10 hi_heisen 阅读(993) 评论(0) 推荐(0)