机器学习 - 随笔分类 - hi_heisen

最大熵模型

摘要：最大熵模型熵的概念熵度量了事物的不确定性，越不确定的事物，它的熵越大，表示如下： $$ H(X)= \sum_{i=1}^np_i\log p_i $$ n代表X的n种不同离散取值，而$p_i$代表了X取值为i的概率。多个变量联合熵表示为 $$ H(X,Y)= \sum_{i=1}^np(x_ 阅读全文

posted @ 2020-05-13 15:55 hi_heisen 阅读(277) 评论(0) 推荐(0)

主成分分析PCA

摘要：PCA原理 PCA思想 PCA是一种重要的降维方法之一，就是找出数据里最主要的方面，用主要方面代替原数据，并希望损失尽可能小。 PCA推导：基于最小投影距离假设m个n维数据$(x^{(1)},x^{(2)},...,x^{(m)})$都已经进行了中心化，即$\sum\limits_{i=1}^mx 阅读全文

posted @ 2020-05-13 15:53 hi_heisen 阅读(175) 评论(0) 推荐(0)

逻辑回归、正则化、感知机

摘要：逻辑回归、正则化、感知机正则化为避免过拟合，增强模型的泛化能力，可以使用正则化的方法。 1. Lasso回归 L1正则化 $$ J(\theta)=\frac{1}{2n}(\mathtt X\theta Y)^T(\mathtt X\theta Y)+\alpha\lVert \theta\r 阅读全文

posted @ 2020-05-13 15:51 hi_heisen 阅读(401) 评论(0) 推荐(0)

线性差别分析LDA

摘要：LDA原理 LDA思想这里的LDA是指Linear Discriminant Analysis，简称LDA，全称线性判别分析。要与自然语言处理领域的LDA（Latent Dirichlet Allocation）隐含狄利克雷分布区分开来。 LDA是一种监督学习降维技术，它的数据集的每个样本是有类别阅读全文

posted @ 2020-05-13 15:50 hi_heisen 阅读(582) 评论(0) 推荐(0)

梯度提升树GBDT

摘要：梯度提升树GBDT GBDT是Boosting家庭中，除AdaBoost外另一个重要的算法。算法思想同样是让本轮迭代找到的决策树的损失比上轮更小。 GBDT负梯度拟合用损失函数负梯度来拟合本轮损失近似值，进而拟合一个CART回归树。第t轮的第i个样本的损失函数的负梯度表示为： $$ r_{ti}= 阅读全文

posted @ 2020-05-13 15:49 hi_heisen 阅读(206) 评论(0) 推荐(0)

奇异值分解SVD

摘要：奇异值分解SVD原理特征值和特征向量特征值和特征向量表示： $$ Ax=\lambda x $$ 其中A是一个$n\times n$的实对称矩阵，x是一个n维向量，则我们说$\lambda$是一个特征值，而x是矩阵A的特征值$\lambda$对应的特征向量。有了特征值和特征向量，我们就可以将矩阵阅读全文

posted @ 2020-05-13 15:47 hi_heisen 阅读(206) 评论(0) 推荐(0)

朴素贝叶斯

摘要：朴素贝叶斯朴素贝叶斯原理朴素贝叶斯：条件分布＋条件独立＋全概率算法原理条件分布 $$ P(Y|X)=\frac{P(X,Y)}{P(X)} $$ 贝叶斯可以概括为：先验概率＋数据＝后验概率。如果X和Y相互独立，那么 $$ P(X,Y)=P(X)P(Y) $$ 条件概率表示为： $$ P(Y 阅读全文

posted @ 2020-05-13 15:46 hi_heisen 阅读(273) 评论(0) 推荐(0)

决策树

摘要：决策树 ID3算法 1. 信息论基础信息论中，熵度量了事务的不确定性，越不确定的事务，它的熵就越大。表示形式如下： $$ H(X)= \sum_{i=1}^np_i\log_2 p_i $$ 多个变量联合熵表示如下： $$ H(X,Y)= \sum_{i=1}^np(x_i,y_i)\log p( 阅读全文

posted @ 2020-05-13 15:45 hi_heisen 阅读(183) 评论(0) 推荐(0)

交叉熵与softmax

摘要：交叉熵 $$ H(p,q)= \sum\limits_{x}p(x)\log q(x) $$ 它刻画的是通过概率分布q来表达概率分布p的困难程度。交叉熵作为神经网络的损失函数时，p代表正确答案，q代表预测值，它刻画两个概率分布的距离，即交叉熵越小，两个概率分布越近。或写为 $$ \sum_ip_k 阅读全文

posted @ 2020-05-13 15:44 hi_heisen 阅读(237) 评论(0) 推荐(0)

集成学习

摘要：集成学习基本思想集成学习主要思想是：通过构建并结合多个机器学习来完成任务，通过一定的策略将各学习器结合。主要有两类：一类是Boosting，另一类是Bagging Boosting：同质学习器，存在信赖关系，往往是串行的，根据误差调节样本权重，代表AdaBoost和Boost tree； Bag 阅读全文

posted @ 2020-05-13 15:42 hi_heisen 阅读(279) 评论(0) 推荐(0)

SVM算法

摘要：SVM算法间隔的定义在分隔超平面定义为$w^Tx+b=0$时，我们定义点到超平面的距离为$\gamma=\frac{y(x^Tx+b)}{\lVert w\rVert_2}$。目标函数与优化定义了点到超平面的距离后，我们的目标就是让所有的点到分隔超平面的距离之各最小，我们定义优化函数如下：阅读全文

posted @ 2020-05-13 15:40 hi_heisen 阅读(297) 评论(0) 推荐(0)

蒙特卡罗方法

摘要：MCMC是（Markov Chain Monte Carlo）缩写，中文马尔科夫链蒙特卡罗。蒙特卡罗方法 Monte Carlo思想最早的蒙特卡罗方法是为了求各或积分问题，比如 $$ \theta=\int_a^bf(x)dx $$ 使用蒙特卡罗方法求得积分的近似值。在$[a,b]$区间上随机采阅读全文

posted @ 2020-05-13 15:39 hi_heisen 阅读(403) 评论(0) 推荐(0)

K近邻--KNN

摘要：K近邻 KNN KNN算法 KNN是选择距离最近的几个样本，做分类或者回归。分类时，选择多数表决法，回归时，一般选择平均值法。 1. KNN三要素 1）K的选择：可通过交叉验证法寻找合适的K 2）距离度量：对于两个n维向量x和y，两者的欧式距离、曼哈顿距离和闵可斯基距离定义如下： $$ D(x,y 阅读全文

posted @ 2020-05-13 15:37 hi_heisen 阅读(168) 评论(0) 推荐(0)

K-Means聚类

摘要：K Means聚类 K Means算法思想给定样本集，按照样本之间的距离大小，将样本集分为K个簇，让簇内尽量紧密，让簇间尽量大。假设簇划分为$C_1,C_2,...,C_k$，则我们的目标是最小化平方误差E $$ E=\sum_{i=1}^k\sum_{x\in C_i}\lVert x \mu 阅读全文

posted @ 2020-05-13 15:35 hi_heisen 阅读(213) 评论(0) 推荐(0)

DBSCAN密度聚类

摘要：DBSCAN密度聚类基本原理 DBSCAN是具有噪声的基于密度聚类的方法，可应用于凸样本集，也可应用于非凸样本集。同一类别的样本是紧密相连的。 DBSCAN密度定义假设样本集$D=(x_1,x_2,...,x_m)$，参数$(\epsilon,MinPts)$用来描述邻域的样本分布紧密程度，其中阅读全文

posted @ 2020-05-13 15:23 hi_heisen 阅读(222) 评论(0) 推荐(0)

Bagging、随机森林

摘要：Bagging原理 Bagging是n个相互无信赖的弱学习器，通过一定的策略，得到一个强学习器。随机采样 Bagging一个主要的特点是随机采样，bagging是有放回的采样。对于一个有m个样本的数据集，每次采集一个样本，被采的概率是$\frac{1}{m}$，不被采的概率是$1 \frac{1 阅读全文

posted @ 2020-05-13 15:22 hi_heisen 阅读(258) 评论(0) 推荐(0)

支持向量机SVM

摘要：1 基本概念支持向量机核心在于寻找分隔超平面，写为$\mathtt{w}^T\mathtt{x}+b$，任意一点到超平面的距离为$\frac{|\mathtt{w}^T\mathtt{A}+b|}{||\mathtt{w}||}$。以平台上的直线为例，直线$Ax+By+C=0$，点$(x_0,y 阅读全文

posted @ 2020-05-13 15:21 hi_heisen 阅读(191) 评论(0) 推荐(0)

梯度下降法实现Logistic回归

摘要：参考简书中Logistic回归及Python代码实现。 Logistic函数的损失函数的偏导数为$\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)x_i^j$，所以$\theta$的更新可以写为：$\theta_j=\theta_j-\alpha\frac{1 阅读全文

posted @ 2019-08-01 22:18 hi_heisen 阅读(552) 评论(0) 推荐(0)

跟刘建平博客学机器学习

摘要：2016年10月 1. 梯度下降（Gradient Descent）小结对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。沿着梯度向量的方向就是f(x,y)增加最快的地方，容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，梯度减少最快，也就是更加容易找到函数的阅读全文

posted @ 2019-08-01 17:55 hi_heisen 阅读(2110) 评论(0) 推荐(1)

拉格朗日乘子法

摘要：1 拉格朗日乘子法基本概念拉格朗日乘子法是在约束条件$g(x_1,x_2,...)=0$下，计算函数$f(x_1,x_2,...)$极值的方法。以二元函数为例，约束条件为$g(x,y)=0$，求函数$f(x,y)$的极值，定义一个新的函数$F(x,y,\lambda)=f(x,y)+\lambd 阅读全文

posted @ 2019-07-31 21:10 hi_heisen 阅读(993) 评论(0) 推荐(0)

hi_heisen

随笔分类 - 机器学习

公告