04 2020 档案
摘要:基本流程 决策树是通过分次判断样本属性来进行划分样本类别的机器学习模型。每个树的结点选择一个最优属性来进行样本的分流,最终将样本类别划分出来。 构建决策树的关键是分流时最优属性$a$的选择。使用所谓信息增益$Gain(D,a)$来判别不同属性的划分性能,即划分前样本类别的信息熵,减去划分后样本类别的
阅读全文
摘要:介绍与推导 LDA是线性判别分析的英文缩写,该方法旨在通过将多维的特征映射到一维来进行类别判断。映射的方式是将数值化的样本特征与一个同维度的向量做内积,即: $y=w^Tx$ 因此,建立模型的目标就是找到一个最优的向量,使映射到一维后的不同类别的样本之间“距离”尽可能大,而同类别的样本之间“距离”尽
阅读全文
摘要:有些公式网上难找的话,直接在word里面用公式的“专用”模式写好,然后再转成线性,就能得到LaTeX代码。 latex编写数学公式要用环境: \usepackage{amsmath} 数学公式 左对齐 \begin{align*} f(x) &= x \\ &= 1 \end{align*} 非斜体
阅读全文
摘要:pydotplus是别的语言嫁接到python里面的,所以绘制要传入字符串形式表示的结构,而没有python的结构对象直接用来画。代码如下: import pydotplus as pdp graph = pdp.graph_from_dot_data('digraph demo1{ a -> b
阅读全文
摘要:高数 梯度与法向量的关系 求曲面$f(x^{(1)},...,x^{(n)})=0$在$(x^{(1)}_0,...,x^{(n)}_0)$处的法向量(有$f(x^{(1)}_0,...,x^{(n)}_0)=0$),实际上就是求$z = f(x^{(1)},...,x^{(n)})$在$(x^{(
阅读全文
摘要:当我们想对某些特定的分布进行抽样时,由于电脑算法只能产生服从于均匀分布的伪随机数,我们可以通过映射的方式来获取特定分布的抽样。于是引出下面的问题: 假设随机变量$X\sim U(0,1)$,对于已知映射$Y = g(X)$,我们知道如何计算$Y$的概率密度函数。但是,如果我们已知的是$Y$的概率密度
阅读全文
摘要:核密度估计,或称Parzen窗,目标是利用离散的数据本身拟合出一个连续的分布,属于非参数估计。所谓非参数估计,即该估计并没有预设某种分布函数来对其参数进行求解或拟合,比如机器学习中K近邻法也是非参估计的一种。 直方图 首先从直方图切入。对于随机变量$X$的一组抽样,即使$X$的值是连续的,我们也可以
阅读全文
摘要:特征值之积等于矩阵行列式 对于$n$阶方阵$A$,我们可以解$\lambda$的$n$次方程 $|A-\lambda E|=0$ 来求$A$的特征值。又因为在复数域内,$A$一定存在$n$个特征值$\lambda_1,\lambda_2...\lambda_n$使上式成立。因此作为$\lambda$
阅读全文

浙公网安备 33010602011771号