随笔分类 - 机器学习
经典算方法
摘要:1.sigmoid函数 2.softmax函数 及其导数 3.tanh函数及其导数 3.MSE均方差损失函数及其导数 4.交叉熵损失函数及其导数
阅读全文
摘要:#1.信息熵的概念 某个离散随机变量的概率分布为 \(P(X=x_i)=p_i,i=1,2,...,n\tag{1.1}\) 则随机变量$X$的熵定义为 \(H(X)=-\sum\limits_{i=1}^{n}p_i\log p_i \tag{1.2}\) 点击查看代码 # 熵的计算 def ca
阅读全文
摘要:1.距离计算 给定样本 \(x_i=(x_{i1},x_{i2},...,x_{in}),x_j=(x_{j1},x_{j2},...,x_{jn})\) 连续属性的距离计算 闵可夫斯基距离 \(dist_{mk}(x_i,x_j)=(\sum\limits_{u=1}^{n}|x_{iu}-x_{
阅读全文
摘要:一.判别分析和分类分析 例子 贷款人申请贷款,要评估是否能够成功偿还贷款 二.区别 判别分析-寻找判别规则,利用判别函数来描述-主要是区分不同的群体-找规律 分类分析-给出分类结果-预测新对象的类别,找到最优可能属于的类别-贴标签 目标通常都是分类 两群体Fisher线性判别分析 目标寻找最合适的平
阅读全文
摘要:一.背景 一般机器学习完成后会生成正确率等指标,ROC也是常用的指标 \(假设有一随机变量X,离散值,有n中取值,同时有两类分布对应X\) \(1.真实分布-从样本中,概率为p=(p_1,p_2,....,p_n)\) \(2.假设分布-学习得到,概率为q=(q_1,q_2,....,q_n)\)
阅读全文
摘要:#1.最大熵模型 终极目标 \(P(Y|X)\) 熵 \(H(P)=-\sum_{x}P(x)\log P(x)\) 将终极目标代入熵 \(H(P)=-\sum_{x}P(y|x)\log P(y|x)\) 做些改变,调整为条件熵 \(H(P)=H(y|x)=-\sum_{x}\tilde P(x)
阅读全文
摘要:1.逻辑斯蒂回归定义 \(P(Y=1|x)=\frac{e^{wx}}{1+e^{wx}}\) \(P(Y=0|x)=\frac{1}{1+e^{wx}}\) 2.参数估计 \(逻辑斯蒂回归模型学习时,对于给定的训练数据及T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
阅读全文
摘要:符号 定义 \(D\) \(数据集,一个m\times (d+1)大小的矩阵X\) \(m\) \(样本量\) \(d\) \(维度,不含偏置项\) \(X=\begin{pmatrix}x_{11} & x_{12} & ... & x_{1d} & 1 \\x_{21} & x_{22} & .
阅读全文
摘要:#1.概念 拟合能力强的模型一般复杂度会比较高,容易过拟合。 如果限制模型复杂度,降低拟合能力,可能会欠拟合。 #2.如何选择模型? 模型越复杂,迅雷错误越低 #####不能根据训练错误最低来选择模型 #####在选择模型时,测试集不可见 #3.模型选择 引入验证集 将训练集分为两部分 训练集 验证
阅读全文
摘要:1.学习准则 一个好的模型应该在所有取值上都与真实映射函数一致 #2.损失函数 Loss Function 损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异 以回归问题为例 平方损失函数 Quadratic Loss Function \(\mathcal{L}(y,f(x;\the
阅读全文
摘要:点击查看代码 from sklearn import datasets # 自带数据集 from sklearn.model_selection import train_test_split # 数据集划分 from sklearn.preprocessing import StandardSca
阅读全文
摘要:1.留出法 2.python代码演示 点击查看代码 from sklearn import datasets # 自带数据集 from sklearn.model_selection import train_test_split # 数据集划分 from sklearn.preprocessing
阅读全文
摘要:1.多分类问题 \(y=argmax_{c=1}^{C}\ f_c(x;w_c)\) \(f_c(x;w_c)=w_c^T x+b_c,\ c\in \{1,...,C\}\) 学习准则 \(转换为条件概率建模\) \(p_{\theta}(y=c|x)\) 模型问题 \(已知 f_c(x;w_c)
阅读全文
摘要:1.种类 感知器 Logistic回归 Softmax回归 交叉熵和对数似然 支持向量机 Softmax回归是多分类,其他都是二分类 #2.线性回归模型 \(f(x;w,b)=w^Tx +b ,y\in R\) #3.线性分类模型 $g(f(x;w))=\begin{cases} 1 & if\ f
阅读全文
摘要:#1.案例1 案例 $f(x)=a_0+\sum_k a_k \sin kx + \sum_k b_k \cos kx $ \(=\sum_{k=-\infty}^{+\infty}c_k e^{ikx}\) \(当k不断增极大,a_k,b_k怎么变化?\) \(c_k极其增大\) \(若k不断减小
阅读全文
摘要:课程来源 https://www.bilibili.com/video/BV167411N7fE?p=3 #1.问题 如果采样是离散的,那么频率是有限宽的,没法采到特别高频率的样本 或者有很高频的样本,你的采样精度不够细的时候,采样数据的信号有多大的可信程度? 2.From CFT to DTFT
阅读全文
摘要:一.线性回归模型 \(y_i=a_ix+b_i,b_i是噪声\) \(通常可以写成 y=Ax+b,y\in R^m, A\in R^{m\times n},x\in R^n,b\in R^m,m是样本量,n是维度\) 二.从概率角度看待逻辑回归 \(则从概率的角度看,需要将最大似然函数求最大值\)
阅读全文

浙公网安备 33010602011771号