随笔分类 - PRML
Pattern Recognition and Machine Learning
机器学习圣经之一
摘要:局部变分方法 利用局部信息进行变分推断 寻找上界或者下界 $比如我们有要求概率P,P可以分解成多个因子p_i的连乘积,那么取出一个p_j ,用一个\tilde p_j取作为p_j的下界,使得p=\prod p_i \ge \tilde p_j \prod_{i\ne j} p_i $ \(f(x)是
阅读全文
摘要:为什么需要近似推断 现在棘手的问题在于 \(1.计算给定观察x后的隐变量z和参数\theta的后验分布计算\) \(2.计算观测变量的边缘分布\) 两种方法达到近似推断 1.决定性方法,-有解析解,快速,但是求出的是局部解 2.随机性方法,-慢,要采样多次,但是可以得到全局解(有证明的) 决定性推断
阅读全文
摘要:1.指数族分布的标准形式 \(p(x|\eta) = h(x)g(\eta)exp\{\eta^Tu(x)\}\) \(B站白板推导也有一个指数族分布标准形式,两者是等价的\) \(p(x|\eta) = h(x)exp\{\eta^T\phi(x)- A(\eta)\}\) \(这里的u(x)=\
阅读全文
摘要:#1.相对熵,KL散度 \(真实分布p(x),近似分布q(x)对其建模,则分布p(x),q(x)之间的相对熵/KL散度为\) 注意KL$(p||q)\ne$KL$(q||p)$,相对熵不是一个对称量 \(KL散度可以看做是两个分布p(x)和q(x)之间不相似程度的度量\) #2.KL散度的近似公式
阅读全文
摘要:#1.信息熵 \(对于信息内容的度量依赖于概率分布p(x),我们想要找到这么一个函数h(x),要满足\) \(1.它是概率p(x)的单调递增函数\) \(2.如果我们有两个不相关的事件x和y,我们观察到两个事件同时发⽣时获得的信息应该等于观察到事件各⾃发⽣时获得的信息之和,即h(x, y) = h(
阅读全文
摘要:#1.损失函数 \(我们造成了⼀个损失L(t, y(x))。平均损失(或者说期望损失)就是\) \(\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdt\) \(一般损失函数定义为\)平方损失 \(L(t,y(x))=\{y(x)-t\}^2\) \(损失函数可以写成
阅读全文
摘要:https://biggerhao.github.io/blog/2018/02/PRML-1-88/ 原文回顾 在回归问题中,我们需要选择一个估计函数 \(y(\mathbf{x})\),来对每个输入 \(\mathbf{x}\) 预测其对应的值 \(t\)。这样做就会导致损失 \(L(t, y(
阅读全文
摘要:\(事实上,我们可以区分出三种不同的⽅法来解决决策问题,这三种⽅法都已经在实际应⽤问题中被使⽤。这三种⽅法按照复杂度降低的顺序给出:\) 判别式 和 生成式 简单点说,生成式算出的是概率,哪个概率大,属于哪个分类 判别式就是输出具体的类别,没有概率 上图左边为判别式模型而右边为生成式模型,可以很清晰
阅读全文
摘要:https://www.cnblogs.com/wacc/p/5495448.html 贝叶斯线性回归 问题背景: 为了与PRML第一章一致,我们假定数据出自一个高斯分布: \[p(t|x,\mathbf{w},\beta)=\mathcal{N}(t|y(x,\mathbf{w}),\beta^{
阅读全文
摘要:1.摘抄1-老外的一些解释 https://stats.stackexchange.com/questions/305078/how-to-compute-equation-1-68-of-bishops-book I was treating the problem as having four
阅读全文
摘要:#一些记号和回顾 |参数 | 含义 | | | : | | \(N\) | 样本量 | |\(x=(x_1,...,x_N)^T\)|\(样本数据集\)| |\(t=(t_1,...,t_N)^T\)|\(样本的目标数据集\)| |\(p(x\|\mu,\sigma^2)=\prod\limits_
阅读全文
摘要:#1.一些记号和回顾 |参数 | 含义 | | | : | | \(N\) | 样本量 | |\(x=(x_1,...,x_N)^T\)|\(样本数据集\)| |\(t=(t_1,...,t_N)^T\)|\(样本的目标数据集\)| |\(p(x\|\mu,\sigma^2)=\prod\limit
阅读全文
摘要:https://math.stackexchange.com/questions/171226/stuck-with-handling-of-conditional-probability-in-bishops-pattern-recognition 在本书的第10.8章节重新讲到了高斯模型的概率图
阅读全文
摘要:1.一元高斯分布 2.多元高斯分布 \(D是维度,\mu是均值向量,D\times D的矩阵\Sigma是协方差矩阵\) \(比如二维的X,Y\) $\begin{bmatrix} cov[x,x] & cov[x,y] \ cov[y,x] & cov[y,y] \ \end{bmatrix},对
阅读全文
摘要:\(\ \ \ \ \ \ 本 章 ⽬ 前 为 ⽌, 我 们 根 据 随 机 重 复 事 件 的 频 率 来 考 察 概 率。 我 们 把 这 个 叫 做 经 典 的\)(classical)\(或者频率学家\)(frequentist)\(的关于概率的观点。现在我们转向更加通⽤的贝叶斯\)(Bay
阅读全文
摘要:1.期望 \(离散型:\mathbb{E}[f]=\sum\limits_x p(x)f(x)\) \(连续型:\mathbb{E}[f]=\sum\limits_x p(x)f(x)dx\) 如果我们给定有限数量的N个点,这些点满⾜某个概率分布或者概率密度函数,那么期望可以通过求和的⽅式估计 \(
阅读全文
摘要:1.概率密度函数 - pdf (probability density function) \(如果 ⼀ 个 实 值 变 量x的 概 率落在区间(x, x + δx)的概率由p(x)δx给出(δx → 0),那么p(x)叫做x的概率密度\)(probabilitydensity)。\(图1.12说明
阅读全文
摘要:1.联合概率,边缘概率,条件概率 $假设有两个离散随机变量X,Y,X有5种取值,Y有3种取值,做N次试验,其中我们 对X和Y 都进⾏取样,把X = x_i且Y = y_j的试验的数量记作n_{ij}。并且,把X取值x_i(与Y 的取 值⽆关)的试验的数量记作c_i,类似地,把Y 取值y_j的试验的数
阅读全文
摘要:1.机器学习问题分类 $\begin{cases} 监督学习\begin{cases} 回归问题(regression,连续)\ 分类问题(classification,离散)\ \end{cases}\ 无监督学习\begin{cases} 聚类(clustering)\ 密度估计(density
阅读全文

浙公网安备 33010602011771号