随笔分类 - PRML
Pattern Recognition and Machine Learning
机器学习圣经之一
摘要:书上的图5.7介绍了神经网络的结构 但是图过于简单,对于推导公式很不利,很难理解,我对原图做了一些修改和扩展,方便大家理解 首先看下图上的一些标记说明 \(1.共三层神经元,i层(共I个神经元),j层(共J个神经元),k层(共K个神经元),可以理解为i层是输入层,k层是输出层,j层是隐藏层\) \(
阅读全文
摘要:1.概念 判别式是一个使用输入向量$x$并把它分配给$K$种分类的其中一种$C_k$的函数。本章中,我们把我们的讨论局限于线性判别式(linear discriminants),即那些决策面是超平面的判别函数。为了简化讨论,我们首先考虑二分类的情况,再推广到$K > 2$的情形。 #2 二分类 线性
阅读全文
摘要:一些记号 \(1.输入变量\) \(x\) \(2.分类\) \(C_k,k=1,2,...,K,共K个离散值\) \(3.决策边界/决策面/决策区域\) \(D维输入空间中的(D − 1)维超平面\) \(y(x) = constant ,即w^T x + w_0 = constant\) \(4
阅读全文
摘要:本章节中的一些概念跳来跳去,比较复杂,一些概念如 条件概率,最大似然,先验分布,后验分布,预测分布,证据函数,这些关系都梳理到了思维导图中, 3.线性回归模型 基函数模型 基函数种类 高斯基函数 多项式基函数 傅里叶基函数 sigmod基函数 回归函数最大似然求解析解 条件分布:假设:噪声是正态分布
阅读全文
摘要:3.5证据近似 解决两个超参数$\alpha,\beta$ 如果我们引入$\alpha, \beta$上的超先验,那么预测分布可以通过边缘化$w,\alpha,\beta$来获得: $ p(t|\textbf{t})=\int\int\int p(t|w,\beta)p(w|\textbf{t},\
阅读全文
摘要:后验分布 假设我们需要比较模型${M_i} , i = 1,...,L$集合$L$。其中的模型是观测数据$D$上的概率分布。在多项式曲线拟合问题中,输入值$X$是已知的,分布被定义在目标值$\textbf{t}$上。其他类型的模型定义了$X,\textbf{t}\(上的联合分布。**我们假设数据是由
阅读全文
摘要:记号说明 $1.输入集\textbf{X}={x_1,...,x_N}是N个观测值,某一个观测{x_n},其中n=1,2,...,N,通俗讲就是$x_train$,或者文中称为\mathcal{D}$ $2.观测对应的目标值\textbf{t}={t_1,...,t_n},通俗讲就是$y_train
阅读全文
摘要:证明 贝叶斯定理$p(w|t)\propto p(t|w)p(w)$ 代入3.10 ,3.48 \(p(\textbf{t}|\textbf{X},w,\beta) = \prod\limits_{n=1}^N\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1})\) \(
阅读全文
摘要:本章节主要讨论 在使用贝叶斯方法对参数进行求和或者积分时,过拟合现象不会出现 1.偏置-方差分解 1.5.5节中,当我们讨论回归问题的决策论时,我们考虑了一旦我们知道了条件概率分布$ p(t|x) $,就能够给出对应的最优预测结果的不同损失函数。使用最多的平方误差函数,此时最优预测的条件期望: \(
阅读全文
摘要:记号说明 $1.输入集\textbf{X}={x_1,...,x_N}是N个观测值,某一个观测{x_n},其中n=1,2,...,N,通俗讲就是$x_train$,或者文中称为\mathcal{D}$ $2.观测对应的目标值\textbf{t}={t_1,...,t_n},通俗讲就是$y_train
阅读全文
摘要:考虑$y(x),y(x')$间的协方差 \(\begin{eqnarray} cov[y(x),y(x')] &=& cov[\phi(x)^Tw,w^T\phi(x')] \ &=& \phi(x)^TS_N\phi(x') = \beta^{-1}k(x,x') \tag{3.63} \end{
阅读全文
摘要:https://biggerhao.github.io/blog/2018/03/PRML-1-90/ 原文回顾 \(在上文中,我们已经推导出了 (y(\mathbf{x})\) 的最优解是给定 \(\mathbf{x}\) 的 \(t\) 的条件期望。 \[ y(\mathbf{x}) = \fr
阅读全文
摘要:一些记号 \(D=\{x_1,...,x_N\}\) 观测数据集 2.1 二元变量-伯努利分布 伯努利概率分布为:(x只能取0或1,取1的概率是$\mu,p(x = 1|\mu) = \mu$) \(Bern(x|\mu) = \mu^x(1-\mu)^{1 - x} \tag{2.2}\) 均值
阅读全文
摘要:本节是为了推导下面那句话 对称矩阵的逆同样是对称的 \(已知\Sigma^T = \Sigma,\Lambda=\Sigma^{-1}\) \(因为\Sigma\Lambda =I\) \(所以\Lambda^{T}\Sigma^{T}=I\) \(\Lambda^{T}\Sigma=I\) \(\
阅读全文
摘要:我们用频率学角度证明这点。考虑一个贝叶斯推断,参数为$\theta$并且观测了一个数据集D,由联合分布$p(\theta,D)$表示. \(\mathbb{E}_\theta[\theta] = \mathbb{E}_D[\mathbb{E}_\theta[\theta|D]] \tag{2.21}
阅读全文
摘要:原文 https://www.cnblogs.com/wacc/p/5495448.html 贝叶斯线性回归 问题背景: 为了与PRML第一章一致,我们假定数据出自一个高斯分布: \[p(t|x,\mathbf{w},\beta)=\mathcal{N}(t|y(x,\mathbf{w}),\bet
阅读全文
摘要:\(目标\) \(p(t|x, X, T) = \int p(t|x, w)p(w|X, T)dw \tag{1.68}\) \(1.p(t,x, X, T)=\int p(t,x,X,T,w)dw\) \(=\int p(t|x,X,T,w)p(x,X,T,w)dw\) \(=\int p(t|x
阅读全文
摘要:$ p(w|X, T, \alpha, \beta) \propto p(T|X, w, \beta)p(w|\alpha)$ \(取ln\) \(\ln p(T|X, w, \beta) + \ln p(w|\alpha)\) 回顾 \(\ln p(T|X, w, \beta) = -\frac{
阅读全文
摘要:一些数学符号 \(N\) 样本量 \(x_n\) 每一个数据点,或者叫样本点,工程中/训练集中的x_train \(t_n\) 训练集中的y_train CDF 累计概率分布 PDF 概率密度函数 \(\mathcal{D}\) 观测 \(X = (X_1,...,X_N)^T\) \(N个输入\)
阅读全文
摘要:\(p_{y}(y)=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right|=p_{x}(g(y))\left|g^{\prime}(y)\right| \tag{1.27}\) \(令x=g(y)\) \(f(x)=f(g(y))\) \(观测
阅读全文

浙公网安备 33010602011771号