统计学习
前沿知识


L1范数(也称为曼哈顿范数或ℓ1范数)是向量空间中一种常用的范数,用于衡量向量的大小或长度。它是向量各分量绝对值的和。
L2 范数是向量各分量平方和的平方根,表示向量在欧几里得空间中的长度。它在机器学习、优化和几何中具有广泛的应用。
全概率公式和贝叶斯公式区别

对于离散型随机变量采用概率分布函数来刻画,对于连续型随机变量采用概率密度函数刻画
如何理解模型、策略、算法

统计学习和机器学习异同
统计学习:侧重于从数据中推断模型,强调模型的解释性和统计推断,关注参数估计、假设检验和置信区间。
机器学习:侧重于预测性能,通过算法从数据中学习模式,目标是提升预测准确率,模型解释性相对次要。

监督学习
根据变量类型不同确认研究问题
回归问题
输入变量与输出变量均为连续性变量的问题
分类问题
输出变量为有限个离散变量的问题
标注问题
输入变量与输出变量均为变量序列的预测问题(为输入数据的每个部分分配标签,输出是序列或结构化的标签集合。输出多个标签,如词性标注中的每个词的词性。)
无监督学习
无监督学习是机器学习的一种类型,其特点是在没有标签的数据中寻找隐藏的结构或模式。与有监督学习不同,无监督学习不依赖于预先标注的输出结果,而是通过分析输入数据的内部关系来进行学习。比如GAN
强化学习
强化学习(Reinforcement Learning, RL)是机器学习的一个分支,其核心思想是通过与环境的交互来学习策略,以最大化某种累积奖励。强化学习的特点在于智能体(Agent)在环境中通过试错来学习,而不是依赖于标注好的数据。
统计学习方法三要素:模型+策略+算法
贝叶斯学习
-
贝叶斯定理
贝叶斯定理是贝叶斯学习的基础,其公式为:
\(P(θ∣D)= \frac{P(D∣θ)⋅P(θ)}{P(D)}\)
其中:
θ:模型参数。
D:观测数据。
P(θ):先验分布,表示在观测数据之前的参数分布。
P(D∣θ):似然函数,表示在给定参数下观测数据的概率。
P(θ∣D):后验分布,表示在观测数据后参数的更新分布。
P(D):证据(边缘似然),用于归一化。 -
贝叶斯学习的核心思想
先验分布:在观测数据之前,对参数的初始假设(如参数可能服从某种分布)。
后验分布:结合观测数据后,对参数的更新认知。
贝叶斯推断:通过不断更新后验分布,逐步优化对参数的估计。 -
贝叶斯学习的步骤
选择先验分布:根据领域知识或假设,选择一个先验分布 P(θ)。
计算似然函数:基于观测数据 D,计算似然函数 P(D∣θ)。
计算后验分布:利用贝叶斯定理,计算后验分布 P(θ∣D)。
进行推断:基于后验分布,进行参数估计、预测或决策。
在贝叶斯定理中,似然函数(Likelihood Function) 起着至关重要的作用。它是连接观测数据和模型参数的桥梁,用于量化在给定参数下观测数据的可能性。以下是似然函数的详细解释及其作用:
-
似然函数的定义
似然函数记作 P(D∣θ),表示在模型参数θ 给定的情况下,观测数据D 出现的概率。
D:观测数据。
θ:模型参数。 -
似然函数的作用
(1)量化数据与参数的关系
似然函数衡量了在特定参数θ 下,观测数据D 的“可能性”。它反映了参数θ 对数据的解释能力。
如果P(D∣θ) 较大,说明参数θ 能够较好地解释数据D。
如果P(D∣θ) 较小,说明参数θ 不太可能生成数据 D。
(2)更新先验分布
在贝叶斯定理中,似然函数与先验分布P(θ) 结合,用于计算后验分布P(θ∣D):
\(P(θ∣D)=\frac{P(D∣θ)⋅P(θ)}{P(D)}\) 先验分布P(θ):表示在观测数据之前的参数分布。
后验分布P(θ∣D):表示在观测数据之后参数的更新分布。
似然函数的作用是将观测数据的信息融入到先验分布中,从而更新对参数的认知。
(3)参数估计
通过最大化似然函数,可以得到参数的最大似然估计(Maximum Likelihood Estimation, MLE):
\(\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} P(D \mid \theta)\)
MLE 是频率学派中常用的参数估计方法,但在贝叶斯框架中,似然函数也被用于计算后验分布。

(4)模型比较
似然函数可以用于比较不同模型的拟合能力。通过比较不同模型的似然函数值,可以选择更合适的模型。
生成方法和判别方法异同

朴素贝叶斯法
| 对比维度 | 生成模型 | 判别模型 |
|---|---|---|
| 建模目标 | 学习数据的联合概率分布 $ P(X, Y)$,生成新数据样本。 | 学习条件概率分布 \(P(Y|X)\),直接预测输出。 |
| 方法 | 估计 \(P(X, Y)\),常用方法:朴素贝叶斯、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、生成对抗网络(GAN)等。 | 估计 \(P(Y|X)\),常用方法:逻辑回归、支持向量机(SVM)、决策树、神经网络等。 |
| 应用场景 | 数据生成、缺失数据填补、异常检测、文本生成、图像生成等。 | 分类、回归、目标检测、语音识别等预测任务。 |
| 优点 | 1. 能生成新数据。 2. 适合处理缺失数据。 3. 可以用于无监督学习。 |
1. 计算效率高。 2. 预测性能通常较好。 3. 更适合监督学习任务。 |
| 缺点 | 1. 计算复杂度高。 2. 对数据分布假设较强。 3. 预测性能可能不如判别模型。 |
1. 无法生成新数据。 2. 对数据分布假设较弱。 3. 需要大量标注数据。 |
| 示例 | 1. 朴素贝叶斯分类器:通过 $ P(X|Y) $ 和$ P(Y)$ 计算$ P(Y|X) $。2. GAN:生成逼真的图像数据。 | 1. 逻辑回归:直接估计$ P(Y|X) $,用于分类。 2. SVM:用于分类和回归任务。 |
| 适用任务 | 生成任务(如文本生成、图像生成)、数据补全、异常检测、无监督学习。 | 预测任务(如分类、回归)、目标检测、语音识别等监督学习任务。 |
| 数据需求 | 需要完整的联合分布数据,可以用于无监督学习。 | 需要输入输出对的标注数据,适合监督学习。 |
| 计算复杂度 | 较高,因为需要建模整个数据分布。 | 较低,直接建模条件分布。 |
| 灵活性 | 对数据分布假设较强,灵活性较低。 | 对数据分布假设较弱,灵活性较高。 |
总结
- 生成模型:适合生成新数据、处理缺失数据或无监督学习任务,但计算复杂度高,对数据分布假设较强。
- 判别模型:适合预测任务,计算效率高,但无法生成新数据,需要大量标注数据。
朴素贝叶斯法和贝叶斯估计
朴素贝叶斯法是一种基于贝叶斯定理的分类算法,主要用于监督学习中的分类任务。它的核心思想是通过计算后验概率 P(Y∣X) 来预测类别标签Y。
贝叶斯估计是一种参数估计方法,用于推断未知参数的概率分布。它通过结合先验知识和观测数据来计算参数的后验分布。

贝叶斯定理


浙公网安备 33010602011771号