统计学习

前沿知识

L1范数（也称为曼哈顿范数或ℓ1范数）是向量空间中一种常用的范数，用于衡量向量的大小或长度。它是向量各分量绝对值的和。
L2 范数是向量各分量平方和的平方根，表示向量在欧几里得空间中的长度。它在机器学习、优化和几何中具有广泛的应用。

全概率公式和贝叶斯公式区别

对于离散型随机变量采用概率分布函数来刻画，对于连续型随机变量采用概率密度函数刻画

如何理解模型、策略、算法

统计学习和机器学习异同

统计学习：侧重于从数据中推断模型，强调模型的解释性和统计推断，关注参数估计、假设检验和置信区间。
机器学习：侧重于预测性能，通过算法从数据中学习模式，目标是提升预测准确率，模型解释性相对次要。

监督学习

根据变量类型不同确认研究问题

回归问题

输入变量与输出变量均为连续性变量的问题

分类问题

输出变量为有限个离散变量的问题

标注问题

输入变量与输出变量均为变量序列的预测问题（为输入数据的每个部分分配标签，输出是序列或结构化的标签集合。输出多个标签，如词性标注中的每个词的词性。）

无监督学习

无监督学习是机器学习的一种类型，其特点是在没有标签的数据中寻找隐藏的结构或模式。与有监督学习不同，无监督学习不依赖于预先标注的输出结果，而是通过分析输入数据的内部关系来进行学习。比如GAN

强化学习

强化学习（Reinforcement Learning, RL）是机器学习的一个分支，其核心思想是通过与环境的交互来学习策略，以最大化某种累积奖励。强化学习的特点在于智能体（Agent）在环境中通过试错来学习，而不是依赖于标注好的数据。

统计学习方法三要素：模型+策略+算法

贝叶斯学习

贝叶斯定理
贝叶斯定理是贝叶斯学习的基础，其公式为：
$P(θ∣D)= \frac{P(D∣θ)⋅P(θ)}{P(D)}$
其中：
θ：模型参数。
D：观测数据。
P(θ)：先验分布，表示在观测数据之前的参数分布。
P(D∣θ)：似然函数，表示在给定参数下观测数据的概率。
P(θ∣D)：后验分布，表示在观测数据后参数的更新分布。
P(D)：证据（边缘似然），用于归一化。
贝叶斯学习的核心思想
先验分布：在观测数据之前，对参数的初始假设（如参数可能服从某种分布）。
后验分布：结合观测数据后，对参数的更新认知。
贝叶斯推断：通过不断更新后验分布，逐步优化对参数的估计。
贝叶斯学习的步骤
选择先验分布：根据领域知识或假设，选择一个先验分布 P(θ)。
计算似然函数：基于观测数据 D，计算似然函数 P(D∣θ)。
计算后验分布：利用贝叶斯定理，计算后验分布 P(θ∣D)。
进行推断：基于后验分布，进行参数估计、预测或决策。

在贝叶斯定理中，似然函数（Likelihood Function）起着至关重要的作用。它是连接观测数据和模型参数的桥梁，用于量化在给定参数下观测数据的可能性。以下是似然函数的详细解释及其作用：

似然函数的定义
似然函数记作 P(D∣θ)，表示在模型参数θ 给定的情况下，观测数据D 出现的概率。
D：观测数据。
θ：模型参数。
似然函数的作用
（1）量化数据与参数的关系
似然函数衡量了在特定参数θ 下，观测数据D 的“可能性”。它反映了参数θ 对数据的解释能力。
如果P(D∣θ) 较大，说明参数θ 能够较好地解释数据D。
如果P(D∣θ) 较小，说明参数θ 不太可能生成数据 D。
（2）更新先验分布
在贝叶斯定理中，似然函数与先验分布P(θ) 结合，用于计算后验分布P(θ∣D)：
$P(θ∣D)=\frac{P(D∣θ)⋅P(θ)}{P(D)}$ 先验分布P(θ)：表示在观测数据之前的参数分布。
后验分布P(θ∣D)：表示在观测数据之后参数的更新分布。

似然函数的作用是将观测数据的信息融入到先验分布中，从而更新对参数的认知。

（3）参数估计
通过最大化似然函数，可以得到参数的最大似然估计（Maximum Likelihood Estimation, MLE）：
$\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} P(D \mid \theta)$
MLE 是频率学派中常用的参数估计方法，但在贝叶斯框架中，似然函数也被用于计算后验分布。

（4）模型比较
似然函数可以用于比较不同模型的拟合能力。通过比较不同模型的似然函数值，可以选择更合适的模型。

生成方法和判别方法异同

朴素贝叶斯法

对比维度	生成模型	判别模型
建模目标	学习数据的联合概率分布 $ P(X, Y)$，生成新数据样本。	学习条件概率分布 $P(Y\|X)$，直接预测输出。
方法	估计 $P(X, Y)$，常用方法：朴素贝叶斯、隐马尔可夫模型（HMM）、高斯混合模型（GMM）、生成对抗网络（GAN）等。	估计 $P(Y\|X)$，常用方法：逻辑回归、支持向量机（SVM）、决策树、神经网络等。
应用场景	数据生成、缺失数据填补、异常检测、文本生成、图像生成等。	分类、回归、目标检测、语音识别等预测任务。
优点	1. 能生成新数据。 2. 适合处理缺失数据。 3. 可以用于无监督学习。	1. 计算效率高。 2. 预测性能通常较好。 3. 更适合监督学习任务。
缺点	1. 计算复杂度高。 2. 对数据分布假设较强。 3. 预测性能可能不如判别模型。	1. 无法生成新数据。 2. 对数据分布假设较弱。 3. 需要大量标注数据。
示例	1. 朴素贝叶斯分类器：通过 $ P(X\|Y) $ 和$ P(Y)$ 计算$ P(Y\|X) $。2. GAN：生成逼真的图像数据。	1. 逻辑回归：直接估计$ P(Y\|X) $，用于分类。 2. SVM：用于分类和回归任务。
适用任务	生成任务（如文本生成、图像生成）、数据补全、异常检测、无监督学习。	预测任务（如分类、回归）、目标检测、语音识别等监督学习任务。
数据需求	需要完整的联合分布数据，可以用于无监督学习。	需要输入输出对的标注数据，适合监督学习。
计算复杂度	较高，因为需要建模整个数据分布。	较低，直接建模条件分布。
灵活性	对数据分布假设较强，灵活性较低。	对数据分布假设较弱，灵活性较高。

总结

生成模型：适合生成新数据、处理缺失数据或无监督学习任务，但计算复杂度高，对数据分布假设较强。
判别模型：适合预测任务，计算效率高，但无法生成新数据，需要大量标注数据。

朴素贝叶斯法和贝叶斯估计

朴素贝叶斯法是一种基于贝叶斯定理的分类算法，主要用于监督学习中的分类任务。它的核心思想是通过计算后验概率 P(Y∣X) 来预测类别标签Y。
贝叶斯估计是一种参数估计方法，用于推断未知参数的概率分布。它通过结合先验知识和观测数据来计算参数的后验分布。

贝叶斯定理

posted @ 2025-03-29 23:13 MurphyVan 阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

对比维度	生成模型	判别模型
建模目标	学习数据的联合概率分布 $ P(X, Y)$，生成新数据样本。	学习条件概率分布 \(P(Y\|X)\)，直接预测输出。
方法	估计 \(P(X, Y)\)，常用方法：朴素贝叶斯、隐马尔可夫模型（HMM）、高斯混合模型（GMM）、生成对抗网络（GAN）等。	估计 \(P(Y\|X)\)，常用方法：逻辑回归、支持向量机（SVM）、决策树、神经网络等。
应用场景	数据生成、缺失数据填补、异常检测、文本生成、图像生成等。	分类、回归、目标检测、语音识别等预测任务。
优点	1. 能生成新数据。 2. 适合处理缺失数据。 3. 可以用于无监督学习。	1. 计算效率高。 2. 预测性能通常较好。 3. 更适合监督学习任务。
缺点	1. 计算复杂度高。 2. 对数据分布假设较强。 3. 预测性能可能不如判别模型。	1. 无法生成新数据。 2. 对数据分布假设较弱。 3. 需要大量标注数据。
示例	1. 朴素贝叶斯分类器：通过 $ P(X\|Y) $ 和$ P(Y)$ 计算$ P(Y\|X) $。2. GAN：生成逼真的图像数据。	1. 逻辑回归：直接估计$ P(Y\|X) $，用于分类。 2. SVM：用于分类和回归任务。
适用任务	生成任务（如文本生成、图像生成）、数据补全、异常检测、无监督学习。	预测任务（如分类、回归）、目标检测、语音识别等监督学习任务。
数据需求	需要完整的联合分布数据，可以用于无监督学习。	需要输入输出对的标注数据，适合监督学习。
计算复杂度	较高，因为需要建模整个数据分布。	较低，直接建模条件分布。
灵活性	对数据分布假设较强，灵活性较低。	对数据分布假设较弱，灵活性较高。

MurphyVan