Loading

统计学习方法 1 绪论

统计学习的三要素

模型

输出的模型有两类,决策函数或条件概率分布

决策函数,表示属于哪一个类别

\[F = \{f|Y=f_{\theta}(X),\theta \in R^{n}\} \]

条件概率分布,表示分布空间

\[F = \{P|P_{\theta}(Y|X),\theta \in R^{n}\} \]

策略

损失函数

image

求极值的策略

经验风险最小化

image

结构风险最小化

image

添加正则项以防止过拟合,正则项可用于约束模型参数大小或者值的个数,调整模型结构,减少复杂度

算法

挑选一个合适的算法, 使得可以求解最优模型

训练集,验证集,测试集

数据集 随机划分为 以下3部 分,

  • 训练集:模型的训练 train
  • 测试集:模型的选择 dev
  • 验证集:模型的评估 test
轮次 train dev
0 30 25
1 50 51
2 70 75
3 90 60
4 95 43

由验证集知,训练三次之后出现过拟合的趋势,所以选择第三次作为结果放入验证集中评估

泛化能力

泛化误差上界

对于二分类问题,当假设空间是 有限个函数的集合𝐹 = 𝑓1, 𝑓2, ⋯ , 𝑓𝑑 时,对任意一个函 数𝑓 ∈ 𝐹,至少以概率1 − 𝛿,以 下不等式成立:

\[R(f)\leq \hat{R}(f) + \epsilon(d,N,\delta) \]

其中\(R(f)\)是泛化误差(期望风险),含义为\(E[L(Y,f(x))]\),为损失函数的期望

\(\hat{R}(f)\)是经验误差(经验风险),指测试集中误差的平均值

image

推导很麻烦,关键是记住结论:

  • 经验风险越小,期望风险越小

  • 数据集越大,经验风险越小(观察\(\epsilon\)项)

生成式模型与判别式模型

生成方法

模型表示了给定输入X后产生输出Y的生成关系,包括贝叶斯和马尔可夫模型

\[P(Y|X)= \frac{P(X,Y)}{P(X)} \]

判别方法

直接学习决策函数或概率分布密度

\(f(X)\)\(P(y|x)\)

异同

对于生成式模型和判别式模型,有一个比喻,对于一个人的名字,生成式模型是生成其父母直接问其父母,判别式是判断他叫不同名字的概率

分类问题

  • TP—将正类预测为正类数;

  • FN—将正类预测为负类数;

  • FP—将负类预测为正类数;

  • TN—将负类预测为负类数。

T\F表示原本为正/负类

P\N表示预测的结果是正/负类

精确率: 预测为正类的样本中有多少被分对了

\[P=\frac{TP}{TP+FP} \]

召回率:在实际正类中,有多少正类被模型发现了

\[R=\frac{TP}{TP+FN} \]

F1值:

\[\frac{2}{F} = \frac{1}{P}+\frac{1}{R} \]

\[F_1 = \frac{2TP}{2TP+FP+FN} \]

极大似然估计

当一系列事实给定后,我们可以通过已经得知的事 情发生情况去反推隐含的参数,使得在使用这些参 数的情况下,事情按事实发生的概率最大

对于\(p(X|\theta)\)如果\(\theta\)确定,\(X\)不确定,为概率函数,反之,为似然函数

image

若要使参数成立,则应使参数产生样本结果的概率最高,此时X(i)为已知量

image

image

posted @ 2021-09-19 21:03  笑云博文  阅读(68)  评论(0)    收藏  举报