作业2

评估方法

留出法

数据集分成两部分,一部分训练,一部分拿来测试。

K 折交叉验证

数据集分成 K 部分,K-1 部分训练,一部分拿来测试。轮流进行 K 次。

留一验证

每次只取数据集中的一个样本做测试集,剩余的做训练集。
K 等于数据集数量的 K 折交叉验证

评价指标

基本概念

真阳性(TP),假阳性(FP),真阴性(TN),假阴性(FN)

准确度

\(Accuracy = \frac{TP+TN}{TN+FN+FP+TP}\)

精度

\(precision = \frac{TP}{FP+TP}\)

召回率

\(recall = \frac{TP}{FN+TP}\)

F-Score

\(F = \frac{(a^2+1)*precision*recall}{a^2*precision+recall}\)

分类器

MED 分类器

欧式距离,计算平均欧式距离,平均距离离得近的就是那一类。
缺点:没有考虑特征变化的不同及特征之间的相关性。

MICD 分类器

马式距离,计算平均马式距离,平均距离离得近的就是那一类。
缺点:会选择方差较大的类。

特征白化

特征转换分为两步:先去除特征之间的相关性(解耦),然后再对特征进行尺度变换(白化),使每维特征的方差相等。
解耦:去除相关性。
白化:方差一致。

贝叶斯规则

\(p(C_i|x)=\frac{p(x|C_i)p(C_i)}{p(x)}\)
\(p(Ci)\) 先验概率
\(p(x|Ci)\) 观测似然概率
\(p(x)=∑jp(x|cj)p(cj)\),所有类别样本x的边缘概率

MAP 分类器

利用后验概率作为度量标准,最大后验概率分类器

最大似然估计

给定的N个训练样本都是符合iid条件的,从 \(p(x|θ)\) 采样

线性判据

若判别模型 \(f(x)\) 是线性函数,则 \(f(x)\) 为线性判据,适合于二分类问题,决策边界为线性的,多分类问题下任意两类的决策边界也是线性。
优势是计算量少,适用于训练样本少的情况。

Fisher 判据

利用一些方法进行降维,然后尽量增大类间距离(类间散度),减小类内距离(类内散度)

支持向量机

选两类中距离决策边界最大的训练样本,使这两个向量距离尽可能大,来达到增大类间散度的目的。这两个向量被称作支持向量。

拉格朗日乘数法

求解条件下的最优解

posted @ 2020-05-05 23:54  纪华裕  阅读(211)  评论(0编辑  收藏  举报