详述MCE

主要框架

discriminant function
misclassification measure
the associated loss
the updating method

下面的详解主要都是1-NN分类器的背景下讲述的

discriminant function

In the case of 1-NN classifier, the discriminant function of a class is the negative of the minimum distance from the input pattern to this class。

g k (x) = - min j d (x, m k j)

即给定了一个pattern x, 那么对第k个类而言，它的discriminant function 就是x到它的原型最短距离的负值

misclassification measure

由前面的discriminant function，定义对应的错分衡量函数，可以是

μ k (x) = - g k (x) + g r (x)

其中

gr(x)是误分类中最近类r的判别函数，

gk(x)是正分类k的判别函数
可以看

μk(x)=minjd(x,k)−minjd(x,r)，所以当正分时，

μ<0；否则

μ>0

the associated loss

MCE定义的loss function如下：

l k (x) = l k (μ k) = 1 1 + e - ξ μ k

如此，在给定一个training set后，这个training set的empirical average loss如下

L 0 = 1 N \sum n = 1 N \sum k = 1 M l k (x n) I (x n \in C k)

the updating method

为使empirical loss最小，这里使用了随机梯度下降法，即lk对mk和mr求偏导，下面给出求偏导后的结果：

使用随机梯度下降，是因为我们要训练的是每个类的prototype，在每给定一个sample，我们在这个sample下更新这个类的prototype，使最终的每个类的分类结果最佳

随机梯度下降的更新公式如下:

结合上面两处公式，得到最终的更新公式:

训练过程中，训练参数α会随时间变化。

总结

整个的discriminant learning using MCE的过程大概就是上面的过程。在实际使用时，涉及prototype的个数及初始化以及α的设置，这一部分挺麻烦的，在看论文过程中，提到了prototype的个数，好像为最优的是5，初始化的话是聚类中心。对于α(t)学习率的话，初始化为α(0)=A(√np)nx，nx为每类的样本数，并且每使用完一轮全部样本后，α(s+1)=0.95∗α(s)。而对于A的选择，则十分宽泛。
这是我对MCE的总结，有问题的地方，希望博友们能够指正。

来自为知笔记(Wiz)

posted @ 2015-09-18 15:13 MaiYatang 阅读(515) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

MaiYatang