详述MCE

主要框架

  • discriminant function
  • misclassification measure
  • the associated loss
  • the updating method

下面的详解主要都是1-NN分类器的背景下讲述的


discriminant function

In the case of 1-NN classifier, the discriminant function of a class is the negative of the minimum distance from the input pattern to this class。

gk(x)=minjd(x,mkj)
即给定了一个pattern x, 那么对第k个类而言,它的discriminant function 就是x到它的原型最短距离的负值

misclassification measure

由前面的discriminant function,定义对应的错分衡量函数,可以是

μk(x)=gk(x)+gr(x)
其中gr(x)是误分类中最近类r的判别函数,gk(x)是正分类k的判别函数
可以看μk(x)=minjd(x,k)minjd(x,r),所以当正分时,μ<0;否则μ>0

the associated loss

MCE定义的loss function如下:

lk(x)=lk(μk)=11+eξμk

如此,在给定一个training set后,这个training set的empirical average loss如下
L0=1Nn=1Nk=1Mlk(xn)I(xnCk)

the updating method

为使empirical loss最小,这里使用了随机梯度下降法,即lkmkmr求偏导,下面给出求偏导后的结果:

使用随机梯度下降,是因为我们要训练的是每个类的prototype,在每给定一个sample,我们在这个sample下更新这个类的prototype,使最终的每个类的分类结果最佳

随机梯度下降的更新公式如下:

结合上面两处公式,得到最终的更新公式:

训练过程中,训练参数α会随时间变化。

总结

整个的discriminant learning using MCE的过程大概就是上面的过程。在实际使用时,涉及prototype的个数及初始化以及α的设置,这一部分挺麻烦的,在看论文过程中,提到了prototype的个数,好像为最优的是5,初始化的话是聚类中心。对于α(t)学习率的话,初始化为α(0)=A(np)nxnx为每类的样本数,并且每使用完一轮全部样本后,α(s+1)=0.95α(s)。而对于A的选择,则十分宽泛。
这是我对MCE的总结,有问题的地方,希望博友们能够指正。





posted @ 2015-09-18 15:13  MaiYatang  阅读(515)  评论(0编辑  收藏  举报