Error measure

Noise

在x和y都可能有noise

对于没有noise的情况，x~P(x), f(x)=h(x)，但是如果现在有noise，x~P(x), y~P(y|x)（y是真正的label，只是一定概率上会变，因为有noise，这个概率是P(y|x)）

联合起来，就有(x,y)~P(x,y) i.i.d.

P(y|x)： target distribution

如果P(＋1|x)＝0.7，P(－1|x)＝0.3，那么有

理想的mini-target f(x)=+1，noise level＝0.3

对于deterministic target f: a special case of target distribution where P(y|x)=1 for y=f(x) and P(y|x)=0 for y not = f(x)

衡量Error的方法：

Pointwise Error Measure(对于每一个x去求err)

用ỹ表达g(x)。pointwise error measure有两种方法

ideal mini-target f(x)是通过target distribution P(y|x)和err共同决定的。

e.g：

对于target distribution如上给定，如果error measure用0/1来表示，mini-target就是选择target distribution最大的那个，如果是squared error，mini-target就是target distribution的加权平均值。一种Error Measure

e.g.

以指纹识别为例子，当你有权限操作一台计算机的时候，系统却把你的指纹错误的认为没有权限，这种情况是false reject，当其他没有权限的人去操作电脑的时候，系统却错误的认为该人有权限，这种情况是false accept.这两种都属于error，如果是0/1 error的话，这两种情况是等价的。

但是往往现实不是这样，有的时候希望系统对false reject的惩罚会更大，比如超市错误的拒绝了一个拥有权限的客户，此时超市可能会失去这个客户。这个时候false reject 应该更大。又或者，如果此时有人要入侵电脑，他的指纹被判断成可以接受了，这种情况可能会造成资料的泄漏，此时希望系统对false accept惩罚的更大。

因此可以看出，和之前的0/1 error，把错误全部等价啊看待。

但是，往往，我们并不知道应该怎样设计error，比如超市并不知道怎样惩罚系统误判了正确的客户。因此，这里引入algorithmic Error Measures: err “hat" 既然err有权重了，那么计算Ein和Eout也要考虑权重了，

对于y=-1而h错误的predict成了+1的情况，就是false accept的时候，要变成1000.

通过PLA，可以对Ein最小化，因为加上了权重，所以这里的Ein加上了一个w表示。另外也可以通过pocket algorithm去minimize Ein^w，但是在pocket algorithm过程中每次的循环都要检测当前的Ein和新产生的h带来的Ein哪个大，这里用的Ein应该是用Ein^w。

现在的问题是怎样将原来的Ein，也就是用0/1 error计算的Ein，与新的带权重的Ein^w联系在一起呢？

解决方法：把y=-1，但是错误的认为成＋1的点，复制1000倍。这样用原来的不带权重的Ein就可以产生带权重的Ein对original data一样的效果了。

但是如果真的去复制1000倍的话，耗时耗资源，此时使用virtual copying的办法。既然在false accept的点上需要有1000倍的重视程度，那么干脆在pocket algorithm随机选择点做correction的时候，把选到这些点的概率提高1000倍就好了。

posted on 2015-07-17 00:32 CaseyZ 阅读(251) 评论(0) 收藏举报

刷新页面返回顶部

Casey

Error measure

公告

导航

__Casey__

Error measure

公告

导航

Casey