《别让数据坑了你！用置信学习找出错误标注》作者：JayLou娄杰。置信学习/带噪学习

原文链接：https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw
论文链接：https://arxiv.org/abs/1911.00068
带噪学习：https://github.com/subeeshvasu/Awesome-Learning-with-Label-Noise
开源工具：https://github.com/cgnorthcutt/cleanlab

错误标注很普遍，如下图所示，QuickDraw、MNIST和Amazon Reviews数据集中就存在错误标注。

置信学习三个步骤：

Count：估计噪声标签和真实标签的联合分布；
Clean：找出并过滤掉错误样本；
Re-Training：过滤错误样本后，重新调整样本类别权重，重新训练；

Count包括四步骤：

交叉验证
- 得到n个样本，m个类别的n*m的矩阵
- 统计每个人工标定类别j的平均概率tj作为置信度阈值
- 计算每个样本真实类别，最大概率pij且pij大于tj
计算计数矩阵（类似混淆矩阵）
标定计数矩阵，让计数矩阵的总和与数据总量相同
估计噪声标签和真实标签的联合分布，也就是将计数矩阵归一化得到Q

Clean有4种方法：

过滤最大pij和人工标记不一致的数据；
过滤计数矩阵中非对角单元的样本；
对于类别c，选取n*p个样本过滤，其中p是联合分布矩阵中除Q(c,c)之外的概率和；
对于计数矩阵非对角单元，选取n*p个样本过滤，p是联合分布矩阵中计数矩阵的单元对应的概率；

Re-Training

根据Q修正loss权重
采取Co-Teaching框架

本方法和置信学习中的SOTA方法Mentornet相比，噪声数据占比40%时，多组实验平均提升34%。

posted @ 2020-07-05 11:25 ZH奶酪阅读(2406) 评论(0) 收藏举报

刷新页面返回顶部