长尾数据

引述

长尾数据分布问题即少数类占大部分数据,而大多数类的代表性不强、数据量不足。

针对该问题:

  1. 重采样   过采样增加了来自小类别的重复样本,可能导致模型过拟合。为解决这个问题,可以从相邻的样本中插入新的样本,或者对辅类合成新的样本。然而,由于新样本中的噪声,模型仍然容易出错。(简单的数据扩增会引入噪声)
  2. 每个Batch对不同类样本设置选取比例,保证在一个Batch里数据相对均衡(可能并不适用于过少数据的类)。

开放长尾识别OLTR

  例子:生态学家拍摄野生动物照片,识别动物的种类。对于珍惜物种,问题是无法采用收集更多数据的做法。由于这些生态学家可能要花相当长的时间,才会在野外拍到他们计划拍摄的珍稀动物,他们甚至必须等几年才能拍到一张照片。如此同时,新的动物物种不断出现,旧的物种同时正在消失。在这样一个动态变化的系统之内,类别的总数永远无法固定。而且,从动物保护的意义上说,识别新发现的稀有动物比识别数量还很多的动物更有价值。
https://blog.csdn.net/pingguolou/article/details/107125251

posted @ 2021-09-03 16:56  发呆的e  阅读(554)  评论(0)    收藏  举报