特征工程 - 热卡填充

一、基本介绍

  Hot/Cold Deck imputation

  卡填充分两种:

  热卡填充:在完整数据中找到一个与它最相似的样本,用这个样本来填充当前缺失的属性值。

  冷卡填充:通过其他数据集找到能填充缺失部分的值。如:去年同季度的数据,填补本年同季度的缺失值。或不同机构对统一问题的调查数据。

 

  主要讲解热卡填充。

  当使用距离进行相似判断时,可以看做是KNN的一种特殊情况,KNN是参考的是K个,而热卡填充参考的是最近的1个,所以热卡填充可以用KNN做。   

 

  根据问题,选用不同的标准来对相似进行判定。缺点在于难以定义相似标准,找到相似样本,选择标准时的主观因素较多。

 

二、基本概念

  本文剩下内容均围绕参考论文展开。

  参考论文 → 《A Review of Hot Deck Imputation for Survey Non-response》

  中文释义不一定准确

  • Non-response  数据中的无响应样本,表示该样本的属性含有缺失值。
  • Response  数据中的有响应样本,表示该样本的属性不含缺失值。
  • donor  捐赠者,作为填充的样本。
  • recipient  接受者,被填充的样本。
  • Donor pools、imputation classes、adjustment cells

    这三个词指代同一个东西,捐赠者池。可以理解成,是由一组可用的捐赠者组成的集合。

     

    热卡填充的三个优点:

    1、最大限度的减少主观因素,避免可能发生的跨用户不一致性。

    (个人理解:对于二级数据分析师而言,填补缺失值时的主观因素很多,而热卡填充可以提供一个稳定的完整数据集,作为填充时的标准。

    2、不像回归类方法进行填充,热卡对填充模型的参数不敏感。

    3、插值都是来自捐赠者或捐赠者池,所以都是合理的。

     

    两种类型的热卡方法

  • deterministic hot deck methods 

    捐赠者是从捐赠者池中随机选择的。

  • random hot deck methods

    识别单个捐赠者并从中识别估算值,通常是基于某种度量标准的“最近邻居”。

 

  其他的热卡填充方法,类似如:估算一组捐赠者的价值平均值作为插补,尽管和上面两种有些共同的特性,论文中并不认为这些方法是热卡填充方法。

  个人观点:这种情况就类似KNN了,认同论文中的观点。

 

  本文章不进行MCAR、MAR和MNAR对热卡填充的影响讨论。(论文里有部分涉及)

  但在一般情况下,MCAR的效果最好,其次是MAR。    

 

三、捐赠者池

  需要插值的单个变量称为Y,用于识别的covariate 称为X。

  这里只考虑一个样本只有一个变量含有缺失值。

  捐赠者池的构建,是由捐赠者和接受者组成。

3.1 Adjustment Cell Methods

  为了创建Adjustment Cells,需要对连续变量进行分类。然后,通过在每个单元内随机选择一个捐赠者,对每个非响应者进行插补。

  用于创建调整单元的变量的两个关键属性是:

  (1)它是否与缺失变量 Y 相关联

  (2)它是否与指示 Y 是否缺失的二元变量相关联

 

  到底是什么意思?什么概念?举个例子: 

  现在我们研究三个国家的收入问题,收入存在缺失值需要填充,所以把收入视作Y,剩下的变量如下:

    cell个数  变量名    分类  

      2    性别    男\女

      4  教育水平   高\本\硕\博

      5    年龄  0-18\18-25\25-30\30-40\40-

      3    地区     美\中\日

      2      性取向     直\弯

      3      专业   理\工\文

 

  年龄的原数据是属于连续型的变量,既某个具体的值,而不是范围,所以创建Adjustment Cells 之前,对年龄进行分类,此处举例按区间划分。

  而最终创建的Adjustment Cells 一共有360个,是排除掉性取向,然后其他变量的cell 个数相乘。因为性取向和收入无关。每个单元里同时包含完整数据和不完整数据,既不含有缺失值的样本和含有缺失值的样本。使用该单元中的随机一个完整数据,对不完整数据进行对应填充即可。

  举个例子:其中一个单元是: 女\硕\25-30\中\文

  在这个单元中,样本又分为收入是缺失的和不是缺失的。选择一个含缺失值的样本,然后从不含缺失值的样本中随机选择一个,收入值复制粘贴即可。如此反复,直至不再有含缺失值的样本。

 

3.2 Metrics for Matching Donors to Recipients

  $d(i, j)$表示某种距离度量。

  一旦选择了度量标准,就有几种方法可以为每个接受者定义一组捐赠者:

  (1)非应答者j的捐赠集定义为具有$d(i, j) \lt \delta$的应答者i的集合,用于预先指定的最大距离$\delta$。然后从捐赠者池的有响应者中随机抽取一个捐赠者。

  (2)如果选择了最接近j的应答者,则该方法称为确定性或最近邻热卡。

  (3)所有应答者都有资格成为捐赠者,但随机选择捐赠者的概率与他们与接受者的距离成反比,这被定义为预测均值差异的单调函数。

  

四、其他

  论文后面还讲到,对缺失值进行一定权重的填补,多变量缺失的情况,以及和缺失机制相关的统计分析。

  因为个人需求不足,所以后面不再梳理。

 

 


 

posted @ 2023-12-18 23:12  paramotor  阅读(631)  评论(0)    收藏  举报