特征工程 - 热卡填充
一、基本介绍
Hot/Cold Deck imputation
卡填充分两种:
热卡填充:在完整数据中找到一个与它最相似的样本,用这个样本来填充当前缺失的属性值。
冷卡填充:通过其他数据集找到能填充缺失部分的值。如:去年同季度的数据,填补本年同季度的缺失值。或不同机构对统一问题的调查数据。
主要讲解热卡填充。
当使用距离进行相似判断时,可以看做是KNN的一种特殊情况,KNN是参考的是K个,而热卡填充参考的是最近的1个,所以热卡填充可以用KNN做。
根据问题,选用不同的标准来对相似进行判定。缺点在于难以定义相似标准,找到相似样本,选择标准时的主观因素较多。
二、基本概念
本文剩下内容均围绕参考论文展开。
参考论文 → 《A Review of Hot Deck Imputation for Survey Non-response》
中文释义不一定准确
- Non-response 数据中的无响应样本,表示该样本的属性含有缺失值。
- Response 数据中的有响应样本,表示该样本的属性不含缺失值。
- donor 捐赠者,作为填充的样本。
- recipient 接受者,被填充的样本。
-
Donor pools、imputation classes、adjustment cells
这三个词指代同一个东西,捐赠者池。可以理解成,是由一组可用的捐赠者组成的集合。
热卡填充的三个优点:
1、最大限度的减少主观因素,避免可能发生的跨用户不一致性。
(个人理解:对于二级数据分析师而言,填补缺失值时的主观因素很多,而热卡填充可以提供一个稳定的完整数据集,作为填充时的标准。
2、不像回归类方法进行填充,热卡对填充模型的参数不敏感。
3、插值都是来自捐赠者或捐赠者池,所以都是合理的。
两种类型的热卡方法
- deterministic hot deck methods
捐赠者是从捐赠者池中随机选择的。
- random hot deck methods
识别单个捐赠者并从中识别估算值,通常是基于某种度量标准的“最近邻居”。
其他的热卡填充方法,类似如:估算一组捐赠者的价值平均值作为插补,尽管和上面两种有些共同的特性,论文中并不认为这些方法是热卡填充方法。
个人观点:这种情况就类似KNN了,认同论文中的观点。
本文章不进行MCAR、MAR和MNAR对热卡填充的影响讨论。(论文里有部分涉及)
但在一般情况下,MCAR的效果最好,其次是MAR。
三、捐赠者池
需要插值的单个变量称为Y,用于识别的covariate 称为X。
这里只考虑一个样本只有一个变量含有缺失值。
捐赠者池的构建,是由捐赠者和接受者组成。
3.1 Adjustment Cell Methods
为了创建Adjustment Cells,需要对连续变量进行分类。然后,通过在每个单元内随机选择一个捐赠者,对每个非响应者进行插补。
用于创建调整单元的变量的两个关键属性是:
(1)它是否与缺失变量 Y 相关联
(2)它是否与指示 Y 是否缺失的二元变量相关联
到底是什么意思?什么概念?举个例子:
现在我们研究三个国家的收入问题,收入存在缺失值需要填充,所以把收入视作Y,剩下的变量如下:
cell个数 变量名 分类
2 性别 男\女
4 教育水平 高\本\硕\博
5 年龄 0-18\18-25\25-30\30-40\40-
3 地区 美\中\日
2 性取向 直\弯
3 专业 理\工\文
年龄的原数据是属于连续型的变量,既某个具体的值,而不是范围,所以创建Adjustment Cells 之前,对年龄进行分类,此处举例按区间划分。
而最终创建的Adjustment Cells 一共有360个,是排除掉性取向,然后其他变量的cell 个数相乘。因为性取向和收入无关。每个单元里同时包含完整数据和不完整数据,既不含有缺失值的样本和含有缺失值的样本。使用该单元中的随机一个完整数据,对不完整数据进行对应填充即可。
举个例子:其中一个单元是: 女\硕\25-30\中\文
在这个单元中,样本又分为收入是缺失的和不是缺失的。选择一个含缺失值的样本,然后从不含缺失值的样本中随机选择一个,收入值复制粘贴即可。如此反复,直至不再有含缺失值的样本。
3.2 Metrics for Matching Donors to Recipients
$d(i, j)$表示某种距离度量。
一旦选择了度量标准,就有几种方法可以为每个接受者定义一组捐赠者:
(1)非应答者j的捐赠集定义为具有$d(i, j) \lt \delta$的应答者i的集合,用于预先指定的最大距离$\delta$。然后从捐赠者池的有响应者中随机抽取一个捐赠者。
(2)如果选择了最接近j的应答者,则该方法称为确定性或最近邻热卡。
(3)所有应答者都有资格成为捐赠者,但随机选择捐赠者的概率与他们与接受者的距离成反比,这被定义为预测均值差异的单调函数。
四、其他
论文后面还讲到,对缺失值进行一定权重的填补,多变量缺失的情况,以及和缺失机制相关的统计分析。
因为个人需求不足,所以后面不再梳理。

浙公网安备 33010602011771号