Arndata
数据质量依赖数据清洗的工作,数据结果依赖数据算法的效能。

导航

 

书上都在说数据整理,开始数据整理到底该怎么做呢?

 

首先是问题的导向,

你的研究问题决定了你要整理的指标是什么,

指标数字化就是变量,你要确定这些变量的类型。

 

其次是方法的导向,

你的研究方法决定了你的变量和数据该是如何的对应起来整理,

符合某个条件的数据是否该分组,还是该独立编制为一个变量。

 

剩下的才是那些异常值的处理,

一般是对某个变量先排序,然后去掉首尾两端的不合逻辑的数据记录;

然后对其他的变量也做排序,同样去掉首尾两端的不合逻辑的数据。

 

然后是分组的考虑,不管是连续值的区间处理,分层处理,

还是分类型数据的分组group处理,最好不要各组频数的数量级差的太多。

因为差太多就会导致不稳定的结论,这样的结果可靠性太差,会砸牌子。

 

做变量来记录数据,实际上是一种广义的分组处理。

只要就可以寻找变量之间的关系或做分组之间的比较。

posted on 2012-05-13 23:16  Arndata  阅读(406)  评论(0)    收藏  举报