书上都在说数据整理,开始数据整理到底该怎么做呢?
首先是问题的导向,
你的研究问题决定了你要整理的指标是什么,
指标数字化就是变量,你要确定这些变量的类型。
其次是方法的导向,
你的研究方法决定了你的变量和数据该是如何的对应起来整理,
符合某个条件的数据是否该分组,还是该独立编制为一个变量。
剩下的才是那些异常值的处理,
一般是对某个变量先排序,然后去掉首尾两端的不合逻辑的数据记录;
然后对其他的变量也做排序,同样去掉首尾两端的不合逻辑的数据。
然后是分组的考虑,不管是连续值的区间处理,分层处理,
还是分类型数据的分组group处理,最好不要各组频数的数量级差的太多。
因为差太多就会导致不稳定的结论,这样的结果可靠性太差,会砸牌子。
做变量来记录数据,实际上是一种广义的分组处理。
只要就可以寻找变量之间的关系或做分组之间的比较。
浙公网安备 33010602011771号