Arndata
数据质量依赖数据清洗的工作,数据结果依赖数据算法的效能。

导航

 

2012年5月13日

摘要: 书上都在说数据整理,开始数据整理到底该怎么做呢?首先是问题的导向,你的研究问题决定了你要整理的指标是什么,指标数字化就是变量,你要确定这些变量的类型。其次是方法的导向,你的研究方法决定了你的变量和数据该是如何的对应起来整理,符合某个条件的数据是否该分组,还是该独立编制为一个变量。剩下的才是那些异常值的处理,一般是对某个变量先排序,然后去掉首尾两端的不合逻辑的数据记录;然后对其他的变量也做排序,同样去掉首尾两端的不合逻辑的数据。然后是分组的考虑,不管是连续值的区间处理,分层处理,还是分类型数据的分组group处理,最好不要各组频数的数量级差的太多。因为差太多就会导致不稳定的结论,这样的结果可靠性 阅读全文
posted @ 2012-05-13 23:16 Arndata 阅读(406) 评论(0) 推荐(0)