数据检查

数据清理:

①缺失值:

♦忽略观测值;

♦人工填写;

♦使用全局变量填写;

♦使用属性的中心度量;

♦单独作为一类;

②异常值识别:

♦简单的探索性分析(频数<10%,或在M±3sgm);

♦不符合特定函数形式的模型;

♦聚类算法中只包含较小数量的观测值的群;

♦箱式图;

③无效值

④数据的重复值

posted @ 2019-12-30 11:04  虾米WD  阅读(106)  评论(0)    收藏  举报