数据清理:
①缺失值:
♦忽略观测值;
♦人工填写;
♦使用全局变量填写;
♦使用属性的中心度量;
♦单独作为一类;
②异常值识别:
♦简单的探索性分析(频数<10%,或在M±3sgm);
♦不符合特定函数形式的模型;
♦聚类算法中只包含较小数量的观测值的群;
♦箱式图;
③无效值
④数据的重复值