Tinghua Data Mining 2
数据预处理
https://www.bilibili.com/video/av23933161/?p=11
http://www.xuetangx.com/courses/course-v1:TsinghuaX+80240372X+2018_T1/about
Outline

最后2个:特征选择 PC 特征提取 LDA

NA:不适用 比如学生 每个月工资

Outliers离群点
离群点对最小二乘影响很大
Anomly 异常点
离群点不一定就是异常的 姚明不一定有巨人症 只是outlier




数据描述与可视化

前面在0 1 之间
高斯分布 偏离了均值多少 可能大于1


A代表身高 B代表体重








文献引用

社交关系可视化

浙公网安备 33010602011771号