数据挖掘导论(完整版)

一分类算法

　　KNN

　　　　

　　神经网络

　　　　

　　支持向量机

　　　　适用于高维数据

　　决策树

　　　　gini系数

　　　　熵系数

二聚类算法

　　K-均值

　　　　基于原型，划分类型

　　　　不适用密度差别大，形状差异大

　　DBSCAN

　　　　基于密度

三关联方法

　　apriori

　　　　剪枝

　　　　支持度

　　　　置信度

　　FR-growth

四组合方法

　　bagging

　　　　原理：有放回抽样，63%

　　　　random forest

　　

　　boosting

　　　　原理：迭代，修改权重

五数据预处理

　　缺失值

　　重复值

　　异常值 -- 离群点

　　特征提取（维归约） -- PCA

　　特征选择

　　离散化&二元化 -- 某些分类算法的要求

　　变量变换

　　　　标准化 -- 某些算法的要求，KNN

　　　　简单函数变化（log）

四变量特征

　　连续/离散

　　定量/定性

　　nominal 标称、ordinal 序数、internal 区间、 ratio 比率

posted @ 2020-06-10 13:09 骑者赶路阅读(1028) 评论(0) 收藏举报

刷新页面返回顶部