数据挖掘导论(完整版)

一 分类算法

  KNN

    

  神经网络

    

  支持向量机

    适用于高维数据

  决策树

    gini系数

    熵系数

 

二 聚类算法

  K-均值

    基于原型,划分类型

    不适用密度差别大,形状差异大

  DBSCAN

    基于密度

 

三 关联方法

  apriori

    剪枝

    支持度

    置信度

  FR-growth

四 组合方法

  bagging

    原理:有放回抽样,63%

    random forest

  

  boosting

    原理:迭代,修改权重

 

五 数据预处理

  缺失值

  重复值

  异常值 -- 离群点

 

  特征提取(维归约)  -- PCA

  特征选择

  离散化&二元化  -- 某些分类算法的要求

 

  变量变换

    标准化 -- 某些算法的要求,KNN 

    简单函数变化(log)

 

四 变量特征

  连续/离散

  定量/定性

  nominal 标称、ordinal  序数、internal 区间 、 ratio 比率

 

posted @ 2020-06-10 13:09  骑者赶路  阅读(936)  评论(0编辑  收藏  举报