数据挖掘导论(部分)

  • 数据挖掘任务:聚类分析,关联分析,预测建模,异常检测
  • 预测建模:
    • 分类:预测离散变量
    • 回归:预测连续变量
  • 关联分析:旨在发现紧密相关的观测值群组

属性类型

  • nominal标量 :标称值提供足够信息区分对象

  • ordinal序数:序数性质提供信息确定对象序

  • internal区间:值之间差有意义

  • ratio比率:差和比率都有意义

  • 非对称属性:非0值属性才是有效的

  • 数据集一般特性:维度、稀疏性、分辨率

数据预处理

  • 聚集

聚集归约数据,范围和标度转换,会丢失部分细节

  • 维归约:创建新属性合并旧属性,或者选择旧属性子集(特征选择)

  • 维灾难:维数增加,数据稀疏,分类准确率下降

  • 主成分分析PCA(principal components analysis):原属性线性组合成新属性

  • 奇异值分解(SVM)维归约

  • 特征子集选择:去除冗余属性

  • 特征子集产生的评估结果至少要与全部特征评估结果一样,甚至更好

  • 特征加权:重要属性权值高

特征提取

  • 由原始数据特征创建新特征

相似度

  • 欧里几德距离:维度差平方和后开方
  • 闽科夫斯基距离:维度差n次方和后开n次方

二元数据相似性

简单相似系数
jaccard系数

  • 余弦相似度
    余弦相似度

  • 广义jaccard系数
    广义jacard系数和相关度

  • 不纯度分析
    不存度分析
    信息增益
    悲观误差估计:增加节点数罚项

  • ID3

  • C4.5:任一节点二元划分

  • CART:增益率划分

决策树特点

1.不要求任何先验假设,即不假定分类和属性服从一定概率分布
2.决策树代价小,未知样本分类快,时间复杂度取决于树的最大深度
3.决策树容易解释,简单数据集准确率也比较高
4.决策树对噪声的鲁棒性比较好
5.冗余属性不会对准确率造成影响
6.当数据节点记录数小于阈值又不纯净属于一类时,形成数据碎片,需要停止分裂
7.子树在决策树中可能重复
8.斜决策树允许决策涉及多个属性
9.构造归纳:由已有属性的算罗运算构造复合属性
10.不纯度度量方法对决策树性能影响比较小,剪枝影响比较大

决策树过拟合处理

  • 先剪枝:不纯度增益低于阈值时停止扩展叶节点
  • 后剪枝:新的叶节点替换子树,或者子树的主要分支替换子树

规则分类

规则集特点:

  • 互斥:一条记录只能激发一条规则
  • 穷举:规则集必须覆盖所有记录
  • 有序:根据优先级排序
  • 无序:多条规则触发投票

规则提取

  • 规则提取的直接方法:顺序覆盖
    顺序覆盖

规则增长策略:

  • 一般到特殊:增加属性,直到增加属性不能提高规则正确性
  • 特殊到一般:减少属性,泛化规则,开始覆盖反例停止

规则评估

图片标题
图片标题

RIPPER算法

  • 复杂度随样例线性增长,适合分布不平衡
  • 两类问题,以多数类为默认类,学习少数类规则,多类问题从不频繁类到频繁类学习
  • 一般到特殊增加属性,覆盖反例时停止
  • 从最后增加的属性逆向剪枝,当剪枝后p-n/p+n增加则剪枝,(p和n为确认集中正例和反例数)
  • 规则覆盖的正例和反例都去除

规则提取的间接方法

  • 决策树生成规则:根节点到叶节点的路径即为规则
  • 删除属性进行剪枝,直到悲观误差不再改进

最近邻

  • 消极分类,分类开销大
  • 最近领基于局部信息,对噪声敏感
  • 临近性度量和数据预处理很重要,否则很可能做出错误预测
    装袋
    adaboost
    图片标题
    不平衡度量
  • F1度量: 1/(1/p + 1/r)
  • ROC曲线(receiver operating characteristic)

真正率TPR沿y轴绘制,假正率FPR沿x轴绘制

关联规则

事务的宽度:事务中项的个数
项集支持度计数:
项集支持度
关联规则

  • 关联规则任务分解
    • 频繁项集产生
    • 规则产生

频繁集项产生

  • 先验原理:一个项集频繁,其子项集一定频繁
  • 支持度剪枝:项集非频繁,则项集与其超集均不频繁,均可剪枝

Apriori算法频繁集项生成

频繁集项生成

  • fk-1 * f1 生成, 易产生重复频繁项
  • fk-1 * fk-1生成,前k-2项必须一样,且为频繁项集

基于k-1频繁项集生成k项频繁项集,基于支持度剪枝

置信度定理:
置信度剪枝

规则的产生

规则产生

极大频繁项集:直接超集都不是频繁的
极大频繁项集可以推导出所有频繁集项的最小的项集的集合
闭频繁项集:直接超集都不具有和它相同支持度计数的频繁项集

聚类

k均值

  • 二分k均值
    二分k均值

簇最小化SSE的最佳质心是簇中各点均值

凝聚层次聚类(基于相似度)

凝聚层次

  • 单链:簇中任意两点距离最小值最为临近度,按距离连接,对异常点敏感
  • 全链:簇中任意两点距离最大值最为临近度
  • 组平均:簇中任意点对距离平均值做为临近度
  • Ward方法:两簇合并时导致的平方误差增量作为临近度

层次聚类问题
1、局部最优合并
2、不同大小簇的处理:
加权:平等对待所有簇
不加权:考虑每个簇的节点数
3、合并不可逆转,代价高

DBSCAN(基于密度聚类)

点分类
图片标题

posted @ 2017-04-08 20:04  zeroArn  阅读(595)  评论(0)    收藏  举报