数据挖掘算法学习
预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间
预测和分类的异同
相同点
两者都需要构建模型
都用模型来评估未知值
.预测当中主要的评估方法是回归分析
..线性回归和多元回归
..非线性回归
不同点
分类法主要是用来预测类标号(分类属性值)
预测法主要是用来估计连续值(量化属性值)
线性回归:Y = α + βX
其中αβ是回归系数,可以根据给定的数据点,通过最小二乘法来求得
多元回归:Y = α + β1X1 + β2X2
线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的α,β1和β2
非线性回归
对不是呈线性依赖的数据建模
使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解。
评估分类法的准确性
导出分类法后,再使用训练数据评估分类法,可能错误的导致乐观的估计
保持方法
给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3)
训练集导出分类法,测试集对其准确性进行评估
随机子选择:保持方法的一个变形,将保持方法重复K次,然后去准确率的平均值
k-折交叉确认
初始数据被划分为k个不相交的,大小大致相同的子集S1,S2...Sk
进行k次训练和测试,第1次时,以S1做测试集,其他做训练集
准确率为k次迭代正确分类数除以初始数据集样本总数
提高分类法的准确性
bagging技术和boosting技术都通过将t个学习得到的分类法c1,c2...ct组合起来,创造一个改进的分类法C*
bagging技术
对训练集S进行T次迭代,每次通过放回取样选取样本集St,通过学习St得到分类法Ct
对于未知样本X,每个分类法返回其类预测,作为一票
C*统计得票,并将得票最高的预测赋予X
boosting技术
每个训练样本赋予一个权值
Ct的权值取决于其错误率
什么是聚类
簇:一个数据对象的集合
在同一个类中,对象之间具有相似性
不同类的对象之间是相异的
聚类分析
把一个给定的数据对象集合分成不同的簇
聚类是一种无监督分类法:没有预先指定的类别。
典型的应用
作为一个独立的分析工具,用于了解数据的分布
作为其他算法的一个数据预处理步骤
聚类的常规应用
模式识别
空间数据分析
.在GIS中,通过聚类发现特征空间来建立主题索引
.在空间数据挖掘中,检测并解释空间中的簇
图像处理
经济学(尤其是市场研究方面)
WWW
.文档分类
.分析web日志数据来发现相似的访问模式
应用聚类分析的例子
市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识开展一个目标明确的市场计划。
土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区。
保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户。
城市规划:根据类型、价格、地理位置等来划分不同类型的住宅。
地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类。
聚类方法性能评价
一个好的聚类方法要能产生高质量的聚类结果-簇,这些簇要具备以下两个特点
.高的簇内相似性
.低的簇内相似性
聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现。
聚类方法的好坏还取决于该方法是能发现某些还是所有的隐含模式。
可伸缩性
能够处理不同类型的属性
能发现任意形状的簇
在决定输入参数的时候,尽量不需要特定的领域知识
能够处理噪声和异常
对输入数据对象的顺序不敏感
能处理高维数据
能产生一个好的、能满足用户指定约束的聚类结果
结果是可解释的、可理解的和可用的
评价聚类质量
差异度/相似度矩阵:相似度通常用距离函数来表示
有一个单独的质量评估函数来评判一个簇的好坏
对不同类型的变量,距离函数的定义通常是不同的,这在下面有详细讨论
根据实际的应用和数据的语义,在计算距离的时候,不同的变量有不同的权值相联系
很难定义“足够相似了”或者“足够好了”
.只能凭主观确定
聚类分析中的数据类型
区间标度变量
二元变量
标称型,序数型和比例型变量
混合类型变量
区间标度变量
数据标准化
.绝对偏差的平均值
.标准度量值
使用绝对偏差的平均值比使用标准偏差更健壮
计算对象之间的相异度
通常使用距离来衡量两个对象之间的相异度
常用的距离度量方法有
.明考斯基距离
.曼哈坦距离
.欧几里得距离
可以根据每个变量的重要性赋予一个权重
序数型变量
一个序数型变量可以是离散的也可以是连续的
.离散的序数型变量类似于标称变量,除了它的M各状态是以有意义的序列排序的,比如职称
.连续的序数型变量类似于区间标度变量,但是它没有单位,值得相对顺序是必要的,而其实际大小并不重要
相异度的计算
与区间标度变量的计算方法相类似

浙公网安备 33010602011771号