Date19

相似度量的研究及其在数据挖掘中的应用（知网）

常见的相似度量方法：Minkowski距离、Euclidean距离（处理数值型数据）、Mahalanobis距离、
Manhattan距离和Cosine Angle距离
本文从数据空间覆盖关系的角度提出一种相似度量方法，并在此基础上设计和实现了相应的俩中算法
：（1）基于数据空间覆盖关系的分类算法（PCC）；（2）基于动态部分覆盖的特征选择算法（DPC）
。
结合邻近集计算法思想提出一种基于时间权重邻近集计算的算法（TWNCM）；采用有序数匹配的思想，
提出了基于结构相似度量的WEB页面聚类方法，并用于WEB信息抽取中。
相似度的定义：相似度是两类模式之间的相似程度，它有多种搞得定义方式。在数据挖掘研究中，常
用距离和相关系数来衡量对象之间的相似度，距离和相似系数统称为归类指数。
数据类型：Nominal类型、Ordinal类型、Interval类型、Ratio类型
数值型数据之间的距离：
（1）曼哈度（Manhattan）距离
（2）明考夫斯基（Minkowski）距离
（3）欧氏（Euclidean）距离
（4）马氏（Mahalanobis）距离
（5）兰式（Lance Williams）距离
（6）切比雪夫（Chebyshev）距离
（7）相关系数
离散型变量的距离：
混合型变量间的距离：
新的距离度量：
HEOM度量（混合欧几里得重叠度量Heterogeneous Euclidean-Overlap Metric）
值差度量（VDM）Value Difference Metric
混合值差度量（HVDM）Heterogeneous Value Difference Metric
插值值差度量（IVDM）Interpolated Value Difference Metric
最低风向度量（MRM）Minimal Risk Metric
时间效率、鲁棒性、精确性

posted @ 2018-06-01 14:16 iDataSharing 阅读(575) 评论(0) 收藏举报

刷新页面返回顶部

genghenggao

Date19

相似度量的研究及其在数据挖掘中的应用（知网）

公告