数据挖掘复习笔记(一、引论)

(一)数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的实际应用数据中,提取隐含的、用户感兴趣的信息的过程。

(二)数据挖掘的任务

描述任务:寻找历史数据中隐含信息。(关联分析、聚类分析、离群点分析、概念描述)

预测任务:预测是利用历史数据找出变化规律、建立模型,并由此模型对未来的数据和关系进行预测。(回归分析、分类

1.关联分析

 两个或两个以上变量之间取值的相关性称为关联。关联分为简单关联、时序关联、因果关联。一般用支持度和可信度来度量关联的相关性。

支持度和可信度的理解:

e.g   buys(X,"computer") →buys(X,"software") 【support=1%,confidence=50%】

置信度表示:购买电脑的人有50%的可能性购买软件。支持度:所分析的事例中1%的人同时购买电脑和软件。

support(X→Y)=P(XUY)

confindence(X→Y)=P(Y|X)

2.分类与回归分析

分类找出描述和区分数据的模型,以便能够利用分类模型确定未知类标号的数据的所属分类。分类分析对象为离散数据,回归分析对象为连续数据。

3.聚类分析

聚类和分类回归相似,区别在于:聚类是无监督学习,回归和分类是有监督学习。

4.离群点分析

数据集中的一些数据对象,与数据的一般行为或模型不一致,称为离群点。离群点数据分析称作离群点分析和异常挖掘。

(三)知识发现(KDD)的步骤

(1) 数据清洗(data clearing)和预处理。其作用是清除数据噪声和与挖掘主题明显无关的数据。

(2) 数据集成(data integration)。其作用是将来自多个数据源中的相关数据组合到一起。

(3) 数据选择与变换(data transformation)。其作用是将数据转换为易于进行数据挖掘的形式。

(4) 数据挖掘(data mining)。其作用是利用智能方法挖掘数据模式或规律知识。

(5) 模式评估(pattern evaluation)。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。

(6) 知识表示(knowledge presentation)。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。

数据挖掘只是知识发现(数据库中的知识发现, KDD)过程的一个步骤。

(四)用于数据挖掘的一些软件

 

SPSS ClementineSAS Enterprise Miner IBM Intelligent Miner SQL Server 2008Oracle DM等商用软件能够提供常规的挖掘过程和挖掘模式。

 

WekaRapidMiner(YALE)ARMiner等为开源数据挖掘工具。

 

posted on 2017-12-07 14:27  起名真TM烦  阅读(431)  评论(0)    收藏  举报

导航