随笔分类 -  DataMining

摘要:数据挖掘是从大量的,不完全的,有噪声的,模糊的,随即的数据中,提取隐含在其中的,人们事先不知道的,但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集,数据预处理,数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅仅占工工作量的10%左右。目前对挖掘的研究主要集中于挖掘技术,挖掘算法,挖掘语言等在海量的原始数据中,存在这大量杂乱的,重复则,不完整的数据,严重影响到数据挖掘算法的执行效率,有可能导致挖掘结果的偏差。数据预处理分类:从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理,数据集成,数据变换,数据规约等4个基本 阅读全文
posted @ 2012-08-01 00:37 honkcal 阅读(11248) 评论(0) 推荐(0)
摘要:•1概念/类描述•2关联模式•3分类•4聚类分析•5预测•6时间序列•7偏差检测(1)概念/类 描述概念/类描述就是通过对某类对象关联数据的汇总,分析和比较,用汇总的简洁的精确的方式对此类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为:特征性描述和区别性描述。特征性描述:是指从与某类对象相关的一组数据中提取出关于这些对象的共同特征。生成一个类的特征性描述只涉及该类对象中所有对象的同性。。区别性描述:描述两个或者更多不同类对象之间的差异。生成区别性描述则涉及目标类和对比类中对象的共性。数据特征的输出可以用多种形式提供:包括 饼图,条图,曲线,多维数据方和包括交叉表在内的多维表。结果描 阅读全文
posted @ 2012-07-30 23:52 honkcal 阅读(1333) 评论(0) 推荐(0)
摘要:基本知识:1数据挖掘的过程:从海量数据中,提取隐含在其中的,人们事先不知道的但又可能有用的信息和知识的过程。2数据挖掘的数据源:数据仓库,数据库和其他数据源3数据挖掘的特性:反复性SQL 2005 算法集合多维数据分析和数据挖掘的区别基于数据仓库的联机分析处理技术和数据挖掘技术的融合和互补,将是商业职能技术的发展方向。DMX介绍功能:创建和处理数据挖掘模型;创建新数据挖掘模型的结构;为挖掘模型定型;浏览管理和预测基本框架:数据定义语言DDL,数据操作语言DML,函数,运算符语法元素:标志符:字母,下划线,数字,分隔标识符‘[]’数据类型:Text,Long,Date,Boolean,Doubl 阅读全文
posted @ 2012-07-25 10:57 honkcal 阅读(2615) 评论(0) 推荐(0)