随笔分类 -  Data Mining

摘要:weka中的过滤器主要用于数据预处理阶段对数据集的各种操作。今天简单地使用一下过滤器:首先打开一个自带数据集weather.numeric.arff,这是一个关于通过天气条件,气温以及风力等因素来判断是否要play。可以看到:看一下数据的大致情况:红色代表no,蓝色代表yes。问题一:假设我现在要添... 阅读全文
posted @ 2015-05-15 11:39 max_xbw 阅读(1700) 评论(0) 推荐(0)
摘要:复杂的数据类型 数据挖掘的其他方法 关于数据挖掘基础的观点: 可视和听觉数据挖掘 数据可视化 数据挖掘结构可视化 数据挖掘过程可视化 交互式可视数据挖掘 数据挖掘的应用 阅读全文
posted @ 2015-04-09 11:54 max_xbw 阅读(424) 评论(0) 推荐(0)
摘要:1 离群点和离群点分析1.2 离群点的类型 a.全局离群点 显著偏离数据集中的其余对象,最简单的一类离群点。 检测方法:找到一个合适的偏离度量 b.情境离群点 离群点的值依赖于情境。分为情境属性(定义对象的情境)和行为属性(定义对象的特征) c.集体离群点 数据对象的子集形成集体离群点,如果这些对象... 阅读全文
posted @ 2015-04-08 21:02 max_xbw 阅读(3679) 评论(1) 推荐(0)
摘要:1 基于概率模型的聚类 例子: a.评论产品,一个评论可能设计多种产品,如一个评论谈论摄像机与计算机的兼容性,怎么办?该评论与这两个簇相关,而并不互斥地属于任何一个簇。 b.用户在购买商品时,检索的信息中既订购了一部数据相机,并且同时比较了多种笔记本电脑,怎么办?这种会话应该在某种程度上数据这两个簇。 1.1 模糊簇 这节的例子还不... 阅读全文
posted @ 2015-04-07 21:57 max_xbw 阅读(1731) 评论(0) 推荐(0)
摘要:下图摘自:http://blog.163.com/qianshch@126/blog/static/48972522201092254141315/ 主要的聚类方法可以划分为以下几类: 划分方法 层次方法 基于密度的方法 基于网格的方法 聚类是典型的无监督学习。 wiki: 数据聚类算法可以分为结构性... 阅读全文
posted @ 2015-03-25 12:13 max_xbw 阅读(6445) 评论(0) 推荐(0)
摘要:贝叶斯信念网络这个贝叶斯信念网络和上一章学的朴素贝叶斯分类,最大的不同点在于: 朴素贝叶斯分类法假定类条件独立,即给定元组的类标号,假定属性的值可以条件地相互独立。这一假定简化了计算。 贝叶斯信念网络说明联合条件概率分布。它允许在变量的子集间定义独立性。他提供一种因果关系的图形模型可以在其上进行学习... 阅读全文
posted @ 2015-03-18 21:11 max_xbw 阅读(1595) 评论(0) 推荐(0)
摘要:数据分类的两个阶段:学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)和分类阶段(使用模型预测给定数据的类标号)。 决策树归纳 构造一颗树,从根到叶子节点的路径,该叶子节点就存放着该元组的预测类。 决策树分类器的构造不需要任何领域知识和参数设置,因此适合于探测式知识发现。决策树可以处理高维数据。 ... 阅读全文
posted @ 2015-03-15 17:24 max_xbw 阅读(1843) 评论(0) 推荐(0)
摘要:模式挖掘是一个比频繁挖掘模式更一般的术语,因为前者还涵盖了稀有模式和负模式。然而,在没有歧义时,两者可以互换地使用。 模式挖掘路线图 分类 基本模式 基于模式所涉及的抽象层 基于规则或模式所涉及的维数 基于规则或模式中所处理的值类型 基于挖掘选择性模式的约束或标准 基于所挖掘的数据类型和特征 多层、多维空间中的模式挖掘 挖掘多层关联规则 对于所有层使用一致的最小支持度——一致支持... 阅读全文
posted @ 2015-03-11 23:27 max_xbw 阅读(958) 评论(0) 推荐(0)
摘要:频繁模式:频繁出现的模式(可以是项集、子序列或子结构) 基本概念 支持度:support 置信度:confidence 关联规则:association 找出所有的频繁项集:出现次数≥最小支持计数 由频繁项集产生强关联的规则(定义最小支持度和最小置信度) 频度(支持度计数):出现的次数 频繁项集:项集I的相对支持度满足预定义的最小支持度阈值 闭频繁项集:不存在真超项集Y使得Y与X在... 阅读全文
posted @ 2015-03-11 23:26 max_xbw 阅读(654) 评论(0) 推荐(0)
摘要:基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入——闭覆盖——一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1... 阅读全文
posted @ 2015-03-11 23:23 max_xbw 阅读(2240) 评论(0) 推荐(0)
摘要:之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方。数据仓库的基本概念:数据仓库的定义——面向主题的、集成的、时变的、非易失的操作数据库系统VS数据仓库——为什么需要使用数据仓库分析数据(OLAP VS OLTP)数据仓库体系结构——三层体系结构:底层(... 阅读全文
posted @ 2015-03-11 23:16 max_xbw 阅读(632) 评论(0) 推荐(0)
摘要:数据预处理的目的:提高数据质量,数据质量的三要素:准确性、完整性、一致性。 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理——填充缺失的值、光滑噪声、识别离群点、纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 ... 阅读全文
posted @ 2015-03-11 23:13 max_xbw 阅读(552) 评论(0) 推荐(0)
摘要:属性分类: 标称属性(定性) 二元属性(定性) 序数属性(定性) 数值属性(定量) 标称属性——“与名称相关”,它的值是一些符号或事物的名称。 eg.头发颜色(黑色、棕色、淡黄色、红色) 婚姻状况(单身、已婚、离异、丧偶) 二元属性——标称属性的一种,只有两个类别或状态:0或1(布尔属性)。 有对称与非对称之分,对称——两种状态具有同等价值并且携带相同的权重eg.性别 非对称——其状态的结... 阅读全文
posted @ 2015-03-11 23:12 max_xbw 阅读(388) 评论(0) 推荐(0)
摘要:OLAP(On-Line Analytical Processing):联机分析处理 当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的... 阅读全文
posted @ 2015-03-11 23:09 max_xbw 阅读(498) 评论(0) 推荐(0)
摘要:前段时间,由于项目中用到了序列挖掘的算法,师兄推荐我用用SPMF。在此做个记录。首先简单介绍一下SPMF:SPMF是一个采用Java开发的开源数据挖掘平台。它提供了51种数据挖掘算法实现,用于:序列模式挖掘,关联规则挖掘,frequent itemset 挖掘,顺序规则挖掘,聚类HOME PAGE:... 阅读全文
posted @ 2015-01-22 17:40 max_xbw 阅读(3626) 评论(0) 推荐(0)
摘要:转自:http://blog.chinaunix.net/uid-446337-id-94440.html分类:机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则... 阅读全文
posted @ 2014-07-31 15:50 max_xbw 阅读(904) 评论(0) 推荐(0)