max_xbw

2015年3月25日

摘要：下图摘自：http://blog.163.com/qianshch@126/blog/static/48972522201092254141315/ 主要的聚类方法可以划分为以下几类：划分方法层次方法基于密度的方法基于网格的方法聚类是典型的无监督学习。 wiki：数据聚类算法可以分为结构性... 阅读全文

posted @ 2015-03-25 12:13 max_xbw 阅读(6461) 评论(0) 推荐(0)

2015年3月18日

【读书笔记-数据挖掘概念与技术】分类：高级方法

摘要：贝叶斯信念网络这个贝叶斯信念网络和上一章学的朴素贝叶斯分类，最大的不同点在于：朴素贝叶斯分类法假定类条件独立，即给定元组的类标号，假定属性的值可以条件地相互独立。这一假定简化了计算。贝叶斯信念网络说明联合条件概率分布。它允许在变量的子集间定义独立性。他提供一种因果关系的图形模型可以在其上进行学习... 阅读全文

posted @ 2015-03-18 21:11 max_xbw 阅读(1607) 评论(0) 推荐(0)

2015年3月15日

【读书笔记-数据挖掘概念与技术】分类：基本概念

摘要：数据分类的两个阶段：学习阶段（构造分类模型）和分类阶段（使用模型预测给定数据的类标号）和分类阶段（使用模型预测给定数据的类标号）。决策树归纳构造一颗树，从根到叶子节点的路径，该叶子节点就存放着该元组的预测类。决策树分类器的构造不需要任何领域知识和参数设置，因此适合于探测式知识发现。决策树可以处理高维数据。 ... 阅读全文

posted @ 2015-03-15 17:24 max_xbw 阅读(1851) 评论(0) 推荐(0)

2015年3月13日

【cs229-Lecture11】贝叶斯统计正则化

摘要：本节知识点：贝叶斯统计及规范化在线学习如何使用机器学习算法解决具体问题：设定诊断方法，迅速发现问题贝叶斯统计及规范化（防止过拟合的方法）就是要找更好的估计方法来减少过度拟合情况的发生。回顾一下，线性回归中使用的估计方法是最小二乘法，logistic 回归是条件概率的最大似然估计，朴素贝叶斯是联合概率的最大似然估计，SVM 是二次规划。一下转自：http://52o... 阅读全文

posted @ 2015-03-13 21:35 max_xbw 阅读(4948) 评论(0) 推荐(0)

2015年3月11日

【读书笔记-数据挖掘概念与技术】高级模式挖掘

摘要：模式挖掘是一个比频繁挖掘模式更一般的术语，因为前者还涵盖了稀有模式和负模式。然而，在没有歧义时，两者可以互换地使用。模式挖掘路线图分类基本模式基于模式所涉及的抽象层基于规则或模式所涉及的维数基于规则或模式中所处理的值类型基于挖掘选择性模式的约束或标准基于所挖掘的数据类型和特征多层、多维空间中的模式挖掘挖掘多层关联规则对于所有层使用一致的最小支持度——一致支持... 阅读全文

posted @ 2015-03-11 23:27 max_xbw 阅读(973) 评论(0) 推荐(0)

【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性：基本概念和方法

摘要：频繁模式：频繁出现的模式（可以是项集、子序列或子结构）基本概念支持度：support 置信度：confidence 关联规则：association 找出所有的频繁项集：出现次数≥最小支持计数由频繁项集产生强关联的规则（定义最小支持度和最小置信度）频度（支持度计数）：出现的次数频繁项集：项集I的相对支持度满足预定义的最小支持度阈值闭频繁项集：不存在真超项集Y使得Y与X在... 阅读全文

posted @ 2015-03-11 23:26 max_xbw 阅读(668) 评论(0) 推荐(0)

【读书笔记-数据挖掘概念与技术】数据立方体技术

摘要：基本概念：基本单元：基本方体的单元聚集单元：非基本方体的单元冰山立方体：部分物化的立方体最小支持度(最小支持度阀值)：部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入——闭覆盖——一个单元没有后代或者它的后代的度量值与其不同法2：只预计算涉及少数维的立方体，这些方体形成的数据立方体的立方体外壳计算的一般策略：四种优化技术 1... 阅读全文

posted @ 2015-03-11 23:23 max_xbw 阅读(2296) 评论(0) 推荐(0)

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

摘要：之前看了认识数据以及数据的预处理，那么，处理之后的数据放在哪儿呢？就放在一个叫“数据仓库”的地方。数据仓库的基本概念：数据仓库的定义——面向主题的、集成的、时变的、非易失的操作数据库系统VS数据仓库——为什么需要使用数据仓库分析数据(OLAP VS OLTP)数据仓库体系结构——三层体系结构：底层(... 阅读全文

posted @ 2015-03-11 23:16 max_xbw 阅读(635) 评论(0) 推荐(0)

【读书笔记-数据挖掘概念与技术】数据预处理

摘要：数据预处理的目的：提高数据质量，数据质量的三要素：准确性、完整性、一致性。数据预处理的任务：数据清理数据集成数据规约数据变换数据清理——填充缺失的值、光滑噪声、识别离群点、纠正数据中的不一致缺失值：忽略元组人工填写缺失值使用一个全局常量使用属性的中心度量使用与给定元组属同一类的所有样本的属性均值或中位数使用最可能的值（最流行）噪声数据分箱 ... 阅读全文

posted @ 2015-03-11 23:13 max_xbw 阅读(561) 评论(0) 推荐(0)

【读书笔记-数据挖掘概念与技术】认识数据

摘要：属性分类：标称属性(定性) 二元属性(定性) 序数属性(定性) 数值属性(定量) 标称属性——“与名称相关”，它的值是一些符号或事物的名称。 eg.头发颜色(黑色、棕色、淡黄色、红色) 婚姻状况(单身、已婚、离异、丧偶) 二元属性——标称属性的一种，只有两个类别或状态：0或1（布尔属性）。有对称与非对称之分，对称——两种状态具有同等价值并且携带相同的权重eg.性别非对称——其状态的结... 阅读全文

posted @ 2015-03-11 23:12 max_xbw 阅读(393) 评论(0) 推荐(0)

数据挖掘中的基本概念

摘要： OLAP（On-Line Analytical Processing）：联机分析处理当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的... 阅读全文

posted @ 2015-03-11 23:09 max_xbw 阅读(504) 评论(0) 推荐(0)

【cs229-Lecture10】特征选择

摘要：本节课要点：VC维：模型选择算法特征选择vc维：个人还是不太理解。个人的感觉就是为核函数做理论依据，低维线性不可分时，映射到高维就可分，那么映射到多高呢？我把可分理解为“打散”。参考的资料：http://www.cnblogs.com/boostable/p/iage_VC_dimension.h... 阅读全文

posted @ 2015-03-11 16:27 max_xbw 阅读(437) 评论(0) 推荐(0)

2015年1月25日

【cs229-Lecture8】顺序最小优化算法

摘要： ref: blog:http://zhihaozhang.github.io/2014/05/20/svm4/ 《数据挖掘导论》真正的大神是当采用的算法表现出不是非常好的性能的时候，懂得如何去更改算法的人。本节课的三个内容：Kernels：核，用于构建非线性的分类器Soft Margin：软间隔，减... 阅读全文

posted @ 2015-01-25 10:52 max_xbw 阅读(1951) 评论(1) 推荐(1)

2015年1月23日

支持向量机SVM进阶

摘要：本文适合于对SVM基本概念有一点了解的童鞋。 SVM基本概念：最大边缘平面——基本原理：结构风险最小化分类器的泛化误差支持向量问题描述：请对一下数据，利用svm对其进行分类。最终任务：找到最优超平面图1 看到这张... 阅读全文

posted @ 2015-01-23 16:19 max_xbw 阅读(1025) 评论(0) 推荐(0)

2015年1月22日

【SPMF开源数据挖掘平台入门】MaxSP算法使用说明

摘要：前段时间，由于项目中用到了序列挖掘的算法，师兄推荐我用用SPMF。在此做个记录。首先简单介绍一下SPMF：SPMF是一个采用Java开发的开源数据挖掘平台。它提供了51种数据挖掘算法实现，用于：序列模式挖掘,关联规则挖掘，frequent itemset 挖掘,顺序规则挖掘，聚类HOME PAGE：... 阅读全文

posted @ 2015-01-22 17:40 max_xbw 阅读(3675) 评论(0) 推荐(0)

2015年1月21日

【cs229-Lecture9】经验风险最小化

摘要：写在前面：机器学习的目标是从训练集中得到一个模型，使之能对测试集进行分类，这里，训练集和测试集都是分布D的样本。而我们会设定一个训练误差来表示测试集的拟合程度（训练误差），虽然训练误差具有一定的参考价值。但实际上，我们并不关心对训练集合的预测有多么准确。我们更关心的是对于我们之前没有见过的一个全新的... 阅读全文

posted @ 2015-01-21 15:24 max_xbw 阅读(4323) 评论(0) 推荐(0)

2015年1月2日

【数据清洗】2013-数据质量及数据清洗方法

摘要：数据质量问题分类本文主要讨论实例层数据质量问题数据质量评价(12个维度)1)数据规范(Data specification)：对数据标准、数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准； 2)数据完整性准则(Data integrity fundamentals... 阅读全文

posted @ 2015-01-02 22:25 max_xbw 阅读(10696) 评论(0) 推荐(0)

【数据清洗】2012-数据清洗及其一般性系统框架

摘要：（１）准备。包括需求分析、信息环境分析、任务定义、方法定义、基本配置，以及基于以上工作获得数据清洗方案等。通过需求分析明确信息系统的数据清洗需求，通过信息环境分析明确数据所处的信息环境特点，任务定义要明确具体的数据清洗任务目标，方法定义确定合适的数据清洗方法，基本配置完成数据接口等的配置，要形成完整... 阅读全文

posted @ 2015-01-02 21:26 max_xbw 阅读(2320) 评论(0) 推荐(0)

【数据清洗】2007-数据清洗研究综述

摘要：王曰芬　章成志　张蓓蓓　吴婷婷定义：数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。目的：数据清洗的目的是为信息系统提供准确而有效的数据。基本原理：利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为以... 阅读全文

posted @ 2015-01-02 21:01 max_xbw 阅读(956) 评论(0) 推荐(0)

2014年12月18日

【Drools-开源业务规则引擎】入门实例(含源码)

摘要：该实例转自：http://blog.csdn.net/quzishen/article/details/6163012便于理解的应用实例1：现在我们模拟一个应用场景：网站伴随业务产生而进行的积分发放操作。比如支付宝信用卡还款奖励积分等。发放积分可能伴随不同的运营策略和季节性调整，发放数目和规则完全不... 阅读全文

posted @ 2014-12-18 00:56 max_xbw 阅读(5830) 评论(0) 推荐(0)

公告