Data Mining - 随笔分类 - Batys

数据挖掘-关联规则分析[ZZ]

2013-11-08 18:21 by Batys, 1916 阅读, 收藏,

摘要： 1.什么是关联规则"尿布与啤酒"的故事大家都有听过，这里就不罗嗦了。按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客阅读全文

0 Comment

逻辑回归：使用SGD(Stochastic Gradient Descent)进行大规模机器学习

2013-09-03 15:29 by Batys, 16097 阅读, 收藏,

摘要： Mahout学习算法训练模型mahout提供了许多分类算法，但许多被设计来处理非常大的数据集，因此可能会有点麻烦。另一方面，有些很容易上手，因为，虽然依然可扩展性，它们具有低开销小的数据集。这样一个低开销的方法是随机梯度下降（SGD）算法，Logistic回归。该算法是一个连续的（非平行）的算法，但它的速度快，因为在概念图中图13.9所示。最重要的处理大型数据，SGD算法采用恒定的内存量不管输入的大小。这里的输出包含特别感兴趣的两个值。首先，AUC值（一种广泛使用的模型的质量度量）曲线下面积的缩写有一个值0.57。AUC的范围可以从一个完全不正当的模型总是完全0错误的一个模型，1.0这是一个完阅读全文

0 Comment

mahout分类

2013-09-02 09:57 by Batys, 770 阅读, 收藏,

摘要：分类看起来比聚类和推荐麻烦多了分类算法与聚类和推荐算法的不同：必须是有明确结果的，必须是有监督的，主要用于预测和检测Mahout的优势mahout的分类算法对资源的要求不会快于训练数据和测试数据的增长速度，而且可以转换为分布式应用（数据规模如果不够大Mahout表现可能不及其他类型的系统）关键词表：Key ideaDescriptionModelA computer program that makes decisions; in classification, the output of the training algorithm is a modelTraining DataSubset 阅读全文

0 Comment

召回率与准确率[ZZ]

2013-08-27 09:26 by Batys, 388 阅读, 收藏,

摘要：最近一直在做相关推荐方面的研究与应用工作，召回率与准确率这两个概念偶尔会遇到，知道意思，但是有时候要很清晰地向同学介绍则有点转不过弯来。召回率和准确率是数据挖掘中预测、互联网中的搜索引擎等经常涉及的两个概念和指标。召回率：Recall，又称“查全率”——还是查全率好记，也更能体现其实质意义。准确率：Precision，又称“精度”、“正确率”。以检索为例，可以把搜索情况用下图表示：相关不相关检索到AB未检索到CDA：检索到的，相关的（搜到的也想要的）B：检索到的，但是不相关的（搜到的但没用的）C：未检索到的，但却是相关的（没搜到，然而实际上想要的）D：未检索到的，也不相关的（没搜到也没用的）阅读全文

0 Comment

数据挖掘中分类和聚类的区别

2013-08-22 09:05 by Batys, 19478 阅读, 收藏,

摘要： 1.分类分类是数据挖掘中的一项非常重要的任务，利用分类技术可以从数据集中提取描述数据类的一个函数或模型（也常称为分类器），并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点，分类技术是一种有指导的学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识。从这个意义上说，数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类，进而也可以预测未来数据的归类。分类具有广泛的应用，例如医疗诊断、信用卡的信用分级、图像模式识别。分类挖掘所获的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有：分类规则、决策树、数学公式和神经网络。另外，阅读全文

0 Comment

数据挖掘学习笔记：挖掘频繁模式、关联和相关[ZZ]

2013-08-21 15:19 by Batys, 1352 阅读, 收藏,

摘要：所谓挖掘频繁模式，关联和相关，即指在出现的数据集中找到一个经常出现的序列模式或者是一个经常出现的数据结构。就像搞CPU设计的人知道，Cache的预取机制有流预取和指针预取，前者就是发现流模式，即发现在地址上顺序出现的序列模式，后者即发现指针链接模式，即链式数据结构。比如一个人逛超市，她的购物篮里可能装有各种商品的组合。我们设想所有的商品构成全集，每种商品用0-1表示是否出现，那么每个购物篮就可以用一个布尔向量表示，如(0,1,...,1,0)可能表示:(没有买酸奶，买了冰激凌...买了批萨，没有买牛排)，分析大量顾客的购物篮就可以得到一个用购物模式，这个模式我们用关联规则表示，如 : 阅读全文

0 Comment

数据挖掘经典书籍[ZZ]

2013-08-17 15:12 by Batys, 993 阅读, 收藏,

摘要：数据挖掘就是在数据库中查找所需数据的过程，它是随着数据库产生的一门学科。近几年，数据库的发展还是非常迅速的，数据挖掘也成为热门技术，学习的人络绎不绝。下面给大家介绍的就是数据挖掘经典书籍及数据挖掘书籍下载，对数据挖掘有兴趣的朋友请看下文。 (一)数据挖掘经典书籍数据挖掘经典书籍之——《数据挖掘导论》《数据挖掘导论》全面介绍了数据挖掘的理论和方法，旨在为读者提供将数据挖掘应用于实际问题所必需的知识。本书涵盖五个主题：数据、分类、关联分析、聚类和异常检测。除异常检测外，每个主题都包含两章：前面一章讲述基本概念、代表性算法和评估技术，后面一章较深入地讨论高级概念和算法。目的是使读者在透... 阅读全文

0 Comment

序列数据挖掘[ZZ]

2013-08-16 10:08 by Batys, 353 阅读, 收藏,

摘要：一、时间序列数据挖掘时间序列是数据存在的特殊形式,序列的过去值会影响到将来值,这种影响的大小以及影响的方式可由时间序列中的趋势周期及非平稳等行为来刻画。一般来讲，时间序列数据都具有躁声、不稳定、随机性等特点,对于这类数据的预测方法目前主要有自动回归滑动平均(ARMA)和神经网络等，但这些方法有一些缺点是很难克服的,ARMA包含的是线性行为,对于非线性的因素没有包含;而神经网络的结构需要事先指定或应用启发式算法在训练过程中修正;同时神经网络得到的解是局部最优而非全局最优。比较而言支持向量机( SVM)能较好地解决了上述的一些问题,并在实际应用中取得了很好的性能。二、序列模式挖掘概念及定义举例阅读全文

0 Comment

几种不同存储形式下的数据挖掘问题[ZZ]

2013-08-16 09:09 by Batys, 820 阅读, 收藏,

摘要：从原理上说，数据挖掘应该可以应用到任何信息存储方式的知识挖掘中，但是挖掘的挑战性和技术会因为源数据的存储类型的不同而不同。特别是，近年来的研究表明数据挖掘所涉及的数据存储类型越来越丰富，除了一些有通用价值的模型、构架等研究外，也开展了一些针对复杂或新型数据存储方式下的挖掘技术或算法的研究。本节将针对一些主要的数据存储类型中的数据挖掘的问题进行介绍。一个事务数据库是对事务型数据的收集。1993年，当Agrawal等开始讨论数据挖掘问题时，是以购物篮分析（Market Basket Analysis）作为商业应用背景的。此时的被挖掘的数据库是顾客放入购物篮的商品记录，挖掘的目的就是通过发现顾客购阅读全文

0 Comment

挖潜无极限———数据挖掘技术与应用热点扫描[ZZ]

2013-08-16 08:21 by Batys, 364 阅读, 收藏,

摘要： “我们把世界看成数学，并且把你也看成数学”——用这句话来说明数据挖掘技术的复合性和应用的广泛性似乎再好不过。如今，虽然一些行业在应用这一技术上仍然缺乏足够的主动，但一个不能阻挡的趋势是：已经有越来越多的人在快乐并有效地使用这一技术，同时不由自主地成为“挖掘”的对象。禽流感该如何更好地监控？今天你写Blog了吗？你是否觉得这两个问题连在一起问很无厘头？事实上，美国一家公司正在试图让这两个事件之间的关系日渐明了。这家公司目前正在通过从全球的Blog网页中挖掘出和禽流感相关的信息，从而建立一个预警机制。这一项目考虑到Blog已经成为新闻传播的重要途径，先从网上抓取有关禽流感的网页，存入到公司的阅读全文

0 Comment

通用数据挖掘[ZZ]

2013-08-15 18:01 by Batys, 406 阅读, 收藏,

摘要：一、什么是数据挖掘？许多人认为数据挖掘更像是一门哲学，或数学的组成部分，而不是业务需求的实际解决方案。您可以从采用的各种定义中看出这一点，例如：“数据挖掘是对非常大型的数据进行的研究和分析，采用自动或半自动的程序，找出先前未知的、有趣的、可理解的相关性。”或者“数据挖掘是指对数据中固有的先前未知的潜在有用信息的重要提取。”这些定义都有各自的道理。尽管数据挖掘本身就是一门学科，但它的出现还不到10 年时间，其起源可追溯到二十世纪五十年代人工智能的早期发展。在此期间，模式识别和基于规则推理的发展提供了基础构建块，数据挖掘就建立在这些概念的基础之上。从这时起，尽管我们还没有以数据挖掘冠名，但今天使用阅读全文

0 Comment

数据挖掘相关的10个问题[ZZ]

2013-08-15 16:07 by Batys, 303 阅读, 收藏,

摘要： NO.1 Data Mining 和统计分析有什么不同？硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法，也都是由统计学者根据统计理论所发展衍生，换另一个角度看，Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢？主要原因在相较于传统统计分析而言，Data Mining有下列几项特性：1.处理大量实际数据更强势，且无须太专业的统计背景去使用Data Mining的工具；2.数据分析趋势为从大型数阅读全文

0 Comment

对数据预处理的一点理解[ZZ]

2013-08-15 15:57 by Batys, 1593 阅读, 收藏,

摘要：数据预处理没有统一的标准，只能说是根据不同类型的分析数据和业务需求，在对数据特性做了充分的理解之后，再选择相关的数据预处理技术，一般会用到多种预处理技术，而且对每种处理之后的效果做些分析对比，这里面经验的成分比较大，即使是声称数据挖掘专家的人可能在某一个方面研究得很深入，但面对新的应用情况和数据，一开始他也不可能很有把握地说能挖掘出有价值的东西，数据挖掘这个术语原来也叫数据采矿，就好比采矿，需要耐心，需要经验，学要总结。其本身是一个综合学科：人工智能，机器学习，数据库，统计学等学科的大综合。个人认为在挖掘中对某一个具体问题做过多的纠缠是无益的，理论上再适合，但没经过你动手去检验，去比较之前那都阅读全文

0 Comment

关于DM的一点总结[ZZ]

2013-08-15 15:52 by Batys, 493 阅读, 收藏,

摘要：用IBM的IM做过一段时间的电信客户挖掘由于时间不是很长，做的挖掘模型效果还有待提高应朋友要求简单总结几点（水平有限，也希望经验丰富的朋友给些建议）：1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类：商业数据挖掘产品具有代表性的SPSS Clementine，SAS Enterprise Miner,IBM Intelligent Miner；SQL Server2005属于集成了挖掘模型类的，挖掘算法与SQL数据库产品密不可分，你甚至可以把自己实现的数据挖掘算法跟SQL进行集成，Oracle也类似，DB2的BI功能没怎么用，不是很清楚。2、数据挖掘过程的重点绝对是数据预处理，一般认为预处阅读全文

0 Comment

Fat Uncle

随笔分类 - Data Mining