文章分类 -  机器学习&数据挖掘

1 2 下一页
数据挖掘的一般步骤
摘要:从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存... 阅读全文
posted @ 2014-12-20 15:29 船长 阅读(1914) 评论(0) 推荐(0) 编辑
主成分分析(4)
摘要:主成分分析(Principal components analysis)-最大方差解释原文链接:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html 在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算... 阅读全文
posted @ 2014-11-30 11:26 船长 阅读(170) 评论(0) 推荐(0) 编辑
主成分分析(3)
摘要:1 引言2 实例和数学背景3 旋转数据4 数据降维5 还原近似数据6 选择主成分个数7 对图像数据应用PCA算法8 参考文献9 中英文对照10 中文译者引言 主成分分析(PCA)是一种能够极大提升无监督特征学习速度的数据降维算法。更重要的是,理解PCA算法,对实现白化算法有很大的帮助,很多算法都先用... 阅读全文
posted @ 2014-11-30 11:26 船长 阅读(234) 评论(0) 推荐(0) 编辑
主成分分析(5)
摘要:主成分分析(Principal components analysis)-最小平方误差解释3.2 最小平方误差理论 假设有这样的二维样本点(红色点),回顾我们前面探讨的是求一条直线,使得样本点投影到直线上的点的方差最大。本质是求直线,那么度量直线求的好不好,不 仅仅只有方差最大化的方法。再回想我们... 阅读全文
posted @ 2014-11-30 11:25 船长 阅读(197) 评论(0) 推荐(0) 编辑
主成分分析(2)
摘要:PrincipalComponentAnalysis(PCA)matlab的Feature Transformation提供了一个有关主成分分析的介绍和例子。PCA的介绍 多元统计分析中普遍存在的困难中,有一个困难是多元数据的可视化。matlab的plot可以显示两个变量之间的关系,plot3和su... 阅读全文
posted @ 2014-11-30 11:25 船长 阅读(1638) 评论(0) 推荐(0) 编辑
主成分分析(1)
摘要:主成分分析是一种降维方法,主要用于数据压缩,数据可视化以及特征提取等方面。 现实中我们经常可以遇到维数很高的数据,如一张28*28的图片,可以看作维度为784。类似图片这样的高维数据,实际上各个维度之间具有高度的关联性, 即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽... 阅读全文
posted @ 2014-11-28 20:11 船长 阅读(323) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--线性回归算法
摘要:此篇为微软系列挖掘算法的最后一篇了,完整该篇之后,微软在商业智能这块提供的一系列挖掘算法我们就算总结完成了,在此系列中涵盖了微软在商业智能 (BI)模块系统所能提供的所有挖掘算法,当然此框架完全可以自己扩充,可以自定义挖掘算法,不过目前此系列中还不涉及,只涉及微软提供的算法,当然这些 算法已经基本涵... 阅读全文
posted @ 2014-11-12 22:11 船长 阅读(1036) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--神经网络算法原理
摘要:前言本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载, 有兴趣的童鞋可以点击查阅,在开始Microsoft 神经网络分析算法之前,本篇我们先将神经网络分析算法做一个简单介绍,... 阅读全文
posted @ 2014-11-12 22:05 船长 阅读(1088) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--顺序分析与聚类分析算法
摘要:前言本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载, 有兴趣的童鞋可以点击查阅,本篇我们将要总结的算法为:Microsoft顺序分析和聚类分析算法,此算法为上一篇中的关联规... 阅读全文
posted @ 2014-11-12 22:04 船长 阅读(547) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--关联规则分析算法
摘要:本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法、Microsoft 时序算法,后续还补充了二篇结果预测篇、Microsoft 时序算法——结果预算+下期彩票预测篇, 看样子有... 阅读全文
posted @ 2014-11-12 21:59 船长 阅读(330) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--时序算法1
摘要:本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,当然后续还补充了一篇结果预测篇, 所涉及的应用场景在前几篇文章中也有介绍... 阅读全文
posted @ 2014-11-12 21:58 船长 阅读(415) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--时序算法2
摘要:前言本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章Microsoft时序算法的 一个总结,上一篇我们已经基于微软案例数据库的销售历史信息表,利用Microsoft时序算法对其结果进行了预测,并且相应形成了折线预测图和模型依赖 属性,有兴趣的同学可以点击查看,但是上篇文章的... 阅读全文
posted @ 2014-11-12 21:57 船长 阅读(232) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--结果预测
摘要:前言本篇文章主要是继续前几篇Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,算法介绍后,经过这几种算法综合挖掘和分析之后,对一份摆在公司面前的人员信息列表进行推测,挖掘出这些人员信息中可能购买自行车的群体,把他们交个营销部,剩下的事... 阅读全文
posted @ 2014-11-12 21:55 船长 阅读(1029) 评论(1) 推荐(0) 编辑
基于.NET实现数据挖掘--朴素贝叶斯算法
摘要:本篇文章主要是继续上两篇Microsoft决策树分析算法和Microsoft聚类分析算法后,采用另外更为简单一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。有兴趣的同学可以先参照上面两种算法过程。应用场景介绍通过前面两种算法的应用场景介绍,此次总结的Microsoft Naiv... 阅读全文
posted @ 2014-11-12 21:54 船长 阅读(779) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--聚类分析算法
摘要:本篇文章主要采用另外一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。应用场景介绍通过上一篇中我们采用Microsoft决策树分析算法对已经发生购买行为的订单中的客户属性进行了分析,可以得到几点重要的信息,这里做个总结:1、对于影响购买自行车行为最重要的因素为:家中是否有小汽车,... 阅读全文
posted @ 2014-11-12 21:47 船长 阅读(446) 评论(0) 推荐(0) 编辑
基于.NET实现数据挖掘--决策树分类算法
摘要:随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结。应用场景介绍其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现 在随着IT行业中大数... 阅读全文
posted @ 2014-11-12 21:45 船长 阅读(1511) 评论(0) 推荐(0) 编辑
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
摘要:本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视... 阅读全文
posted @ 2014-11-12 00:26 船长 阅读(213) 评论(0) 推荐(0) 编辑
大数据技术 -- MapReduce 简介
摘要:本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/1.概要很多计算在概念上很直观,但由于输入数据很大,为了能在合理的时间内完成,这些计算必须分布在数以百计数以千计的机器上。例如处理爬取得到的文档、网页请求日志来计算各种衍生数据,如倒排索引,网页文档... 阅读全文
posted @ 2014-11-12 00:03 船长 阅读(453) 评论(0) 推荐(0) 编辑
机器学习 —— 决策树及其集成算法(Bagging、随机森林、Boosting)
摘要:本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/决策树---------------------------------------------------------------------1.描述:以树为基础的方法可以用于回归和分类。树的节点... 阅读全文
posted @ 2014-11-12 00:01 船长 阅读(992) 评论(0) 推荐(0) 编辑

1 2 下一页