数据挖掘 - 随笔分类 - ForA

数据挖掘数据集下载资源

摘要：1、气候监测数据集http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.htmlhttp://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/http://www-2 阅读全文

posted @ 2011-08-13 21:53 ForA 阅读(6053) 评论(1) 推荐(0)

Mahout：2->PFPGrowth | 分布式频繁模式挖掘 <Parallel Frequent Pattern Mining>

摘要：参考官网，分析源码1. 网页给出了如何应用开发PFP-Growth的过程https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining但是易发现将其代码复制过去不能运行。原因有： 1.1 相应包没有加进去，加的必备包有：Mahout，Hadoop，Hbase。运行过程中会缺什么包，这是找到相应包加进去即可，这是一个折磨人的过程，因为不知道需要的类是包含在哪个包里面，但是一般都有启发式寻找思路。首先确定是在Mahout，还是在Hadoop下找？然后打开可能的包看下是否包含需要的类。例如本项目中阅读全文

posted @ 2011-08-06 09:50 ForA 阅读(4108) 评论(0) 推荐(2)

Mahout：1->配置，RecommenderIntro，资源参考

摘要：配置：maven：下载，配置，用于在Mahout目录mvn install 编译mahouteclipse：导入jars，编译测试例子hadoop：分布式Mahout：下载，配置 /etc/profile推荐系统实例：1. 新建Java工程，新建Class Test2. 参考：http://blog.csdn.net/aidayei/article/details/6626699package org.apache.mahout.fpm.pfpgrowth;import org.apache.mahout.cf.taste.impl.model.file.*;import org.apache 阅读全文

posted @ 2011-08-05 20:59 ForA 阅读(1496) 评论(1) 推荐(2)

CRISP-DM

摘要：数据挖掘的方法论之谈　　在1996年，当时数据挖掘市场是年轻而不成熟的，但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团，目的建立数据挖掘方法和过程的标准。在获得了EC（European Commission）的资助后，他们开始实现他们的目标。为了征集业界广泛的意见共享知识，他们创建了CRISP-DM Special Int... 阅读全文

posted @ 2010-10-10 14:28 ForA 阅读(1237) 评论(0) 推荐(0)

分析能力的8个等级

摘要：并非所有的分析方法作用都相同。和大多数软件解决方案一样，你会发现分析方法的能力也存在差异，从简单明了的到高级复杂。下面我们按照不同分析方法所能给人带来的智能程度，把分析能力划分为8个等级。500)this.width=500" border=0 1. 标准报表回答: 发生了什么？什么时候发生的？示例：月度或季度财务报表我们都见过报表，它们一般是定期生成，用来回答在某个特定的领域发生了什么。从某种... 阅读全文

posted @ 2010-10-03 18:41 ForA 阅读(531) 评论(0) 推荐(0)

数据挖掘的10个常见问题

摘要：Q1. Data Mining 和统计分析有什么不同？硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法，也都是由统计学者根据统计理论所发展衍生，换另一个角度看，Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各... 阅读全文

posted @ 2010-10-03 18:36 ForA 阅读(833) 评论(0) 推荐(0)

谈 Page Rank – Google 的民主表决式网页排名技术

摘要：大家可能听说过，Google 革命性的发明是它名为 “Page Rank” 的网页排名算法，这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo！公司最初第一个用目录分类的方式让用户通过互联网检索信息，但由于当时计算机容量和速度的限制，当时的 Yahoo！和同时代的其它搜索引擎都存在一个共同的问题：收录的网页太少... 阅读全文

posted @ 2010-10-03 18:27 ForA 阅读(256) 评论(0) 推荐(0)

数据挖掘与BI

摘要：应该如何完整地理解"数据挖掘"？"数据挖掘"的理论基础是什么？　　图1表示的是：　　现实中人类的社会和经济活动，总可以用数据（数字或者符号）来描述和记录；经过对这些数据的分析，就会产生信息（知识）；用这些信息（知识）来指导实践，就可以做出相应的决策；这些决策又引发了新一轮的社会和经济活动。循环往复，生息不止。　　那么数据仓库（DW）、商务智能（BI）和知识发现（KDD）又分别是什么呢？　　图2中的... 阅读全文

posted @ 2010-10-03 17:27 ForA 阅读(1222) 评论(1) 推荐(1)

走出数据挖掘的误区

摘要：数据挖掘是从数据集中识别出有效的、新颖的、潜在并有用的、最终可理解的模式的非平凡过程。它综合使用统计分析、数据仓库、人工智能、信息科学等多个学科的技术，从海量的客户数据中找出传统经营分析方法难以洞察的客户行为模式，给出客户的详细描述，并可以有效预测客户的行为倾向。目前，数据挖掘在电信运营企业中的应用越来越广。但随着应用的深入，偏差和误区也频繁出现，包括操作、流程、思路、方法、工具等。笔者试图从经典... 阅读全文

posted @ 2010-10-03 17:24 ForA 阅读(385) 评论(0) 推荐(0)

互联网上的数据挖掘

摘要：什么样是人性化的服务？　　　　想听一首歌，不必想好其歌名，到搜索引擎里去搜索、下载；而是输入现在的心情，比如“激昂”，播放器就自动播放出《男儿当自强》这样的歌曲，而且一首接着一首。　　　　想去旅游，不必苦思要去什么具体的城市，而是输入大概想法，比如“浪漫的周末度假”，就能马上看到十个建议：包括一家临海宾馆的情侣房、烛光晚餐、一套在周五晚起飞周日晚返归... 阅读全文

posted @ 2010-10-03 17:01 ForA 阅读(460) 评论(0) 推荐(0)

ForA

随笔分类 - 数据挖掘

公告