文章分类 -  数据挖掘

数据处理,可视化,爬虫
摘要:转载自:http://www.cnblogs.com/nayitian/p/3286793.html1. Cookie 概述Cookie是什么?Cookie 是一小段文本信息,伴随着用户请求和页面在 Web 服务器和浏览器之间传递。Cookie 包含每次用户访问站点时 Web 应用程序都可以读取的信... 阅读全文
posted @ 2014-04-22 17:34 奋斗中的毛毛虫 阅读(152) 评论(0) 推荐(0)
摘要:转载自:http://cn.soulmachine.me/blog/20140204/软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑。前提学会了搭建一个分布式Hadoop集群,见在CentOS上安装Hadoop集群学会了单机跑Nutch,见Nutch 快速入门(Nutch 1.7)1 启动Hadoop 阅读全文
posted @ 2014-04-08 14:09 奋斗中的毛毛虫 阅读(297) 评论(0) 推荐(0)
摘要:转载自:第 1 部分: 简介和回归 http://www.ibm.com/developerworks/cn/opensource/os-weka1/第 2 部分: 分类和群集 http://www.ibm.com/developerworks/cn/opensource/os-weka2/index.html第 3 部分: 最近邻和服务器端库 http://www.ibm.com/developerworks/cn/opensource/os-weka3/index.html简介什么是数据挖掘?您会不时地问自己这个问题,因为这个主题越来越得到技术界的关注。您可能听说过像 Google ... 阅读全文
posted @ 2014-04-06 01:23 奋斗中的毛毛虫 阅读(156) 评论(0) 推荐(0)
摘要:前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具weka进行管理规则挖掘。weka数据集格式arff arff标准数据集简介 weka的数据文件后缀为arff(Attribute-Relation File Format,即属性关系文件格式),arff文件分为注释、关系名、属性名、数据域几大部分,注释用百分号开头%,关系名用@relation申明,属性用@attribute什么,数据域用@data开头,看这个示例数据集(安装weka后,可在weka的... 阅读全文
posted @ 2014-04-06 01:16 奋斗中的毛毛虫 阅读(699) 评论(0) 推荐(0)