随笔分类 -  数据挖掘

摘要:scrapy进行页面抓去的时候,保存的文件出现乱码,经过分析是编码的原因,只需要把编码转换为utf-8即可,代码片段......import chardet ...... content_type = chardet.detect(html_content) #print(content_typ... 阅读全文
posted @ 2015-04-17 11:55 Byrd 阅读(972) 评论(0) 推荐(0)
摘要:package kettle;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import java.util.ArrayList;import java.util.List;import org.apache.log4j.Logger;import org.pentaho.di.core.KettleEnvironment;import org.pentaho.di.core.database.DatabaseMeta;import org.pentaho.di.core.exc 阅读全文
posted @ 2013-06-03 12:27 Byrd 阅读(613) 评论(0) 推荐(0)
摘要:kettle 的 kitchen.bat 后面参数说明:Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。Kettle包括三大块:Spoon——转换/工作(transform/job)设计工具 (GUI方式) Kitchen——工作(job)执行器 (命令行方式)Span——转换(trasform)执行器 (命令行方式)Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。Kettle中 阅读全文
posted @ 2013-04-02 09:28 Byrd 阅读(913) 评论(0) 推荐(0)
摘要:在sql server2008中提供了9种常用的数据挖掘算法,这些算法用在不同数据挖掘的应用场景下,下面我们就各个算法逐个分析讨论。 1.决策树算法 决策树,又称判定树,是一种类似二叉树或多叉树的树结构。决策树是用样本的属性作为结点,用属性的取值作为分支,也就是类似流程图的过程,其中每个内部 节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。它对大量样本的属性进行分析和归纳。根结点是所有样本中信息量最 大的属性,中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶结点是样本的类别值。 从树的根结点出发,将测试条件用于检验记录,根... 阅读全文
posted @ 2013-02-25 08:42 Byrd 阅读(2220) 评论(0) 推荐(0)