随笔分类 -  数据挖掘

摘要:本文接数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)本分类器的完整工程可以到点击打开链接下载,详细说明的运行方法,用eclipse可以运行,学习数据挖掘的朋友可以跑一下,有问题可以联系我,欢迎交流:)上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现,下面我们来看看如何实现基于KNN算法的newsgroup文本分类器1 KNN算法的描述KNN算法描述如下:STEP ONE:文本向量化表示,由特征词的TF*IDF值计算STEP TWO:在新文本到达后,根据特征词确定新文本的向量STEP THREE:在训练文本集中选出 阅读全文
posted @ 2012-03-27 23:47 yangleo 阅读(1081) 评论(6) 推荐(0)
摘要:本文主要描述基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的设计及实现,包括数据预处理、贝叶斯算法及KNN算法实现。本分类器的完整工程可以到点击打开链接下载,详细说明的运行方法,用eclipse可以运行,学习数据挖掘的朋友可以跑一下,有问题可以联系我,欢迎交流:)。本文主要内容如下:对newsgroup文档集进行预处理,提取出30095 个特征词计算每篇文档中的特征词的TF*IDF值,实现文档向量化,在KNN算法中使用用JAVA实现了KNN算法及朴素贝叶斯算法的newsgroup文本分类器1、Newsgroup文档集介绍Newsgroups最早由Lang于1995收集并在[ 阅读全文
posted @ 2012-03-27 23:06 yangleo 阅读(675) 评论(0) 推荐(0)
摘要:数据挖掘课上面老师介绍了下决策树ID3算法,我抽空余时间把这个算法用C++实现了一遍。决策树算法是非常常用的分类算法,是逼近离散目标函数的方法,学习得到的函数以决策树的形式表示。其基本思路是不断选取产生信息增益最大的属性来划分样例集和,构造决策树。信息增益定义为结点与其子结点的信息熵之差。信息熵是香农提出的,用于描述信息不纯度(不稳定性),其计算公式是Pi为子集合中不同性(而二元分类即正样例和负样例)的样例的比例。这样信息收益可以定义为样本按照某属性划分时造成熵减少的期望,可以区分训练样本中正负样本的能力,其计算公司是我实现该算法针对的样例集合如下该表记录了在不同气候条件下是否去打球的情况,要 阅读全文
posted @ 2012-03-05 19:04 yangleo 阅读(1261) 评论(0) 推荐(0)
摘要:课程文本分类project SVM算法入门转自:http://www.blogjava.net/zhenandaci/category/31868.htmlSVM入门(一)至(三)Refresh按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅.(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根 阅读全文
posted @ 2012-03-04 02:13 yangleo 阅读(927) 评论(0) 推荐(1)
摘要:最近要做文本分类相关的课程project,因此上网找了一下文本分类的资料,下面这个感觉比较通俗易懂,收录在这里。来源 http://www.blogjava.net/zhenandaci/category/31868.html?Show=All文本分类入 门(一)文本分类问题的定义文本分类系列文章,从文本分类问题的定义开始,主要讲解文本分类系统的构成,主流的统计学习方法以及较为优秀的SVM算法及其改进。 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇 阅读全文
posted @ 2012-03-04 02:08 yangleo 阅读(1734) 评论(1) 推荐(2)
摘要:该算法是概念空间挖掘最简单的算法,只考虑了正实例,不断做泛化,实际上求得了一个最特化边界概念挖掘需求C++实现#include <iostream> #include <string> using namespace std; #define MAXTRAIN 4 #define MAXLEN 7 int main(){ int i, j; string state[MAXTRAIN][MAXLEN]; string concept[MAXLEN]; string yes("Yes"); for( i = 0; i < MAXTRAIN; i+ 阅读全文
posted @ 2012-03-03 11:08 yangleo 阅读(392) 评论(0) 推荐(0)
摘要:Candidate-Elimination算法是数据挖掘中的一种概念学习算法,部分解决Find-S的不足,可以输出所有与训练样本一致的概念,同时利用概念间偏序关系来指导搜索,其伪代码描述如下Initialize Gto the set of most-general hypotheses in H Initialize Sto the set of most-specific hypotheses in H For each training example, d, do: If dis a positive example then: Remove from Gany hypotheses 阅读全文
posted @ 2012-02-27 22:09 yangleo 阅读(391) 评论(0) 推荐(0)