随笔分类 -  数据挖掘(Data Mining)

摘要:基于搜狗语料库,建立的一个新闻分类系统;类别包括:classifierMap.put(0, "IT"); classifierMap.put(1, "体育"); classifierMap.put(2, "健康"); classifierMap.put(3, "军事"); class... 阅读全文
posted @ 2014-07-07 14:54 曹守鑫 阅读(817) 评论(0) 推荐(0)
摘要:转载:http://www.zhizhihu.com/html/y2010/2202.htmlK-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,有一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算接近自己最近的K个样本来判断... 阅读全文
posted @ 2014-07-07 14:43 曹守鑫 阅读(223) 评论(0) 推荐(0)
摘要:支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器... 阅读全文
posted @ 2014-07-07 14:11 曹守鑫 阅读(1271) 评论(0) 推荐(0)
摘要:Pearson(皮尔逊)相关系数在论文中,结果的对比,常常用到皮尔逊相关系数,以检查结果的提高程度!注意:N表示共同的项数,而不是下标1、简介皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:公式一:公式二:公式三:公式四:以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数。2、适用范围当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:(1)、两个变量之间是线性关系,都是连续数据。(2)、两个变量的总体是正态分布,或接近正态的单 阅读全文
posted @ 2014-03-24 09:41 曹守鑫 阅读(804) 评论(0) 推荐(0)
摘要:给用户推荐没有买过的项目物品描述文件(或用户)之间的关系,并且利用这些信息改善进入的项目与描述文件(或用户)间匹配的过滤技术,成为协同过滤技术。协同过滤通常是推荐系统的组成部分之一。推荐系统利用协同过滤算法推荐项目(如书籍或电影)。许多主要的商业站点,如Amazon.com和Netflix,都充分利用推荐系统为用户提供推荐的产品列表,以期望用户能够看到他可能喜欢尚未了解的产品。对终端用户和搜索引擎都非常有价值协同过滤算法分析:1. 根据协同过滤算法的分析,可以划分为:基于用户相似度和基于条目相似度的推荐系统方法2. 基于用户相似度的推荐算法介绍: 1》获取用户评分,建立矩阵,将没有评分的项目. 阅读全文
posted @ 2014-03-14 15:34 曹守鑫 阅读(535) 评论(0) 推荐(0)
摘要:推荐算法1. 基于内容的推荐基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。主要是从两个方法来描述基于内容的推荐方法:启发式的方法和基于模型的方法。启发式的方法就是用户凭借经验来定义相关的计算公式,然后再根据公式的计算结果和实际的结果进行验证,然后再不断修改公式以达到最终目的。而对于模型的方法就是根据以往的数据作为数据集,然后根据这个数据集来学习出一个模型。一般的推荐系统中运用到的启发式的方法就是使用tf-idf的方法来计算,跟还有tf-idf的方法计算出这个文档中出现权重比较高的关键字作为描述 阅读全文
posted @ 2014-03-14 10:51 曹守鑫 阅读(3795) 评论(0) 推荐(0)
摘要:转载:http://blog.csdn.net/hguisu/article/details/8013489HITS算法是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用。Hub页面(枢纽页面)和Authority页面(权威页面)是HITS算法最基本的两个定义。所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页 阅读全文
posted @ 2014-03-06 15:07 曹守鑫 阅读(2337) 评论(0) 推荐(0)
摘要:决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。上图完整表达了这个女孩决定是否见一个约会对象的策略,其中绿色节点表示判断条件,橙色节点表示决策结果,箭头表示在一个判断条件在不同情况下的决策路径,图中红色箭头表示了上面例子中女孩的决策过程。决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点, 阅读全文
posted @ 2014-02-26 17:16 曹守鑫 阅读(399) 评论(0) 推荐(0)
摘要:第一步,计算词频。考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。或者第二步,计算逆文档频率。这时,需要一个语料库(corpus),用来模拟语言的使用环境。如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。第三步,计算TF-IDF。可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。计算文章相似度算法: 阅读全文
posted @ 2014-02-26 16:01 曹守鑫 阅读(2338) 评论(0) 推荐(0)
摘要:DBSCAN算法基于密度的空间聚类算法,用于含有噪声的数据, 阅读全文
posted @ 2013-12-05 11:24 曹守鑫 阅读(158) 评论(0) 推荐(0)
摘要:rock算法主要用于类别型数据,如关键字、布尔属性、枚举值。该算法能很好的处理大型数据集。rock算法的核心思想是基于链接的相似性的度量。相似度的计算:rock算法是基于链接的,链接意思是:两个数据点公有的邻居,当我们考虑是否需要合并聚类X与聚类Y时,通过计算两个聚类中数据点之间的链接数量;Rock算法相似的计算公式(两个聚类之间)1》 基于欧几里德距离的,均方差2》 基于集合论的Jaccard系数3》 余弦定理,向量求解算法求解步骤:1.设置聚类的个数,和相似度阈值2.设置相似度矩阵和链接矩阵3.rock是自底向上的层次凝聚算法,最初每个点都是单独的聚类,然后进行合并,直到所有的点都合并成一 阅读全文
posted @ 2013-12-05 11:22 曹守鑫 阅读(1424) 评论(0) 推荐(2)
摘要:1. 朴素贝叶斯公式P(C|D)=P(D|C)P(C)/P(D)=P(D|C)P(C)/{求和c属于C,P(D|C=c)P(C=c)}可以利用朴素贝叶斯公式计算文档d属于哪一个类别Ci,可以将该文档归类于概率最大的那一类,用于文档分类,垃圾处理概率空间模型;多重伯努力模型,P(w|c)=DFw,c/Nc;这里DFw,c类别C中包含w的文本数量,Nc:表示训练样本中类别c的文本数量,通过最大似然估计,通过将文档拆分成词项,求解概率,通过乘积。多项式模型,考虑了此项的数量问题,计算概率,使贝叶斯分类其器成为一般的分类算法的最好选择;支持向量机:与基于概率论原理的朴树贝叶斯完全不同,是基于几何学原. 阅读全文
posted @ 2013-11-24 12:46 曹守鑫 阅读(180) 评论(0) 推荐(0)
摘要:聚类算法基于无监督学习,集不需要任何训练数据,聚类算法针对一个没有标注的实例集合,对所有实例分组。这里介绍两类算法,一个是层次聚类,一个是K均值聚类,主要差别在目标函数不同。层次聚类分为两种:一种以分层的方式建立分组,另一种以聚合聚类。当迭代收敛时停止运算。层次聚类之间主要是代价函数不同cost(Ci,Cj),计算出所有的簇对代价后,选出合并代价最低的两个簇。代价函数:单连同方法,cost(Ci,Cj)=min{dist(Xi,Xj)|Xi属于Ci,Xj属于Cj},通常利用欧几里德距离公式全连通方法:cost(Ci,Cj)=max{dist(Xi,Xj)}平均连通方法:cost(Ci,Cj)= 阅读全文
posted @ 2013-11-24 12:16 曹守鑫 阅读(606) 评论(0) 推荐(0)