2014年5月23日

社会化网络分析

摘要: 共词分析是对关键词共现现象进行研究的一种重要方法。它是对一组词在同一篇文档中出现的次数做统计,以此为基础对词进行聚类分析,从而显示这些词的亲疏关系,进一步分析分析这些词所代表的学科和主题的结构变化。利用共词方法可以概述研究领域的研究热点,横向和纵向分析领域知识的发展过程、特点以及领域... 阅读全文

posted @ 2014-05-23 17:24 代码王子 阅读(381) 评论(0) 推荐(0)

基于领域相关度和领域一致度的领域术语抽取实现

摘要: 领域相关度: 其中 领域一致度: ,其中 在抽取之前,需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。 有一些数据是不完整的,甚至是脏... 阅读全文

posted @ 2014-05-23 17:05 代码王子 阅读(299) 评论(0) 推荐(0)

地球物理学部分术语共现图

摘要: 地球物理学部分术语共现图 阅读全文

posted @ 2014-05-23 16:37 代码王子 阅读(97) 评论(0) 推荐(0)

Mahout 模糊kmeans

摘要: Mahout 模糊KMeans 一、算法流程 模糊 C 均值聚类(FCM),即众所周知的模糊 ISODATA,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。1973 年,Bezdek 提出了该算法,作为早期硬 C 均值聚类(HCM)方法的一种改进。 FCM 把 n 个向量 ... 阅读全文

posted @ 2014-05-23 15:52 代码王子 阅读(150) 评论(0) 推荐(0)

Mahout kmeans聚类

摘要: Mahout K-means聚类 一、Kmeans 聚类原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。 假... 阅读全文

posted @ 2014-05-23 15:41 代码王子 阅读(268) 评论(0) 推荐(0)

Mahout canopy聚类

摘要: Canopy 聚类 一、Canopy算法流程 Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。 (2)任取一个样本点p,作为一个Canopy,记为C,从S中移除p。 (3)计算S中所有点到p的距离dist (4)若dist cano... 阅读全文

posted @ 2014-05-23 15:37 代码王子 阅读(172) 评论(0) 推荐(0)

导航