摘要: 聚类的意思很明确,物以类聚,把类似的事物放在一起。 聚类算法是web智能中很重要的一步,可运用在社交,新闻,电商等各种应用中,我打算专门开个分类讲解聚类各种算法的java版实现。 首先介绍kmeans算法。 kmeans算法的速度很快,性能良好,几乎是应用最广泛的,它需要先指定聚类的个数k,然后根据k值来自动分出k个类别集合。 举个例子,某某教练在得到全队的数据后,想把这些球员自动分成不同的组别,你得问教练需要分成几个组,他回答你k个,ok可以开始了,在解决这个问题之前有必要详细了解自己需要达到的目的:根据教练给出的k值,呈现出k个组,每个... 阅读全文
posted @ 2013-03-12 16:44 盖文 阅读(319) 评论(0) 推荐(0)
摘要: 聚类算法中基于链接的算法大致有三种:单链接算法(single link),平均链接算法(average link),最小生成数算法(minimum spanning tree)。现在实现单链接算法,其他算法以后再续吧。 单链接算法的过程是 首先生成各个元素的距离矩阵,根据距离和阀值的比对来控制生成的聚类个数,阀值越大,生成的聚类越少,直到同属一类。 下面例子实现了根据经纬度来实现城市的聚类。 001 package singlelink;002 003 import java.util.ArrayList;004 import java.util.Hash... 阅读全文
posted @ 2013-03-12 16:37 盖文 阅读(817) 评论(0) 推荐(0)
摘要: 最小编辑距离1)定义编辑距离(Minimum Edit Distance,MED),又称Levenshtein距离,是指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。允许的编辑操作包括:将一个字符替换成另一个字符(substitution,s),插入一个字符(insert,i)或者删除一个字符(delete,d),如下图所示:在大学算法设计相关课程上,想必大家都已经学习过使用动态规划算法解最小编辑距离,形式化定义如下:最终求得D(n,m)即为字符串X[0...n]与Y[0...m]之间的最小编辑距离。2)应用最小编辑距离通常作为一种相似度计算函数被用于多种实际应用中,详细如下: ( 阅读全文
posted @ 2013-03-12 16:24 盖文 阅读(1160) 评论(0) 推荐(0)
摘要: 搞自然语言处理的应该不会对这个概念感到陌生,编辑距离就是用来计算从原串(s)转换到目标串(t)所需要的最少的插入,删除和替换的数目,在NLP中应用比较广泛,如一些评测方法中就用到了(wer,mWer等),同时也常用来计算你对原文本所作的改动数。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。Levenshtein distance (LD) is a measure of the similarity between two strings, which we will refer to as the source string ( 阅读全文
posted @ 2013-03-12 16:09 盖文 阅读(199) 评论(0) 推荐(0)
摘要: 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面来看看主要可以用哪些方法来衡量两者的差异,主要分为距离度量和相似度度量。距离度量 距离度量(Distance)用于衡量个体在空间上存在的距离,距.. 阅读全文
posted @ 2013-03-12 15:05 盖文 阅读(174) 评论(0) 推荐(0)
摘要: Google 拥有许多数据中心,它如何进行管理呢?答案就是软件系统 Borg。通过 Borg,公司可以将众多数据中心视为一个电脑,进行统一管理。Borg 是公司保存最好的秘密之一。不过,Twitter 工程师们开发了一个类似的系统,并且是开源的。这就是 Mesos。Wired 网站为我们揭开了 Mesos 开发背后的故事。Borg 由工程师 John Wilkes 主导开发。他并不喜欢 Borg 这个名字,“我乐意称其为那个不会被命名的系统”。Google 使用这个系统已经有九到十年的时间,而且他的团队正在开发新的版本,代号是 Omega。通过 Borg,Google 可以在大量的服务器之间有 阅读全文
posted @ 2013-03-12 00:16 盖文 阅读(137) 评论(0) 推荐(0)