该文被密码保护。 阅读全文
随笔档案-2013年3月6日
fuzzy c-means
2013-03-06 16:21 by ggzwtj, 4364 阅读, 收藏,
摘要:
在k-means中,每个元素只能属于所有类别中的一类。那这样会带来一些问题:所有的元素对于计算聚类中心的贡献都是相同的。 因为从根本上,对于属于一个类的所有元素来说,在k-means中是无法将他们区别开的(如果非要用距离什么的来区分也可以,但是这部分功能不是k-mean擅长的)。而在fuzzy c-means中,元素可能属于任何一类,不同的是它们之间的可能性是不同的。数学表示如下:Jm = ΣΣuijm × |xi - ci|2其中:xi:元素;cj:聚类中心;uij:元素xi对于聚类中心cj的隶属度(属于这个类的可能性);m:大于1的实数,一般取值2.0; Jm用来评估聚类效果,J 阅读全文
k-means
2013-03-06 14:38 by ggzwtj, 239 阅读, 收藏,
摘要:
k均值聚类算法是无监督的,这里均值的含义应该是指在确定新的聚类中心时的算法,具体的过程如下:随机选择k个元素作为中心;将剩下的元素归类到距离最近的聚类中心;重新计算每个类的中心的位置:计算这个类中元素的平均值;对所有元素重新归类,如果归类结果与之前不同,转3;输出聚类结果;需要注意的几点:在不同的场景选择合适的距离计算方式;一些特殊的场合中是不会知道聚类中心具体的值;----- -- -end. 阅读全文
贝叶斯分类
2013-03-06 13:57 by ggzwtj, 416 阅读, 收藏,
摘要:
贝叶斯分类是指利用概率统计知识来进行分类的算法,基于贝叶斯定理。但是由于贝叶斯定理有一个假设:每个属性对类的影响互相独立。但在实际中,这个假设基本不成立,所以贝叶斯分类的准确度也可能因此有所下降。贝叶斯定理如下: P(A|B) = P(B)× P(B|A) / P(A)证明非常简单: P(A∩B) = P(A)× P(B|A) = P(B)× P(A|B)。贝叶斯分类问题的定义如下:定义特征属性x = {ai},0 < i < m;预先定义类别集合c = {yi},0 < i < n;计算{P(yi|x)},0 < i < n; 阅读全文
viterbi
2013-03-06 11:29 by ggzwtj, 382 阅读, 收藏,
摘要:
隐马尔可夫模型viterbi算法 viterbi算法要解决的问题是:在已知a、b、y的情况下,求可能性最大的x。注意到马尔可夫的性质和一般的动态规划问题中的性质很像,所以这里可以用动态规划来求可能性最大的x: P(t, x)表示t时刻、状态为x得到y的概率,那么: P(t+1, xj) = max{P(t, xi)× aij× bj}其中:aij为状态转移概率;bj为输出概率;注:在DP的过程中把初始值也带上,完成后找到最大的那个即可。基于统计的中文分词 简单的中文分词:正向最大匹配、逆向最大匹配、双向最大匹配、最小词数等简单的匹配规则在大部分情况下能工作的很好,但是在遇到 阅读全文
浙公网安备 33010602011771号