随笔分类 -  数据挖掘

摘要:在 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我们给出了GMM算法的基本模型与似然函数,在EM算法原理中对EM算法的实现与收敛性证明进行了详细说明。本文主要针对如何用EM算法在混合高斯模型下进行聚类进行代码上的分析说明。 1. GMM模型: 每个 GMM 由 K 个 Gaussian 分布组成,每个 Gaussian 称为一... 阅读全文
posted @ 2013-07-05 10:11 jiayouwyhit 阅读(518) 评论(0) 推荐(1)
摘要:以下内容转自:http://blog.csdn.net/lcjpure/article/details/8069704结合自己的学习经历,总结一下如何学习机器学习。我自己的学习过程其实是非常混乱和痛苦的,一个人瞎搞现在也不知道入没入门。希望能对其他想自学机器学习而找不到方向的人有一点点帮助。一、可以读读一些科普性的,综述性的东西。南京大学周志华教授写的科普文章《机器学习和数据挖掘》还不错,对机器学习和数据挖掘的区别说的挺好。另外对机器学习的历史和前景做了说明。文章最后也给出了领域内比较重要的会议和期刊。吴军写的数学之美(浪潮之巅也很赞)可能确切的说应该是搜索、自然语言处理、机器学习的一个综合性 阅读全文
posted @ 2013-06-02 15:35 jiayouwyhit 阅读(328) 评论(0) 推荐(0)
摘要:图1:mutilmodel distribution data 高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的连续概率分布函数,它描述了一种围绕某个单值聚集分布的随机变量。生活中,各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从高斯分布。同时,高斯分布也是统计学以及许多统计测试中最广泛应用的一类分布。中心极限定理表明... 阅读全文
posted @ 2013-04-26 15:44 jiayouwyhit 阅读(587) 评论(0) 推荐(1)
摘要:最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家。在数据挖掘中,k-Means 算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用肉眼可以看出来有四个点群,但是我们怎么通过计算机程序找出这几个点群来呢?于是就出现了我们的K-Means算法(Wikipedia链接)K-Mea 阅读全文
posted @ 2013-04-15 16:57 jiayouwyhit 阅读(316) 评论(0) 推荐(1)