10 2014 档案

KNN算法理解
摘要:一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明... 阅读全文

posted @ 2014-10-28 09:18 souxun 阅读(283) 评论(0) 推荐(0)

SIFT Features
摘要:Scale Invariant Feature Transform (SIFT) is an approach for detecting and extracting local feature descriptors that are reasonably invariant to change... 阅读全文

posted @ 2014-10-20 14:59 souxun 阅读(505) 评论(0) 推荐(0)

Standford 关于机器学习相关课程的网址
摘要:http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearninghttp://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorialhttp:/... 阅读全文

posted @ 2014-10-19 20:44 souxun 阅读(218) 评论(0) 推荐(0)

EM算法
摘要:EM:最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计。1 极大似然估计 假设有如图1的X所示的抽取的n个学生某门课程的成绩,又知... 阅读全文

posted @ 2014-10-19 20:31 souxun 阅读(434) 评论(0) 推荐(0)

信息论-基础知识
摘要:对于一个离散的随机变量x,当我们观察到它的一个值,能给我们带来多少信息呢?这个信息量可以看做是我们观察到x的这个值带来的惊讶程度。我们被告知一个不太可能发生的事发生了要比告知一个非常可能发生的事发生,我们获得信息要多。 所以信息量的多少依赖于概率分布p(x),所以我们可以用关于p(x)的一个函数来... 阅读全文

posted @ 2014-10-19 20:27 souxun 阅读(825) 评论(0) 推荐(0)

注释:这50个词,在这10月30号之前完成
摘要:1、多项式分布 2、文本的多项式分布建模3、共轭先验4、概率平滑{Lapace平滑、加1平滑、Dirichlet贝叶斯平滑、2阶段语言模型}5、似然函数6、log似然函数7、期望最大化算法8、条件概率9、贝叶斯全公式10、生成模型11、判别模型12、条件期望13、拉格朗日系数14、VSM,LSI,P... 阅读全文

posted @ 2014-10-19 20:19 souxun 阅读(220) 评论(0) 推荐(0)

谱聚类(Spectral Clustering, SC)
摘要:谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目 的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Mi... 阅读全文

posted @ 2014-10-19 20:18 souxun 阅读(804) 评论(0) 推荐(0)

K-means聚类算法
摘要:转自 JerryLead 的博客 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、... 阅读全文

posted @ 2014-10-19 19:34 souxun 阅读(147) 评论(0) 推荐(0)