清淞 - 博客园

2013年10月15日

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个准则： 1) d(x,x) = 0 // 到自己的距离为0 2) d(x,y) >= 0 // 距离非负 3) d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是 a，那么 B 到 A 的距离也... Read More

posted @ 2013-10-15 15:36 清淞 Views(336) Comments(0) Diggs(0)

【转】回归与梯度下降

回归(Regression)在数学上来说是给定一个点集，能够用一条曲线去拟合之，如果这个曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归，回归还有很多的变种，如locally weighted回归，logistic回归，等等。用一个很简单的例子来说明回归，这个例子来自很多的地方，比如说weka。大概就是，做一个房屋价值的评估系统，一个房屋的价值来自很多地方，比如说面积、房间的数量（几室几厅）、地段、朝向等等，这些影响房屋价值的变量被称为特征(feature)，feature在机器学习中是一个很重要的概念，有很多的论文专门探讨这个东西。在此处，为了简单，假设我们的房屋 Read More

posted @ 2013-10-15 13:21 清淞 Views(155) Comments(0) Diggs(0)

【转】支持向量机 (二)

支持向量机基本上是最好的有监督学习算法了。看很多正统的讲法都是从VC 维理论和结构风险最小原理出发，然后引出SVM什么的，还有些资料上来就讲分类超平面什么的。我们logistic回归出发，引出了SVM，既揭示了模型间的联系，也让人觉得过渡更自然。logistic回归Logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。形式化表示就是假设函数其中x是n维特征向量，函数g就是logistic函数。 Read More

posted @ 2013-10-15 13:14 清淞 Views(141) Comments(0) Diggs(0)

【转】支持向量机 (一)

从1995年Vapnik等人提出一种机器学习的新方法支持向量机(SVM)之后，支持向量机成为继人工神经网络之后又一研究热点，国内外研究都很多。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度，Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷，以期获得最好的推广能力(Generalizatin Ability)。SVM一种新的非常有发展前景的分类识别技术。SVM是建立在统计学习理论中结构风险最小化原理基础上，根据有限的样本信息，在模型的复杂性(即对特定训练样本的学习精度)和学习能力( Read More

posted @ 2013-10-15 13:14 清淞 Views(242) Comments(0) Diggs(0)

2013年10月14日

【转】最大后验估计(Maximum-a-Posteriori (MAP) Estimation)

最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。首先，我们回顾上篇文章中的最大似然估计，假设x为独立同分布的采样，θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为：现在，假设θ的先验分布为g。通过贝叶斯理论，对于θ的后验分布如下式所示：最后验分布的目标为：注：最大后验估计可以看做贝叶斯估计的一种特定形式。举例来说：假设有五个袋子，各袋中都有无限量的饼干(樱桃口味或柠檬口味)，已知五个袋子中两种口味的比例分别是樱桃 100%... Read More

posted @ 2013-10-14 21:10 清淞 Views(417) Comments(0) Diggs(0)

JUST MAKE IT

求真 - 去伪 - 耐心

公告