摘要: 对Bayesian vs Frequentist有了点新理解。Bayesian说白了就是to admit and to try to deal with uncertainty about everything。承认机器学习各个过程各个层面的uncertainty,并且试图表达这种uncertainty。机器学习或者说模式识别可以大致分为三步。1.Model selection 解决这个问题应该使用什么样的模型?线性还是非线性?复杂度多少合适才会既不因为太简单而be lack of the capability to capture the structure of the dataset又不 阅读全文
posted @ 2013-01-23 19:36 ChrisMachineLearning 阅读(821) 评论(0) 推荐(0)
摘要: Mahalanobis距离就是MVN中的指数部分中的距离项,MVN用其度量x与mean之间的距离,用来影响概率密度p(x)。实际上该距离就是将两个高维空间中的点(x和mean)之间的欧氏距离进行了扩展,扩展到其中一个点(x here)是随机变量的情况。且将x各维度之间的相关性考虑进去,当x各维度之间彼此独立时该距离退化成欧氏距离。Regression解决的实际上是寻找两个随机变量之间联系的问题。即,有两个随机变量x和y,两者之间有所关联,但又不能完全确定,因为有随机性(因此没必要也不应该试图将给定的(x,y) pairs完全拟合)。因此给定x我们并不能完全确定y,而只能推知p(y|x),我们希 阅读全文
posted @ 2013-01-15 17:22 ChrisMachineLearning 阅读(346) 评论(0) 推荐(0)
摘要: 来自PRML的1.6 一个随机变量可以取多个值,每取一个值相当于发生了一个event,不同event发生后产生的信息量不同,这个信息量应该如何度量呢? 首先,信息量应该与这件事发生的概率有关,越小概率的事情发生了产生的信息量越大,如地震了;越大概率的事情发生了产生的信息量越小,如太阳从东边升起来了。因此一个event的信息量应该是随着其发生概率而递减的,且不能为负。 其次,两个独立event... 阅读全文
posted @ 2013-01-15 17:10 ChrisMachineLearning 阅读(1946) 评论(0) 推荐(0)
摘要: 机器学习的问题可以分为两步,一是modeling/inference,二是predicting。modeling就是试图为数据/visible variable(s)/training set做出解释——找出数据产生的模型distribution/模式pattern(数据与所属类别的关系、数据与regression的关系);predicting是利用这种解释来做决策——对具体的new data进行... 阅读全文
posted @ 2013-01-09 17:39 ChrisMachineLearning 阅读(1310) 评论(0) 推荐(0)
摘要: 刚刚看完MIT的Linear Algebra课程,应该总结一下。 1.矩阵的秩 rank(A)就是A进行高斯消元法后的非零pivot数,也就是矩阵中不相关的行向量数和列向量数,因此不可能超过m和n,当等于m或n时,分别称为行满秩和列满秩。矩阵的秩体现了矩阵的相关性,决定了矩阵四个基本空间的维度,是矩阵的维度信息。 2.空间 空间就是向量集合,并且满足空间中的向量的线性组合(数乘,相加)还在... 阅读全文
posted @ 2013-01-06 21:18 ChrisMachineLearning 阅读(2203) 评论(1) 推荐(1)