2011年1月16日
摘要: 要想有效利用蒙特卡罗积分,需要能从不同概率密度函数中抽样。这里讨论几个适用于低维分布的抽样方法。 1.随机数生成器 大部分实际的随机数生成器基于下面的线性同余算法(a linear congruential algorithm) , 其中a,c,n都是正整数 它生成的正整数 的值域为[1,n)。如果将其处以n,那么就得到(0,1)范围上的均匀分布。如果a,c,n值选择合适的话,这个生成器的周期(直... 阅读全文
posted @ 2011-01-16 10:42 Tony Ma 阅读(367) 评论(0) 推荐(0)
摘要: 很多时候,我们不清楚统计量的分布,或不确定对它所作的假设是否合理。蒙特卡罗模拟可以处理这些情况,它的应用包括:1)当待检测统计量(the test statistics)从未知时,进行推断2)当参数假设(parametric assumptions),评估推断方法的性能3)在各种情况下进行假设检验4)比较不同检测子(estimator)的质量1.基本蒙特卡罗过程用于推断统计的蒙特卡罗模拟的根本思想是:统计量的特征可通过从相同总体中重复抽样,并观察统计量在这些样本上的表现来获得。第一步是决定一个伪总体(pseudo-population),假设它可以表达真实总体。这里“伪”是为了强调样本是利用计 阅读全文
posted @ 2011-01-16 10:41 Tony Ma 阅读(3593) 评论(0) 推荐(0)
  2011年1月7日
摘要: 1学习小波变换所需的基础知识由于小波变换的知识涵盖了调和分析,实变函数论,泛函分析及矩阵论,所以没有一定的数学基础很难学好小波变换.但是对于我们工科学生来说,重要的是能利用这门知识来分析所遇到的问题.所以个人认为并不需要去详细学习调和分析,实变函数论,泛函分析及矩阵论等数学知识.最重要是的理解小波变换的思想!从这个意义上说付立叶变换这一关必需得过!因为小波变换的基础知识在付立叶变换中均有提及,我觉... 阅读全文
posted @ 2011-01-07 11:26 Tony Ma 阅读(836) 评论(0) 推荐(0)
  2010年12月27日
摘要: (一)SVM的八股简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accurac... 阅读全文
posted @ 2010-12-27 15:50 Tony Ma 阅读(573) 评论(1) 推荐(0)
摘要: 前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的... 阅读全文
posted @ 2010-12-27 15:48 Tony Ma 阅读(928) 评论(0) 推荐(0)
  2010年12月3日
摘要: 推断统计(inferential statistics)用于形成关于总体(population)的结论,并且利用随机样本对这些结论的可信度进行评价,相关技术包括:利用点估计来估计总体参数,估计参数的置信区间,假设建议和建模(回归、密度估计等)。要估计推断的可信度,必须要了解分析过程涉及的统计量的分布。当使用的是已经重复理解的统计量(如样本均值)时,很容易开展相关分析。那么,在处理复杂问题时该怎么办?本章的目的就是要解释当传统的和分析统计方法无效时,如何利用模拟或蒙特卡罗方法进行推断。根据Murdoch [2000],蒙特卡罗最早是指利用随机游走(random walks)的模拟。后面逐步说明蒙 阅读全文
posted @ 2010-12-03 14:01 Tony Ma 阅读(379) 评论(0) 推荐(0)
  2010年12月1日
摘要: 许多计算统计方法需要从已知概率分布中生成随机变量,这也是用于统计推断(statistical inference)的蒙特卡罗方法的核心。 1.均匀随机数(Uniform Random Numbers) 均匀分布在(0,1)上的随机数是生成其它随机变量的基础。目前,计算机依靠判决算法生成的其实是伪随机数。生成均匀随机变量的相关方法在[Gentle, 1998]中有详尽的讨论。 生成均匀分布随机变量... 阅读全文
posted @ 2010-12-01 08:57 Tony Ma 阅读(1148) 评论(0) 推荐(0)
  2010年11月24日
摘要: 概率和统计中常常利用积分计算概率和期望。利用蒙特卡罗积分,可以将这一过程反转,从而实现利用期望去计算积分。 例如已知随机变量X满足条件 ,求 的步骤如下: 1)从分布p(x)中抽取独立样本 2)计算样本均值 3)估计统计误差:当样本独立时,方差= 4)那么 上面的方法很简单,但它最大的问题是误差减少的量级 ,非常慢。 阅读全文
posted @ 2010-11-24 13:59 Tony Ma 阅读(286) 评论(0) 推荐(0)
  2010年11月18日
摘要: 考虑两类问题。数据的似然函数为 (1),G是交叉熵误差函数 选择logistic sigmoid为输出激励函数 , 。这种激励函数可将网络输出解释为x属于类的概率 。 然后同前面一样,贝叶斯框架下对分类问题处理步骤也是三步: 1)权重先验:基于正则化项 引入网络权重先验 2)权重的后验:基于1)可推出 ,同样可以通过中心在 的单高斯分布近似 (2) 3)输出的分布:x属于类C1的概率通过... 阅读全文
posted @ 2010-11-18 16:16 Tony Ma 阅读(602) 评论(0) 推荐(0)
摘要: 当满足下面条件时将特征向量x付给类Ck时错分概率最小 (1) 由于边缘概率P(x)与类无关,因此上式转为 (2) 上面的操作就好像将特征空间划分成许多决策区域 ,当特性向量录入区域 时,则将其非给类 。这些区域无需是连续的。这些区域间的边界就是决策边界,或称为决策面。 下面通过单维特征空间两类问题来说明如何确定最佳决策面,示意图如下 图.1 错分发生在将一个新数据归为C1,而其实际类别为C2(对... 阅读全文
posted @ 2010-11-18 12:25 Tony Ma 阅读(1359) 评论(0) 推荐(0)