随笔分类 -  Mathematics

1
摘要:最近看一些文档,看见了互信息的使用,第一次接触互信息,感觉和专业有些相关,就把它记录下来,下面是一片不错的文章。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。平均互信息量定义:互信息量I(xi;yj)在联合概率空间P(XY)中的统... 阅读全文
posted @ 2014-05-19 10:08 ywl925 阅读(6076) 评论(0) 推荐(0) 编辑
摘要:KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用D(P||Q)表示KL距离,计算公式如下:当两个概率分布完全相同时,即P(x)=Q(X),其相对熵为0 。我们知道,概率分布P(X)的信息熵为:其表示,概率分布P(x)编码时,平均每个基本事件(符号)至少需要多少比特编码。通过信息熵的学习,我们 阅读全文
posted @ 2014-02-18 16:40 ywl925 阅读(31820) 评论(0) 推荐(3) 编辑
摘要:前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点。对于改进PLSA,引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍。1 LSA and SVDLSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档 阅读全文
posted @ 2014-02-17 16:43 ywl925 阅读(11632) 评论(1) 推荐(1) 编辑
摘要:求具体矩阵的逆矩阵求元素为具体数字的矩阵的逆矩阵时,常采用如下一些方法.方法1 伴随矩阵法:. 注1 对于阶数较低(一般不超过3阶)或元素的代数余子式易于计算的矩阵可用此法求其逆矩阵.注意元素的位置及符号.特别对于2阶方阵,其伴随矩阵,即伴随矩阵具有“主对角元互换,次对角元变号”的规律. 注2 对分块矩阵不能按上述规律求伴随矩阵.方法2 初等变换法: 注对于阶数较高()的矩阵,采用初等变换法求逆矩阵一般比用伴随矩阵法简便.在用上述方法求逆矩阵时,只允许施行初等行变换.方法3 分块对角矩阵求逆:对于分块对角(或次对角)矩阵求逆可套用公式其中均为可逆矩阵. 例1 已知,求. 解 将分块如下:其中. 阅读全文
posted @ 2014-02-16 15:51 ywl925 阅读(1546) 评论(0) 推荐(0) 编辑
摘要:实现一下。IDQuestionDiffFreqData StructureAlgorithms1Two Sum25arraysortsetTwo Pointers2Add Two Numbers34linked listTwo PointersMath3Longest Substring Without Repeating Characters32stringTwo Pointershashtable4Median of Two Sorted Arrays53arrayBinary Search5Longest Palindromic Substring42string6ZigZag Conv 阅读全文
posted @ 2014-01-06 22:06 ywl925 阅读(4559) 评论(0) 推荐(1) 编辑
摘要:矩阵的迹(trace)X∈P(n×n),X=(xii)的主对角线上的所有元素之和称之为X的迹,记为tr(X),即tr(X)=∑xii性质:(1)设有N阶矩阵A,那么矩阵A的迹(用tr(A)表示)就等于A的特征值的总和,也即A矩阵的主对角线元素的总和。1.迹是所有对角元的和2.迹是所有特征值的和3.某... 阅读全文
posted @ 2013-12-09 11:14 ywl925 阅读(13323) 评论(0) 推荐(0) 编辑
摘要:接上文:贝叶斯推断及其互联网应用(一):定理简介七、什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。另外,这种过滤器还具有自我学习的功能 阅读全文
posted @ 2013-10-25 10:56 ywl925 阅读(708) 评论(0) 推荐(0) 编辑
摘要:一、什么是贝叶斯推断贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。它是贝叶斯定理(Bayes' theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。贝叶斯推断需要大量的计算,因此历史上很长一段时间,无法得到广泛应用。只有计算机诞生以后,它才获得真正的重视。人们发现,许多 阅读全文
posted @ 2013-10-25 10:52 ywl925 阅读(677) 评论(0) 推荐(0) 编辑
摘要:分类模型尝试将各个实例(instance)划归到某个特定的类,而分类模型的结果一般是实数值,如逻辑回归,其结果是从0到1的实数值。这里就涉及到如何确定阈值(threshold value),使得模型结果大于这个值,划为一类,小于这个值,划归为另一类。考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True positive) 阅读全文
posted @ 2013-10-24 21:53 ywl925 阅读(1468) 评论(0) 推荐(0) 编辑
摘要:理论:假设M是一个m×n阶矩阵,其中的元素全部属于域 K,也就是 实数域或复数域。如此则存在一个分解使得M = UΣV*,其中U是m×m阶酉矩阵;Σ是半正定m×n阶对角矩阵;而V*,即V的共轭转置,是n×n阶酉矩阵。这样的分解就称作M的奇异值分解。Σ对角线上的元素Σi,i即为M的奇异值。直观的解释在矩阵M的奇异值分解中 M = UΣV*·U的列(columns)组成一套对M的正交"输入"或"分析"的基向量。这些向量是M*M的特征向量。·V的列(columns)组成一套对M的正交"输出& 阅读全文
posted @ 2013-09-15 21:42 ywl925 阅读(1134) 评论(0) 推荐(0) 编辑
摘要:著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果。该文提出了一种新的矩阵分解思想――非负矩阵分解(Non-negative Matrix Factorization,NMF)算法,即NMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。该论文的发表迅速引起了各个领域中的科学研究人员的重视:一方面,科学研究中的很多大规模数据的分析方法需要通过矩阵形式进行有效处理,而NMF思想则为人类处理大规模数据提供了一种新的途径;另一方面,NMF分解算法相较于传统的一些算法而言,具有实现上的简便性、分解形式和分解结果上的可解释. 阅读全文
posted @ 2013-09-11 21:56 ywl925 阅读(8448) 评论(0) 推荐(0) 编辑
摘要:协方差的意义和计算公式学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是 阅读全文
posted @ 2013-07-24 15:36 ywl925 阅读(219374) 评论(9) 推荐(16) 编辑
摘要:1. 随机模拟随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。随机模拟与计算机现代的统计模拟方法最早由数学家乌拉姆提出,被Metropolis命名为蒙特卡罗方法,蒙特卡罗是著名的赌场,赌博总是和统计密切关联的,所以这个命名风趣而贴切,很快被大家广泛接受。被. 阅读全文
posted @ 2013-06-05 14:31 ywl925 阅读(42254) 评论(3) 推荐(1) 编辑
摘要:海森矩阵(Hessian matrix 或 Hessian) 在数学中,海塞矩阵(Hessian matrix或Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵,此函数如下: 如果f所有的二阶导数都存在,那么f的海塞矩阵即: H(f)ij(x) =DiDjf(x) 其中,即 维基百科:地址二阶偏导数矩阵也就所谓的海赛矩阵(Hessian matrix)一元函数就是二阶导,多元函数就是二阶偏导组成的矩阵求向量函数最小值时用的,矩阵正定是最小值存在的充分条件。经济学中常常遇到求最优的问题,目标函数是多元非线性函数的极值问题尚无一般的求解方法,但判定局部极小值的... 阅读全文
posted @ 2013-05-17 11:01 ywl925 阅读(991) 评论(0) 推荐(0) 编辑
摘要:矩阵分解是最近几年比较火的算法,经过kddcup和netflix比赛的多人多次检验,矩阵分解可以带来更好的结果,而且可以充分地考虑各种因素的影响,有非常好的扩展性,因为要考虑多种因素的综合作用,往往需要构造cost function来将矩阵分解问题转化为优化问题,根据要考虑的因素为优化问题添加constraints,然后通过迭代的方法进行矩阵分解,原来评分矩阵中的missing vlaue可以通过分解后得到的矩阵求的。本文将简单介绍下最近学习到的矩阵分解方法。(1)PureSvd怎么评价这种方法呢?开始觉得这种方法很神奇很数学,而且在实际使用的时候也非常好用。但最近读了Yehuda大神的pap 阅读全文
posted @ 2013-04-23 17:07 ywl925 阅读(865) 评论(3) 推荐(1) 编辑
摘要:时间总是不够用,这里就不自己写了,摘自一篇转发的博客,感觉挺有用!一个大牛写的介绍,貌似需FQhttp://tedunderwood.wordpress.com/2012/04/07/topic-modeling-made-just-simple-enough/David M.Blei主页:http://www.cs.princeton.edu/~blei/publications.html,上面有布雷最新的文章:Introduction to probabilistic topic models以下内容来自网络,但是作者已经不可考啦,抱歉没法找到原始引用关于LDA并行化:那么若利用MapRe 阅读全文
posted @ 2013-04-09 10:46 ywl925 阅读(515) 评论(0) 推荐(0) 编辑
摘要:1. Pearson相关http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficientPearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(coefficient of product-moment correlation)。进行相关分析时,我们一般会同时对两变量绘制散点图,以更直观地考察两变量之间的相互变化关系。例7-1 某医生为了探讨缺碘地区母婴TSH水平的关系,应用免疫放射分析测定了160名孕妇(15-17周)及分娩时脐带血TSH水平(mU/L),现随机抽取10对数据,见表7.6,试 阅读全文
posted @ 2013-04-01 16:25 ywl925 阅读(5479) 评论(0) 推荐(0) 编辑
摘要:在论文中,结果的对比,常常用到皮尔逊相关系数,以检查结果的提高程度!1、简介皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:公式一:公式二:公式三:公式四:以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数。2、适用范围当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:(1)、两个变量之间是线性关系,都是连续数据。(2)、两个变量的总体是正态分布,或接近正态的单峰分布。(3)、两个变量的观测值是成对的,每对观测值之间相互独立。 阅读全文
posted @ 2013-03-29 16:53 ywl925 阅读(10093) 评论(0) 推荐(0) 编辑
摘要:中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的,但在中国大陆涉及经济学的很多书中,凹凸性的提法和其他国家的提法是一致的,也就是和数学教材是反的。凸函数是一个定义在某个向量空间的凸子集(区间)上的实值函数,如果在其定义域上的任意两点,以及,有。如果对于任意的有,函数是严格凸的。若对于任意的,其中,都有,则称函数是几乎凸的。在区间上的凸函数摘自维基百科 阅读全文
posted @ 2013-03-27 09:49 ywl925 阅读(573) 评论(0) 推荐(0) 编辑
摘要:The Dirichlet Distribution 狄利克雷分布可参考http://www.xperseverance.net/blogs/2012/03/510/Probability Distributions(Beta分布,多项式分布和高斯分布)可参考:http://www.xperseverance.net/blogs/2012/03/21/函数,也叫做伽玛函数(Gamma函数),是阶乘函数在实数与复数上的扩展。对于实数部份为正的复数z,伽玛函数定义为:此定义可以用解析开拓原理拓展到整个复数域上,非正整数除外。函数的递推公式为:,对于正整数,有,可以说函数是阶乘的推广。来自wiki的 阅读全文
posted @ 2013-03-19 15:08 ywl925 阅读(252) 评论(0) 推荐(0) 编辑

1
Copyright at 2012 yangwenlong