Loull - 博客园

EM算法小结

2013-10-16 19:59 by Loull, 327 阅读, 0 推荐, 收藏,

摘要：一、什么是EM算法？EM算法是机器学习中一个很重要的算法，即期望最大化算法，主要包括以下两个步骤：E步骤：estimate the expected valuesM步骤：re-estimate parameters这个算法的主要作用在于对参数的估计上。虽然EM算法也可以进行数据聚类，并且基于混合高斯分布进行数据拟合，但是由于EM算法进行迭代速度很慢，比kmeans性能差很多，并且KMEANS算法聚类效果没有比EM差多少，所以一般用kmeans进行聚类，而不是EM。二、阅读全文

0 Comment

相似度计算常用方法综述

2013-10-16 14:03 by Loull, 1335 阅读, 0 推荐, 收藏,

摘要：引言相似度计算用于衡量对象之间的相似程度，在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分，对象的特征表示，特征集合之间的相似关系。在信息检索、网页判重、推荐系统等，都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景，受限于数据规模、时空开销等的限制，相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用，进行一些常用的相似度计算方法进行介绍。2向量空间模型向量空间模型（Vector space model）是应用最广泛的一个基础相似度计算模型，在该模型中，每个对象映射为一个特征向量:作为一个应用广泛的模型，向量空间模型在现有的很阅读全文

0 Comment

蒙特卡罗(Monte Carlo)方法简介

2013-10-14 19:34 by Loull, 6981 阅读, 0 推荐, 收藏,

摘要：蒙特卡罗(Monte Carlo)方法，也称为计算机随机模拟方法，是一种基于"随机数"的计算方法。二解决问题的基本思路 Monte Carlo方法的基本思想很早以前就被人们所发现和利用。早在17世纪，人们就知道用事件发生的"频率"来决定事件的"概率"。19世纪人们用投针试验的方法来决定圆周率π。本世纪40年代电子计算机的出现，特别是近年来高速电子计算机的出现，使得用数学方法在计算机上大量、快速地模拟这样的试验成为可能。为了说明Monte Carlo方法的基本思想，让我们先来看一个简单的例子，从此例中你可以感受如何用Monte 阅读全文

0 Comment

蒙特卡洛模拟（Monte Carlo simulation）

2013-10-14 19:32 by Loull, 19544 阅读, 0 推荐, 收藏,

摘要：1、蒙特卡罗模拟简介蒙特卡罗模拟，也叫统计模拟，这个术语是二战时期美国物理学家Metropolis执行曼哈顿计划的过程中提出来的，其基本思想很早以前就被人们所发现和利用。早在17世纪，人们就知道用事件发生的"频率"来决定事件的"概率"。19世纪人们用投针试验的方法来决定圆周率π。本世纪40年代电子计算机的出现，特别是近年来高速电子计算机的出现，使得用数学方法在计算机上大量、快速地模拟这样的试验成为可能。蒙特卡洛模拟是一种通过设定随机过程，反复生成时间序列，计算参数估计量和统计量，进而研究其分布特征的方法。蒙特卡洛模拟方法的原理是当问题或对象本身具有概率特阅读全文

0 Comment

为什么要用Markov chain Monte Carlo (MCMC)

2013-10-14 18:32 by Loull, 1775 阅读, 0 推荐, 收藏,

摘要：马尔科夫链的蒙特卡洛采样的核心思想是构造一个Markov chain，使得从任意一个状态采样开始，按该Markov chain转移，经过一段时间的采样，逼**稳分布stationary distribution/equilibrium distribution（目标分布），最后选用逼*后的样本作为最终的采样。那么为什么要用MCMC呢，在什么情况下使用呢，这里给出一些个人的学习心得。1. 什么情况下用？很多书籍或论文给出的情况是，目标分布难以被直接估计的情况下使用，那么具体是什么情况呢？举一个很简单的例子：现在对3个Binary变量X1,X2,X3进行采样，而三个变量之间的关系可以用存在自转阅读全文

0 Comment

随机模拟MCMC和Gibbs Sampling

2013-10-14 16:23 by Loull, 951 阅读, 0 推荐, 收藏,

摘要：随机模拟统计模拟中有一个重要的问题就是给定一个概率分布p(x)，我们如何在计算机中生成它的样本。一般而言均匀分布 Uniform(0,1)的样本是相对容易生成的。通过线性同余发生器可以生成伪随机数，我们用确定性算法生成[0,1]之间的伪随机数序列后，这些序列的各种统计指标和均匀分布 Uniform(0,1) 的理论计算结果非常接近。这样的伪随机序列就有比较好的统计性质，可以被当成真实的随机数使用。生成一个概率分布的样本而我们常见的概率分布，无论是连续的还是离散的分布，都可以基于Uniform(0,1) 的样本生成。例如正态分布可以通过著名的 Box-Muller 变换得到[Box-Mulle 阅读全文

0 Comment

Variational Approximate Inference

2013-10-13 19:51 by Loull, 465 阅读, 0 推荐, 收藏,

摘要：图模型（Graphical Models）是一个用来表示概率模型的工具。所谓概率模型，也就是在刻画一组随机变量之间的相互关系。图模型就是用来显式地刻画这些变量之间关系的。在图模型中，每个变量由图中的一个结点表示，而每一条边则代表其所连接的两个变量之间有相互依赖关系。根据图的结构可以方便地判断变量之间的独立性、条件独立性等关系，并且可以指导我们做一些inference的工作。图模型有两种，用无向图表示的称为马尔可夫随机场（Markov Random Field，MRF），有向图表示的称为贝叶斯网络（Bayesian Network）。其区别在于，贝叶斯网络中的边有明确定义的条件依赖关系。有向阅读全文

0 Comment

javascript产生对象(不建议看)

2013-10-12 00:25 by Loull, 314 阅读, 0 推荐, 收藏,

摘要：产生对象的方式：一、new+构造函数1、JavaScript的内置构造函数，如Date（），Function（），Array（），Object（）2、自定义的构造函数二、对象字面量｛｝三、继承用 var anObject = new aFunction() 形式创建对象的过程实际上可以分为三步：第一步是建立一个新对象（anObject）；第二步将该对象内置的原型对象（anObject的prototype）设置为构造函数prototype引用的那个原型对象；第三步就是将该对象（anObject）作为this参数的值调用构造函数（即这时候this代表anObject），完成成员设置等初始化工作。阅读全文

0 Comment

javascript本地，宿主，内置对象

2013-10-12 00:22 by Loull, 288 阅读, 0 推荐, 收藏,

摘要：一、本地对象：官方定义的对象独立于宿主环境的 ECMAScript 实现提供的对象，包括操作系统和浏览器。本地对象就是 ECMA-262 定义的类（引用类型）。“本地对象”包含内容： Object、Function、Array、String、Boolean、Number、Date、RegExp、Error、EvalError、RangeError，ReferenceError、SyntaxError、TypeError、URIError 二、内置对象：是本地对象的一种，只有Math和Global（实际不存在的，相当于用来引用全局属性和函数）ECMAScript 实现提供的、独立于宿主环境的所有阅读全文

0 Comment

javascript对象

2013-10-12 00:17 by Loull, 344 阅读, 0 推荐, 收藏,

摘要：JavaScript是一种原型式（prototype-style）的OO语言没有类的概念，所有的一切都派生自现有对象的一个副本JavaScript数据类型：1、简单类型：数字，字符串，布尔值，null值，undefined值数字，字符串，布尔值“貌似”对象，因为它们拥有方法，但它们是不可变的2、其它都是对象：可变的键控集合。包括数组，函数，正则表达式等对象：对象是属性的容器，其中每个属性都拥有名字和值。属性的名字：可以是包括空字符串在内的任意字符串属性的值：除undefined值之外的任何值对象是无类别的（class-free），对新属性和的名字和值没有约束。对象合适收集管理数据Java 阅读全文

0 Comment

javascript语法

2013-10-12 00:05 by Loull, 270 阅读, 0 推荐, 收藏,

摘要：一、空白二、标识符标识符：是字母开头，后面可以选择字符，数字，下划线。标识符不能是保留字标识符用于：语句，变量，参数，属性名，运算符，标记三、数字JavaScript只有单一的数字类型。它在内部被表示为64位的浮点数，它没有分离出整形，所以1和1.0是一样的。100=1e2负数 -NaN：是一个数值，NaN不等于任何值，包括自己Infirmity表示极大值数字拥有方法！！四、字符串字符串字面量：可以在单引号‘ 或双引号“ 中，\ 表示转义字符JavaScript字符是用unicode编码，‘A’===‘\0041’,unicode表示每一位是16进制表示，0，0，4，1都是16进制数字符串有个阅读全文

0 Comment

JavaScrip总体

2013-10-12 00:01 by Loull, 218 阅读, 0 推荐, 收藏,

摘要：js: 简单对象：数字 | 字符串 | 这三个像对象，有方法，但不可变布尔值 | null undefined 对象：无类型，k-v对集合：函数、数组、REG、...JavaScript是一种lambda语言，是基于原型的语言JavaScript的对象不会有真的空对象，因为它们可以从原型链中取得成员元素。在web浏览器里，window是全局对象，是所有全局变量的容器。（全局变量是糟粕，尽量避免用之，比如var foo；就声明了一个全局变量）函数弱类型动态对象字面量liberal表示法原型原型继承函数是头等对象函数是有词法作用域的闭包（la... 阅读全文

0 Comment

ArrayList序列化

2013-09-25 15:11 by Loull, 1324 阅读, 0 推荐, 收藏,

摘要：ArrayList源代码中的private transient E[] elementData; 声明为transient，为什么还可以序列化成功呢？ArrayList重写了private void writeObject(java.io.ObjectOutputStream s) throws java.io.IOException{ int expectedModCount = modCount; // Write out element count, and any hidden stuff s.defaultWriteObject(); ... 阅读全文

0 Comment

Java序列化总结

2013-09-25 15:05 by Loull, 464 阅读, 0 推荐, 收藏,

摘要：什么是序列化？序列化是将对象的状态信息转化为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。以后可以通过存储区中读取或反序列化对象的状态重新创建对象。为什么要序列化？有两个最重要的原因促使对序列化的使用：一个原因是将对象的状态保持在存储媒体中，以便可以在以后重新创建精确的副本；另一个原因是通过值将对象从一个应用程序域发送到另一个应用程序域中。例如，在网络中传输的数据都必须要序列化。 Java中的序列化 Java中的序列化机制能够将一个实例对象的状态信息写入到一个字节流中，使其可以通过socket进行传输或者持久化存储到数据库或文件系统中，然后... 阅读全文

0 Comment

Approximate Inference 近似推断

2013-09-16 23:08 by Loull, 1763 阅读, 0 推荐, 收藏,

摘要：引入统计推断的核心任务，是观察到一些X（可见变量戒可观察变量）之后计算隐变量Z的后验分布p(Z|X)，以及在这个后验分布下计算我们所需要的函数的期望。比如，讲EM时，我们曾计算过对数似然函数在隐变量后验分布下的期望（公式9.30），作为EM中的E步。但我们都知道，求期望要用到求和戒积分运算，很多情况下，计算它们往往不那么简单。首先，我们积分所涉及的分布可能很复杂，不像混合高斯做EM时每步迭代都有解析解；其次，我们要积分的变量空间可能维度很高，这样就把我们做数值积分的路给堵死了。因为这两个原因，我们迚行精确计算往往是不可行的。为了解决这一问题，我们需要引入一些近似计算方法。近... 阅读全文

0 Comment

About