【数学分布】Dirichlet Distribution

假设我们在和一个不老实的人玩掷骰子游戏。按常理我们觉得骰子每一面出现的几率都是1/6,但是掷骰子的人连续掷出6,这让我们觉得骰子被做了手脚,而这个 骰子出现6的几率更高。而我们又不确定这个骰子出现6的概率到底是多少,所以我们猜测有50%的概率是:6出现的概率2/7,其它各面1/7;有25%的 概率是:6出现的概率3/8,其它各面1/8;还有25%的概率是:每个面出现的概率都为1/6,也就是那个人没有作弊,走运而已。用图表表示如下:

Latent dirichlet allocation note -- Prepare - 伊之魅 - jumay angel

我 们所猜测的值,如果设为X的话,则表示X的最自然的分布便是Dirichlet distribution。设随机变量X服从Dirichlet分布,简写为Dir(α),即X~Dir(α)。Α是一个向量,表示的是某个事件出现的次 数。比如对于上例,骰子的可能输出为{1,2,3,4,5,6},假设我们分别观察到了5次1~5,10次6,那么α = {5,5,5,5,5,10}。X则表示上例中的各种概率组合,比如{1/7,1/7,1/7, 1/7,1/7,2/7};{1/8, 1/8, 1/8, 1/8, 1/8, 3/8};{1/6, 1/6, 1/6, 1/6, 1/6, 1/6},那么P(X)则表示了该概率组合出现的概率,也就是概率的概率。

以下是公式:

Latent dirichlet allocation note -- Prepare - 伊之魅 - jumay angel

Latent dirichlet allocation note -- Prepare - 伊之魅 - jumay angel

下图来自WIKI[2],图像化了当K=3时的dirichlet分布。

Latent dirichlet allocation note -- Prepare - 伊之魅 - jumay angel

Dirichlet分布的重要性质:

Dirichlet分布是多项分布的共轭分布,也就是说,先验分布为Dirichlet分布,似然函数为多项分布,那么后验分布仍为Dirichlet分布。

在LDA中,Dirichlet分布是为了描述文档—主题层面的概率分布,一个文档由多个主题组成,而Dirichlet分布描述了主题集合的分布。具体将在后面讨论。

之所以选择Dirichlet分布是因为其共轭特性大大减小了计算量。

posted @ 2011-12-02 18:36  小卡的土豆园  阅读(467)  评论(0)    收藏  举报