Information Retrieval(信息检索)- Probabilistic Model & Language Model

概率模型的种类

目前为止,我们已经学习了简单的布尔检索模型和向量空间模型,概率模型 (Probabilistic Model)。我们可以先回顾一下检索的基本信息检索的基本思想。用户起始于信息需求(information need),然后将这些需求转换成查询表示(query representation)。类似地,文档(document)也可以转换成文档表示(document Representation)。需要注意的是,不管是转换后的文档表示还是查询与其原本的形式相比,其包含的信息量都会减少 基于这两种表示结果,系统试图确定文档对于信息需求的满足程度。

在布尔模型和向量空间模型中,这种满足程度通过索引词来计算,但是这两种模型中的计算方式虽有形式化定义,但在语义上并不精确,这很好理解,因为就算不同的信息需求,有时转换为查询也会变成相同的形式。在仅仅给定查询的情况下,IR 系统难以精确理解其背后的信息需求。即给定查询表示和文档表示,系统只能给出文档内容和需求是否相关的一个非确定性推测。而概率论可以为这种非确定性推理提供一个基本的理论。

 

1. 概率模型 (Probabilistic Model)

概率排序原理 (Probability Ranking Principle, PRP)
我们用 x 表示文档集中的一篇文档,用 R 表示给定查询 (Query) q 的情况下的相关 (Relevant),用 NR 表示不相关 (Nonrelevant)。因此我们想要找到 P(R | x) ,即文档 x 与查询 q 相关的概率:


我们其实也可以写为 P(R|x, q),但既然已经在这里将 q 作为 Evidence,也就可以进行省略

其中,P( R ) 和 P(NR) 表示检索一个 (不) 相关文档的先验概率 (Prior Probability)。P(x|R) 和 P(x|NR) 表示如果检索到的 (不) 相关的文档为 x 的概率。

因此,所谓的概率排序原理 (PRP) 即为使用概率模型来估计每篇文档 (Document) x 和查询 (Query) q 的相关概率 (Relevant Probability) P(R|x) ,然后对结果进行排序。通俗来讲,我们现在已经知道某一篇文档和查询q的相关概率。那么这意味着,这种相关概率可以认为是先验概率。因为,先验概率(prior probability)是指根据以往经验和分析得到的概率。即,是由已知信息得到的概率。

然后,通过贝叶斯公式,可以得到它的后验概率。这种得到后验概率的过程,可以称为是由已知信息获得的概率来寻找未知信息的概率。那么如何判断两者的相关性呢?

一般我们会选择贝叶斯最优决策定理 (Bayes’ Optimal Decision Rule) 来决定一个文档是否相关,进而确定是否将其返回。所谓的贝叶斯最优决策定理其实很简单,当 P(R|x) > P(NR|x) (也就是 P(R|x) > 0.5)时,我们认定该文档是相关文档,将其返回。

同时,我们需要知道,在 1/0 损失的情况下,PRP 对于最小化期望损失(也称为贝叶斯风险)而言是最优的。所谓的 1/0 损失就是在返回一篇不相关文档 (Nonrelevant Document) 或者没有返回相关文档的情况下,即 FP 和 FN 时,将失去 1 分。当然,我们也可以假定检索中存在检索代价,在此基础上可以得到检索模型。在了解了 PRP 的原理之后,我们现在有一个亟待解决的问题,那就是,我们怎样得到 P(R|x) (即P(R|q, d)),这个概率是一切的基础,没有它我们也无法进行上述的所有操作。

2. 二值独立模型 (Binary Independence Model)

这节要介绍的BIM(binary independence model,二值独立模型)是在传统上随同PRP 一起使用的一种模型。为了能够在实际中对概率函数P(R|d,q)进行估计,该模型中引入了一些简单的假设。我们现在把这个名词拆解开来理解:

首先,什么是 "二值 (Binary) "。在这里,二值等价于布尔值 (Boolean) ,文档和查询都表示为词项出现与否的布尔向量。也就是说,文档 d 表示为向量 x = (x1, …, xM) 其中当词项 t 出现在文档 d 中时,xt=1,否则 xt=0。类似地,我们将查询 q 表示成词项出现向量 q(由于查询 q 通常就是采用一系列词项的集合来表示,所以 q 和 q 的之间的区别并不十分重要。 如果有印象的话,我们在之前的向量空间模型中对此有了一定的介绍。

 

接下来,我们来看 “独立性 (Independence) ”。所谓的 “独立性” 指的是词项在文档中的出现是互相独立的,BIM 并不识别词项之间的关联。独立性假设和实际情况很不相符,但在实际中常常却能给出令人满意的结果。这实质上就是朴素贝叶斯模型 (Naive Bayes Model) 的思想。

因此,BIM 实际上也就是多元贝努利朴素贝叶斯模型 (Bernoulli Naive Bayes Model)。

现在我们已经有了查询 q 和所有文档的二元向量 (binary term incidence vectors),现在我们对每一个文档 d 求其与查询 q 的相关概率 P(R|d, q),为了方便表示,我们用 x 表示文档的二元向量,所以,这个概率表示为 P(R|x, q)。在 BIM 模型中,我们就需要根据 P(R|x, q) 的值,从高到低将文档进行排序。由于 IR 系统关心的只是文档的相对次序,所以这里并不需要直接估计出这个概率值,而是采用其它的更容易计算的排序函数,这中间只需要保证采用排序函数和直接计算概率所得到的文档次序一致即可。因此,我们可以选择使用文档相关性的优势率 (Odds) 来对文档排序,它是相关性概率的单调递增函数。


 相关文章

https://blog.csdn.net/flying_all/article/details/77805285

https://blog.csdn.net/MYJace/article/details/110289887

posted @ 2019-12-27 21:49  guaiguai1111  阅读(1075)  评论(0编辑  收藏  举报