所以燃

Information Retrieval --- Retrieval Model

一、布尔模型

AND查询:倒排记录表的合并(求交集)

OR查询:倒排记录表的并集

查询优化:按df从小到大处理

 

二、向量空间模型

2.1 基本tf-idf向量空间模型

image

a.查询与文档的相关度采用余弦相似度计算:

image

b.tf-idf权重计算(对数词频-逆文档频率):

image

image

c.文档长度归一化:平衡短文档和长文档,降低短文档的相似度,提高长文档的相似度。

image

2.2 隐形语义索引LSI(降维后的空间向量模型):对词项-文档矩阵进行SVD分解(奇异值分解)。

image

image

image

image

image

 

三、概率检索模型

1.Logistic回归(特征选择困难)

基本思想:为了求Q和D相关的概率P(R=1|Q,D),通过定义多个特征函数fi(Q,D),认为P(R=1|Q,D)是这些函数的组合。

image

2.二值独立概率模型BIM(假设条件独立,需要估计参数)

基本思想:BIM模型通过Bayes公式对所求条件概率P(R=1|Q,D)展开进行计算。对于同一Q,P(R=1|Q,D)可以简记为P(R=1|D)。

image

a.多元伯努利分布(考虑是否出现)

b.多项分布(考虑出现次数)

image

*pi,qi参数计算

image

image

3.BestMatch BM25模型

image

 

四、语言检索模型

1.统计语言模型:文档中语句的生成满足某些规则,并服从统计规律。

image

image

2.查询似然模型QLM(文档以多项分布生成)

基本思想:检索问题转化为估计文档D的一元语言模型MD,也即求所有词项w的概率P(w|MD)

image

image

3.翻译模型:X为文档,Y为查询。

image

image

4.KL距离(相对熵)模型

image

 

五、基于排序机器学习的检索模型

1.基于布尔权重学习

image

2.基于实数权重学习:带松弛变量的SVM

基本思想:评分函数是两个因子的线性组合:
1 查询和文档的向量空间相似度评分 (记为 α)
2 查询词项在文档中存在的最小窗口宽度 (记为 ω)

image

3.基于序回归的排序学习

image

image

posted on 2013-12-16 20:56  Jizhiyuan  阅读(818)  评论(0编辑  收藏  举报

导航