NLP基础笔记----BM25

***************************原文   https://www.jianshu.com/p/53e379483f3e  **********************************

BM25算法,通常用来作为搜索相关性评分

一句话概括主要思想:对用户query进行语素解析(jieba分词),生成语素列表querylist,然后对每个语素成员i,计算搜索结果D与i的相关性得分,i与用于query的相关性得分,

那么语素列表中i的重要性得分为  score(i)=i对文档的权重*i和文档的相关性*i和query的相关性

然后将语素列表querylist各个i的得分进行相加

*****************************************原文   https://blog.csdn.net/qq_15906905/article/details/103531835   ********************************

优缺点:

适用于:在文档包含查询词的情况下,或者说查询词精确命中文档的情况下,如何计算相似度,如何对内容进行排序

不是用:基于传统检索模型的方法会存在一个固有缺陷,就是检索模型只能处理query和document有重合词的情况,传统检索模型无法处理词语的语义相关性。

 

posted @ 2021-07-29 16:16  大大的海棠湾  阅读(78)  评论(0)    收藏  举报