TF-IDF算法以及场景应用

一个很有趣的个人博客,不信你来撩 fangzengye.com

解释

TF（Term Frequency，缩写为TF）：词频，某一词条（item）出现的频度。为归一化要除以该篇文档的所有item。
$TF=\frac{item出现的次数}{该篇文档所有的item}$
IDF（Inverse Document Frequency，缩写为IDF）：逆文本频率。需要有一个语料库corpus。公式如下
$TF=-log(\frac{文档出现item的篇数+1}{语料库中的文档数})$
故该item的TF-IDF的值：
$T F - I D F = T F * I D F$

应用

如果我在一个搜索引擎输入关键词 $item_1,...,item_n$ ，那么该引擎后端就会遍历所有语料库，计算每篇文章该 $item_1,...,item_n$ 的 $T F - I D F$ 值相加得到 $TF-IDF_1,...,TF-IDF_n$ ，然后向搜索者推荐TF-IDF最高的那几篇文章。

posted @ 2020-04-23 09:35 开源的Boy 阅读(282) 评论(0) 收藏举报

刷新页面返回顶部

TF-IDF算法以及场景应用

一个很有趣的个人博客,不信你来撩 fangzengye.com

解释

应用

公告