TF-IDF算法以及场景应用
一个很有趣的个人博客,不信你来撩 fangzengye.com
解释
TF(Term Frequency,缩写为TF):词频,某一词条(item)出现的频度。为归一化要除以该篇文档的所有item。
T
F
=
i
t
e
m
出
现
的
次
数
该
篇
文
档
所
有
的
i
t
e
m
TF=\frac{item出现的次数}{该篇文档所有的item}
TF=该篇文档所有的itemitem出现的次数
IDF(Inverse Document Frequency,缩写为IDF):逆文本频率。需要有一个语料库corpus。公式如下
T
F
=
−
l
o
g
(
文
档
出
现
i
t
e
m
的
篇
数
+
1
语
料
库
中
的
文
档
数
)
TF=-log(\frac{文档出现item的篇数+1}{语料库中的文档数})
TF=−log(语料库中的文档数文档出现item的篇数+1)
故该item的TF-IDF的值:
T
F
−
I
D
F
=
T
F
∗
I
D
F
TF-IDF=TF*IDF
TF−IDF=TF∗IDF
应用
如果我在一个搜索引擎输入关键词 i t e m 1 , . . . , i t e m n item_1,...,item_n item1,...,itemn,那么该引擎后端就会遍历所有语料库,计算每篇文章该 i t e m 1 , . . . , i t e m n item_1,...,item_n item1,...,itemn的 T F − I D F TF-IDF TF−IDF值相加得到 T F − I D F 1 , . . . , T F − I D F n TF-IDF_1,...,TF-IDF_n TF−IDF1,...,TF−IDFn,然后向搜索者推荐TF-IDF最高的那几篇文章。
浙公网安备 33010602011771号