基于贝叶斯平均的新词发现算法

这里对“热词”的定义是:

某一时间段内起点低,增长迅速

贝叶斯平均算法的计算公式是:

\[WR=\frac{v}{v+m}R+\frac{m}{v+m}C \]

  • WR, 加权得分。
    • R,该词基础得分。
    • v,该词的词频。
    • m,平均词频数。
    • C, 所有词的平均基础得分。

R的计算公式:

\[R = \frac{今天词频}{今天词频 + 前一天的词频} \]

举例:

前一天的词频 今天的词频 基础得分 加权得分
A 5 10 0.66 0.619
B 50 100 0.66 0.640
C 50 50 0.50 0.552
average m = 88.33 C = 0.61

简单解释上面的公式,加权得分由两部分组成,一个是该词的基础得分,另一个是所有词的平均基础得分,\(\frac{v}{v+m}\)\(\frac{m}{v+m}\)分别是这两部分的系数;当v=0时,WR实际取的C;当v越来越大时,R的占比会越来越大。达到效果是,当该词的R > C时,在相同R的前提下,v越大WR越大。如上面的例子,A和B的基础得分都是0.66,但因此B的词频数量更多,所以B的热值更大。

另一种直觉上的解释是,回归到投票的场景,现在要对每一个词进行打分,每个词的票数是前一天和今天的词频总数,每个词的基础得分是今天词频占总词频的占比.

posted @ 2021-06-02 10:10  hwYang  阅读(273)  评论(0编辑  收藏  举报