摘要:
了解余弦相似性,首先要明白余弦定理。此处是指向量的余弦定理。n维向量A = (a1, a2, a3, ... , an)n维向量B = (b1, b2, b3, ... , bn)向量A,B之间的夹角θ的余弦 cosθ = A• B / (|A|*|B|) 阅读全文
posted @ 2015-04-07 22:00
dmJason
阅读(56)
评论(0)
推荐(0)
摘要:
文章关键词提取最简单经典的算法。首先给出TF-IDF的计算公式:TF-IDF = TF * IDFTF = 文章的某个词频 = 某个词出现的次数 / 所有词出现的总次数IDF = 逆文档频率 = log(语料库的文档总数 / (包含该词的文档数 + 1)) // log函数防止IDF值太小而溢出为0... 阅读全文
posted @ 2015-04-07 21:11
dmJason
阅读(129)
评论(0)
推荐(0)

浙公网安备 33010602011771号