Spiga

随笔档案 - 2010年6月20日

【转】TF-IDF算法扫盲2

2010-06-20 00:25 by 码农.KEN, 1061 visits, 网摘, 收藏, 编辑
摘要:本文转载自http://www.mryang.org/logs/45675845.htmlTF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文... 阅读全文

【转】关键字提取算法之TF-IDF扫盲

2010-06-20 00:20 by 码农.KEN, 596 visits, 网摘, 收藏, 编辑
摘要:TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关 ... 阅读全文