2014 年 9月 24 日随笔档案 - 勿妄

2014年9月24日

摘要：转载：http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但... 阅读全文

posted @ 2014-09-24 16:10 勿妄阅读(203) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（二）：找出相似文章

摘要：转载：http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在... 阅读全文

posted @ 2014-09-24 16:01 勿妄阅读(185) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（一）：自动提取关键词

摘要：转载：http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎... 阅读全文

posted @ 2014-09-24 16:00 勿妄阅读(201) 评论(0) 推荐(0)

搜索引擎与网页文本分词的原理

摘要：对于SEO人员来说，自己工作的主要目标就是搜索引擎，所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化，这就相当于两国交兵，必须要知道对方的虚实，再分析自己的优势，然后才能够一举进兵消灭对方，如果你还不知道对方的虚实，别人以逸待劳，那你失败是肯定的了!而在分析搜索引擎方面，知道其运行机制和... 阅读全文

posted @ 2014-09-24 15:46 勿妄阅读(1160) 评论(0) 推荐(0)

TF-IDF算法扫盲2

摘要： TF-IDF算法是一种简单快捷的文档特征词抽取方法，通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件... 阅读全文

posted @ 2014-09-24 15:33 勿妄阅读(1384) 评论(0) 推荐(0)

关键字提取算法之TF-IDF扫盲

摘要： TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它... 阅读全文

posted @ 2014-09-24 15:29 勿妄阅读(939) 评论(0) 推荐(0)

基于高维聚类技术的中文关键词提取算法

摘要： [摘要]关键词提取是中文信息处理技术的热点和难点，基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题，提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示，基于高维聚类技... 阅读全文

posted @ 2014-09-24 14:56 勿妄阅读(1968) 评论(0) 推荐(0)

文本关键词提取算法

摘要： 1.TF-IDF2.基于语义的统计语言模型文章关键词提取基础件能够在全面把握文章的中心思想的基础上，提取出若干个代表文章语义内容的词汇或短语，相关结果可用于精化阅读、语义查询和快速匹配等。采用基于语义的统计语言模型，所处理的文档不受行业领域限制，且能够识别出最新出现的新词语，所输出的词语可以配以权重... 阅读全文

posted @ 2014-09-24 14:37 勿妄阅读(11455) 评论(0) 推荐(1)

勿忘

公告