随笔分类 -  搜索与算法

摘要:(一) 国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2古代汉语语料库http://ww... 阅读全文
posted @ 2014-09-25 16:27 勿妄 阅读(21661) 评论(0) 推荐(1)
摘要:转载:码农场 » TextRank算法提取关键词的Java实现谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。TextRank是在 Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理... 阅读全文
posted @ 2014-09-25 15:43 勿妄 阅读(3064) 评论(0) 推荐(0)
摘要:(这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。)使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。比如,你不小心输入了seperate。Google告诉你,这个词是不存在的,正确的拼法是separate。这就叫做"拼写检查"(spelling ... 阅读全文
posted @ 2014-09-25 14:51 勿妄 阅读(376) 评论(0) 推荐(0)
摘要:转载:http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html生活中很多场合需要用到分类,比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。... 阅读全文
posted @ 2014-09-25 14:31 勿妄 阅读(259) 评论(0) 推荐(0)
摘要:转载:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但... 阅读全文
posted @ 2014-09-24 16:10 勿妄 阅读(199) 评论(0) 推荐(0)
摘要:转载:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在... 阅读全文
posted @ 2014-09-24 16:01 勿妄 阅读(182) 评论(0) 推荐(0)
摘要:转载:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎... 阅读全文
posted @ 2014-09-24 16:00 勿妄 阅读(196) 评论(0) 推荐(0)
摘要:对于SEO人员来说,自己工作的主要目标就是搜索引擎,所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后才能够一举进兵消灭对方,如果你还不知道对方的虚实,别人以逸待劳,那你失败是肯定的了!而在分析搜索引擎方面,知道其运行机制和... 阅读全文
posted @ 2014-09-24 15:46 勿妄 阅读(1153) 评论(0) 推荐(0)
摘要:TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件... 阅读全文
posted @ 2014-09-24 15:33 勿妄 阅读(1379) 评论(0) 推荐(0)
摘要:TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它... 阅读全文
posted @ 2014-09-24 15:29 勿妄 阅读(936) 评论(0) 推荐(0)
摘要:[摘要]关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技... 阅读全文
posted @ 2014-09-24 14:56 勿妄 阅读(1961) 评论(0) 推荐(0)
摘要:1.TF-IDF2.基于语义的统计语言模型文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重... 阅读全文
posted @ 2014-09-24 14:37 勿妄 阅读(11452) 评论(0) 推荐(1)