代码改变世界

文章分类 -  自然语言处理

相似图片搜索的原理(二)

2015-04-23 20:54 by Rollen Holt, 667 阅读, 收藏, 编辑
摘要: 文章转自:http://blog.jobbole.com/85956/之前[转过一篇文章,介绍了相似图片的搜索原理](http://www.cnblogs.com/rollenholt/articles/2509202.html),今天又看到了另外一篇文章,用另外一种方式处理这个问题:[相似图片搜索... 阅读全文

漫话中文自动分词和语义识别(下):句法结构和语义结构

2013-10-21 23:28 by Rollen Holt, 730 阅读, 收藏, 编辑
摘要: 转自:http://www.matrix67.com/blog/archives/4870这篇文章是漫话中文分词算法的续篇。在这里,我们将紧接着上一篇文章的内容继续探讨下去:如果计算机可以对一句话进行自动分词,它还能进一步整理句子的结构,甚至理解句子的意思吗?这两篇文章的关系十分紧密,因此,我把前一篇文章改名为了《漫话中文自动分词和语义识别(上)》,这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了,在这里我想把它们写下来,和更多的人一同分享。什么叫做句法结构呢?让我们来看一些例子。“白天鹅在水中游”,这句话是有歧义的,它可能指的是“白天有一只鹅在水中游”,也可能指的是 阅读全文

TF-IDF与余弦相似性的应用(三):自动摘要

2013-10-21 23:27 by Rollen Holt, 435 阅读, 收藏, 编辑
摘要: 转自:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由人完成的摘要叫”人工摘要”,由机器完成的就叫”自动摘要”。许多网站都需要它,比如论文 阅读全文

漫话中文自动分词和语义识别(上):中文分词算法

2013-10-21 23:25 by Rollen Holt, 682 阅读, 收藏, 编辑
摘要: 转自:http://www.matrix67.com/blog/archives/4212记得第一次了解中文分词算法是在Google 黑板报上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”,应该分成“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”? 阅读全文

TF-IDF与余弦相似性的应用(二):找出相似文章

2013-10-21 23:24 by Rollen Holt, 634 阅读, 收藏, 编辑
摘要: 转自:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次,我用TF-IDF 算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,”Google 新闻”在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到“余弦相似性”(cosine similiarity)。下面,我举一个例子来说明,什么是”余弦相似性”。为了简单起见,我们先从句子着手。句子A:我喜欢看电视,不喜欢看电影。句子B:我不喜欢看电视,也不喜欢看电影。请问怎样才能计算上面两 阅读全文

TF-IDF与余弦相似性的应用(一):自动提取关键词

2013-10-21 23:23 by Rollen Holt, 371 阅读, 收藏, 编辑
摘要: 转自:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用 10 分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。让我们从一个实例开始讲起。假定现在有一篇长文《中 阅读全文