随笔分类 -  NLP笔记

摘要:本篇博客的目的不是深刻的讲解特征提取和特征选择的方法,而是区分清楚他们之间的关系和区别,让大家对特征抽取 特征选择 PCA LDA有个概念框架上的了解,为大家的下一步的深入理解打好基础。 如果我的理解有问题,请大家提出意见,互相交流。本文来自csdn1.特征抽取 V.S 特征选择 特征抽取和特... 阅读全文
posted @ 2015-08-08 16:33 白开水加糖 阅读(6144) 评论(0) 推荐(0)
摘要:一、原理讲解 实现这种功能的关键技术叫做"感知哈希算法"(Perceptual Hash Algorithm), 意思是为图片生成一个指纹(字符串格式), 两张图片的指纹越相似, 说明两张图片就越相似. 但关键是如何根据图片计算出"指纹"呢? 下面用最简单的步骤来说明一下原理: 《1》、第一步... 阅读全文
posted @ 2015-07-19 21:30 白开水加糖 阅读(2470) 评论(1) 推荐(1)
摘要:上个月,Google把"相似图片搜索"正式放上了首页。你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。一个对话框会出现。你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。上传后,Google返回... 阅读全文
posted @ 2015-06-26 19:02 白开水加糖 阅读(337) 评论(0) 推荐(0)
摘要:二年前,我写了《相似图片搜索的原理》,介绍了一种最简单的实现方法。昨天,我在isnowfy的网站看到,还有其他两种方法也很简单,这里做一些笔记。一、颜色分布法每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图片的直方图很接近,就可以认为它们很相似。任何一种颜色都是由红绿... 阅读全文
posted @ 2015-06-26 18:59 白开水加糖 阅读(262) 评论(0) 推荐(0)
摘要:有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果... 阅读全文
posted @ 2015-06-26 18:58 白开水加糖 阅读(202) 评论(0) 推荐(0)
摘要:上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举... 阅读全文
posted @ 2015-06-26 18:56 白开水加糖 阅读(218) 评论(0) 推荐(0)
摘要:这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非... 阅读全文
posted @ 2015-06-26 18:54 白开水加糖 阅读(192) 评论(0) 推荐(0)
摘要:生活中很多场合需要用到分类,比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。 症状 职业 ... 阅读全文
posted @ 2015-06-26 18:52 白开水加糖 阅读(291) 评论(0) 推荐(0)