摘要:
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。... 阅读全文
posted @ 2015-06-26 19:44
白开水加糖
阅读(1224)
评论(0)
推荐(0)
摘要:
上个月,Google把"相似图片搜索"正式放上了首页。你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。一个对话框会出现。你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。上传后,Google返回... 阅读全文
posted @ 2015-06-26 19:02
白开水加糖
阅读(332)
评论(0)
推荐(0)
摘要:
二年前,我写了《相似图片搜索的原理》,介绍了一种最简单的实现方法。昨天,我在isnowfy的网站看到,还有其他两种方法也很简单,这里做一些笔记。一、颜色分布法每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图片的直方图很接近,就可以认为它们很相似。任何一种颜色都是由红绿... 阅读全文
posted @ 2015-06-26 18:59
白开水加糖
阅读(260)
评论(0)
推荐(0)
摘要:
有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果... 阅读全文
posted @ 2015-06-26 18:58
白开水加糖
阅读(199)
评论(0)
推荐(0)
摘要:
上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举... 阅读全文
posted @ 2015-06-26 18:56
白开水加糖
阅读(216)
评论(0)
推荐(0)
摘要:
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非... 阅读全文
posted @ 2015-06-26 18:54
白开水加糖
阅读(190)
评论(0)
推荐(0)
摘要:
生活中很多场合需要用到分类,比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。 症状 职业 ... 阅读全文
posted @ 2015-06-26 18:52
白开水加糖
阅读(289)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2015-06-26 18:24
白开水加糖
阅读(2)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2015-06-26 18:12
白开水加糖
阅读(1)
评论(0)
推荐(0)