2012 年 5月 24 日随笔档案 - buptLizer

2012年5月24日

Hadoop分布式环境下的数据抽样（转）

摘要： http://dongxicheng.org/data-mining/hadoop-sampling/1. 问题由来Google曾经有一道非常经典的面试题：给你一个长度为N的链表。N很大，但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个，且它们是完全随机的（出现概率均等）？这道题的解法非常多，网上讨论也非常热烈。本文要讨论的是，这个问题是从何而来，有什么实用价值？自从有了Hadoop之后，该问题便有了新的应用载体。随着数据量的增多，很多数据挖掘算法被转移到MapReduce上实现，而数据挖掘中有个基本的问题是怎样对数据阅读全文

posted @ 2012-05-24 10:04 buptLizer 阅读(554) 评论(0) 推荐(0) 编辑

buptLizer

Hadoop分布式环境下的数据抽样（转）

导航

公告