2012年5月24日

Hadoop分布式环境下的数据抽样(转)

摘要: http://dongxicheng.org/data-mining/hadoop-sampling/1. 问题由来Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Hadoop之后,该问题便有了新的应用载体。随着数据量的增多,很多数据挖掘算法被转移到MapReduce上实现,而数据挖掘中有个基 本的问题是怎样对数据 阅读全文

posted @ 2012-05-24 10:04 buptLizer 阅读(554) 评论(0) 推荐(0) 编辑

导航