海量数据处理算法(top K问题)
摘要:
举例 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 思路 首先把文件分开 针对每个文件hash遍历,统计每个词语的频率 使用堆进行遍历 把堆归并起来 具体的方案 1.分治: 顺序读文件中,对于每个词c,取hash(c)%2000 阅读全文
posted @ 2018-07-11 17:08 荣耀王者 阅读(404) 评论(0) 推荐(0) 编辑