代码改变世界

随笔分类 -  海量数据

海量数据处理

2019-03-06 20:44 by xiaok1024, 305 阅读, 收藏, 编辑
摘要: TOP N问题 如何在海量数据中找出重复最多一个。 通过hash映射为小文件 通过hash_map统计各个小文件重读最多的并记录次数 对每个小文件重复最多的进行建立大根堆 通过hash映射为小文件 通过hash_map统计各个小文件重读最多的并记录次数 对每个小文件重复最多的进行建立大根堆 上亿有重 阅读全文