top-k问题

这种问题方式通常有四种:分治、hash、小顶堆、位图

步骤为:

1-先将数据集按照hash方法分解为多个小数据集

2-然后使用trie树/hash统计每一个小数据集中query词频

3-之后用小顶堆求出每个数据集中披绿最高的前k个数

4-在所有的topk中秋所有的topk

 

posted @ 2016-06-12 17:57  mxgboy  阅读(132)  评论(0编辑  收藏  举报